クイックノート

ちょっとした発見・アイデアから知識の発掘を

文字起こしとLLMで新しい執筆体験

今回は、AIを使った新しいブログの執筆スタイルを紹介したいと思います。

この方法では、キーボードで文字を打ち込むことなく、
声でブログの内容を話すだけで記事を作成します。

少し前から音声入力も実用的なレベルとなっていましたが、
音声入力よりも自然に話すことで記事の執筆ができるところが特徴になります。

音声入力との違い

キーボードを使わないテキストの入力方法として、音声入力機能を使う方法があります。

音声入力では、話した内容がそのままPC、スマホ上にテキストとして入力されていきます。
ブログの記事を音声入力しようと思うと、
書き言葉を口で話す必要があります。
一方で、今回紹介する方法では、話し言葉のまま自然に話すだけで執筆ができます。

また、音声入力では、基本的に画面を見ながら認識された文字を確認しながら話すという形になりやすいです。
一方で、文字起こしの場合は、適当なボイスレコーダーアプリを使って音声を録音します。
感覚としてはラジオの収録に近く、口を使ったアウトプットとして自然な形になります。

執筆の流れ

それでは具体的な執筆方法を紹介します。
執筆は以下の流れで行います。

  1. ボイスレコーダーアプリで録音
  2. Whisperで文字起こし
  3. LLM(ChatGPT)で記事として整形

ボイスレコーダーアプリで録音

コンテンツの内容を声で話し、
それをボイスレコーダーアプリで録音します。

ボイスレコーダーは何を使ってもいいのですが、
後に説明する自動化のためにも、
クラウドストレージに自動的にアップロードできるものをおすすめします。

Whisperで文字起こし

OpenAIが提供しているWhisperを使って文字起こしをします。
Whisperはオープンソースとして公開されているので、
ローカルで動かせる場合は無料で使用することができます。

LLMで記事として整形

話し言葉と書き言葉は違うので、
文字起こしの内容をそのまま記事にできることは稀でしょう。

ここでは、ChatGPTなどのLLMを使って、
文字起こしの文章を記事として整形します。

以下はプロンプト例です。

以下の文章を参考にブログ記事を生成してください。
- 形式はmarkdownで生成してください
- 書き言葉を使って下さい
- 詳細に書いて下さい
- 足りない情報は自分で考えて補って下さい
- 語尾はです、ます調として下さい

# 入力文章
{ここに文字起こし文章を入力}

処理の自動化

ツールを組み合わせて使うのが面倒なので、
自動化しています。

そのため、実際にはボイスレコーダーで録音すれば、
そのまま自動的に記事が生成されるという形になります。

graph LR
%%{init:{'themeVariables':{'lineColor':'white'}}}%%
ボイスレコーダー --> gd[(googleドライブ)]
gd --> whisper 
whisper --> ChatGPT

まとめ

文字起こしとLLMを利用することで、喋った内容を効果的に記事にまとめることができます。将来的にはサービス化するのもありかもしれません。とりあえず、自分で使ってみて、実験中です。

プライバシーポリシー