Windowsで、openai-whisperを使って文字起こしを行う方法 step-by-step

OpenAI は whisper という文字起こしができるソフトウェアを提供しています。
オープンソース版を使えば、料金がかかることなく使うことができるのですが、Windowsでのセットアップはやや厄介です。
このため、Windowsでのセットアップの方法を解説していきます。また、公開されているサンプルデータを使って、実際に文字起こしにもトライしてみます。

セットアップ(1)

セットアップするのは以下の3つです。

  • Python3
  • ffmepg
  • openai-whisper

まず、最初に Python3 と ffmpeg をインストールします。

Python3

Python3はMicrosoft Storeからインストールすることが簡単です。

  • Windowsの左下の検索に “microsoft” と入れ、Microsoft Storeを開きます。

  • 上部の検索窓に python3 といれ、現時点での最新版 Python 3.13 をインストールします。Pythonのバージョンは 3.8以降であれば大丈夫です。根拠は、openai-whisper の説明ページです。https://pypi.org/project/openai-whisper/ なお、ここには3.8-3.11とありますが、3.13でも問題なく動きました。

ffmpeg

ffmpegはオーディオファイルの変換に使われるプログラムです。ffmpegはインストーラーがありませんが、Powershellでwingetというプログラムを使うことでインストールとパスの設定までできます。

  • Windowsの左下の検索ウィンドウに “powershell” と入力し、「管理者として実行する」をクリックします。

  • そうすると、Powershellが起動します。そこで、以下のようにタイプします。

winget install ffmpeg
  • これにより、ffmpegのダウンロード、インストール、パス設定が行われます。

再起動

  • パスの設定を確実にするために、ここで一度再起動してください。

音声ファイルの入手

手元に音声ファイルがあるのであればこれは不要です。ないようであれば、国語研コーパスポータルに学会講演のサンプル音声データがありましたので、そちらをダウンロードします。リンクはこちらになります。なお、音声ファイルは個別のフォルダの中に保存してください。今、私は、「ダウンロード」の下に「whisper-test」というフォルダを作成して、その下に aps-smp.mp3 をダウンロードしました。

Powershellの起動

openai-whisper を入力するために、Powershellを起動します。この際、テストまで一気にできるように、音声ファイルを保存したフォルダからPowershellを起動します。

  • エクスプローラーで、音声ファイルを保存した場所に移動します。
  • フォルダの何もないところで、右クリックし、「ターミナルで開く」をクリックします。

Pythonの確認

  • ここで、Pythonが起動するか確認します。

  • ターミナルから以下のようにタイプしてください。

python3 --version
  • これで、 Python 3.13.5 などのように表示されたらPythonは正しくインストールされています。

ffmepgの確認

  • 同様に、ffmpeg も確認します。

  • ターミナルから以下のようにタイプしてください。今回はハイフンは1つなので注意してください。

ffmpeg -version
  • 以下のようになったら正しく設定されています。

セットアップ(2)

  • ここまで来たら openai-whisper がインストールできます。ターミナルから以下をタイプします。
pip install openai-whisper

これでインストールできるのですが、ひとつ注意は、本来はパスを設定しなければいけません。
しかし、それはめんどくさいので、以下で、それを回避して実行する方法を示します。

whisperの実行

  • それでは、早速実行します。先程書いたように、この状態では、whisperにパスが通っていないのですが、ひとつの工夫で実行できます。それは、 python -m を頭につけることです。これをすると、whisperを python のモジュールとして実行できます。

  • 以下のようにしてください。

python3 -m whisper aps-smp.mp3 --language ja
  • ご自身の音声ファイルがある場合、”aps-smp.mp3″ はご自身の音声ファイルに置き換えてください。

  • より細かい設定を知りたい場合は、以下で設定を知れます。

python3 -m whisper -h

結果の確認

  • 結果はいくつかできますが、拡張子に txt がついているものはそのままWordなどにはりつけたりできるものとなります。これを生成AIに入力して議事録作成などにもできるでしょう。

(おまけ)Ubuntuの場合のセットアップ

  • Ubuntuの場合、もっと話は簡単です。以下でセットアップできます。python3は入っていますのでインストール不要です。
sudo apt install ffmpeg
pip install openai-whisper

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください