Windowsで、openai-whisperを使って文字起こしを行う方法 step-by-step

OpenAI は whisper という文字起こしができるソフトウェアを提供しています。
オープンソース版を使えば、料金がかかることなく使うことができるのですが、Windowsでのセットアップはやや厄介です。
このため、Windowsでのセットアップの方法を解説していきます。また、公開されているサンプルデータを使って、実際に文字起こしにもトライしてみます。

セットアップ(1)

セットアップするのは以下の3つです。

  • Python3
  • ffmepg
  • openai-whisper

まず、最初に Python3 と ffmpeg をインストールします。

Python3

Python3はMicrosoft Storeからインストールすることが簡単です。

  • Windowsの左下の検索に “microsoft” と入れ、Microsoft Storeを開きます。

  • 上部の検索窓に python3 といれ、現時点での最新版 Python 3.13 をインストールします。Pythonのバージョンは 3.8以降であれば大丈夫です。根拠は、openai-whisper の説明ページです。https://pypi.org/project/openai-whisper/ なお、ここには3.8-3.11とありますが、3.13でも問題なく動きました。

ffmpeg

ffmpegはオーディオファイルの変換に使われるプログラムです。ffmpegはインストーラーがありませんが、Powershellでwingetというプログラムを使うことでインストールとパスの設定までできます。

  • Windowsの左下の検索ウィンドウに “powershell” と入力し、「管理者として実行する」をクリックします。

  • そうすると、Powershellが起動します。そこで、以下のようにタイプします。

winget install ffmpeg
  • これにより、ffmpegのダウンロード、インストール、パス設定が行われます。

再起動

  • パスの設定を確実にするために、ここで一度再起動してください。

音声ファイルの入手

手元に音声ファイルがあるのであればこれは不要です。ないようであれば、国語研コーパスポータルに学会講演のサンプル音声データがありましたので、そちらをダウンロードします。リンクはこちらになります。なお、音声ファイルは個別のフォルダの中に保存してください。今、私は、「ダウンロード」の下に「whisper-test」というフォルダを作成して、その下に aps-smp.mp3 をダウンロードしました。

Powershellの起動

openai-whisper を入力するために、Powershellを起動します。この際、テストまで一気にできるように、音声ファイルを保存したフォルダからPowershellを起動します。

  • エクスプローラーで、音声ファイルを保存した場所に移動します。
  • フォルダの何もないところで、右クリックし、「ターミナルで開く」をクリックします。

Pythonの確認

  • ここで、Pythonが起動するか確認します。

  • ターミナルから以下のようにタイプしてください。

python3 --version
  • これで、 Python 3.13.5 などのように表示されたらPythonは正しくインストールされています。

ffmepgの確認

  • 同様に、ffmpeg も確認します。

  • ターミナルから以下のようにタイプしてください。今回はハイフンは1つなので注意してください。

ffmpeg -version
  • 以下のようになったら正しく設定されています。

セットアップ(2)

  • ここまで来たら openai-whisper がインストールできます。ターミナルから以下をタイプします。
pip install openai-whisper

これでインストールできるのですが、ひとつ注意は、本来はパスを設定しなければいけません。
しかし、それはめんどくさいので、以下で、それを回避して実行する方法を示します。

whisperの実行

  • それでは、早速実行します。先程書いたように、この状態では、whisperにパスが通っていないのですが、ひとつの工夫で実行できます。それは、 python -m を頭につけることです。これをすると、whisperを python のモジュールとして実行できます。

  • 以下のようにしてください。

python3 -m whisper aps-smp.mp3 --language ja
  • ご自身の音声ファイルがある場合、”aps-smp.mp3″ はご自身の音声ファイルに置き換えてください。

  • より細かい設定を知りたい場合は、以下で設定を知れます。

python3 -m whisper -h

結果の確認

  • 結果はいくつかできますが、拡張子に txt がついているものはそのままWordなどにはりつけたりできるものとなります。これを生成AIに入力して議事録作成などにもできるでしょう。

(おまけ)Ubuntuの場合のセットアップ

  • Ubuntuの場合、もっと話は簡単です。以下でセットアップできます。python3は入っていますのでインストール不要です。
sudo apt install ffmpeg
pip install openai-whisper

Windows 10/11 で、WSL2 を使って FSL をインストールする方法

Windows 10/11 では、Windows Subsystem for Linux (WSL) を使ってUbuntuなどのLinuxをインストールできます。WSL2 を使うと、GPUも使えるとのことです。

しかし、WSL2は基本、コマンドラインです。LinuxのGUIを起動するためには、工夫が必要です。現在、いくつかのアプリが公開されていますが、FSLの公式ページでは、VcXsrv を勧めていますのでそれを使うのが無難でしょう。

Ubuntu 22.04 も発表されて1年が過ぎて安定してきましたので、ここでは、

  • WSL2
  • Ubuntu 22.04
  • VcXsrv

をいれたうえで、FSL をインストールしてみます。

なお、このページは、FSLの公式サイトを参考に作成しました。

続きを読む

Windowsでコマンプロンプトが無効にされているときの裏ワザ

 知人にPCがおかしいから見てくれと相談され、見ました。コマンドプロンプトから確認しようと思ったところ、そのPCが管理されている職場のポリシーで、コマンドプロンプトが無効にされていました…。検索してもあまり方法はありませんでした。
 普通ならそこで諦めるところですが、なんか方法がないかなぁと思い、いろいろ試行錯誤してみました。
 非常に簡単な抜け穴がありました。

 それは、「ショートカットを作成する」という方法です。デスクトップ画面から右クリックで、「新規作成」→「ショートカット」とし、「項目の場所を入力して下さい」となっているところで、”cmd”とタイプします。そうすると、cmd.exeへのショートカットと出てきます。そこからコマンドプロンプトを立ち上げることができます。

 検索すると、Windowsには、コマンドプロンプト自体を無効にするというオプションもあるようですが、いろいろ抜け穴がありそうですね。逆にセキュリティ上はやはりもろいシステムということになるのでしょう。

 このブログでは、Windowsネタはほとんど扱わないと思いますが、気になったことだったのでアップしておきます。