OpenAIの「Whisper」を使って文字起こしする方法

とりあえず、googlecolabに移動する

画像のノートブックを新規作成をクリック

こんな感じの画面になるので、再生ボタンの横の欄に

　　　　!pip install git+https://github.com/openai/whisper.git

を打ち込み再生ボタンをおして実行する。

実行が終わったら、画面左上のコードを追加するボタンを押し、さっきと同様に

　　　　import whisper

と打ち込み実行。

ファイルアイコンをクリックして、contentフォルダを探し右クリック。

アップロードがメニューにあるので、変換したいファイルを選択する。

アップロードが終わったら、

　　　　model = whisper.load_model("large")

　　　　result = model.transcribe("2023.mp3")

　　　　print(result["text"])

上記のコードを追加し、実行する。

品質は、largeと書いてあるところをいじれば良い。以下を参考にして調整する。

ファイルは2023.mp3のところを適当な値にする。Whisper自体に、FFmpegがあるらしいので、試してはいないが動画ファイルもいけると思う。

MekannのPC&Audio部屋