OpenAIの「Whisper」を使って文字起こしする方法
とりあえず、googlecolabに移動する
画像のノートブックを新規作成をクリック
こんな感じの画面になるので、再生ボタンの横の欄に
!pip install git+https://github.com/openai/whisper.git
を打ち込み再生ボタンをおして実行する。
実行が終わったら、画面左上のコードを追加するボタンを押し、さっきと同様に
import whisper
と打ち込み実行。
ファイルアイコンをクリックして、contentフォルダを探し右クリック。
アップロードがメニューにあるので、変換したいファイルを選択する。
アップロードが終わったら、
model = whisper.load_model("large")
result = model.transcribe("2023.mp3")
print(result["text"])
上記のコードを追加し、実行する。
品質は、largeと書いてあるところをいじれば良い。以下を参考にして調整する。
ファイルは2023.mp3のところを適当な値にする。Whisper自体に、FFmpegがあるらしいので、試してはいないが動画ファイルもいけると思う。
コメント
コメントを投稿