OpenAIの「Whisper」を使って文字起こしする方法

とりあえず、googlecolabに移動する


画像のノートブックを新規作成をクリック


こんな感じの画面になるので、再生ボタンの横の欄に


    !pip install git+https://github.com/openai/whisper.git


を打ち込み再生ボタンをおして実行する。

実行が終わったら、画面左上のコードを追加するボタンを押し、さっきと同様に


    import whisper


と打ち込み実行。


ファイルアイコンをクリックして、contentフォルダを探し右クリック。

アップロードがメニューにあるので、変換したいファイルを選択する。

アップロードが終わったら、


    model = whisper.load_model("large") 

    result = model.transcribe("2023.mp3")

    print(result["text"])


上記のコードを追加し、実行する。

品質は、largeと書いてあるところをいじれば良い。以下を参考にして調整する。

ファイルは2023.mp3のところを適当な値にする。Whisper自体に、FFmpegがあるらしいので、試してはいないが動画ファイルもいけると思う。


コメント

このブログの人気の投稿

FFmpegで画像のピクセルサイズを指定して、変換する方法 忘備録

画像生成AI Stable Diffusionを使って画像出力する。その1