使用Google Colab和OpenAi语音转文字API(Whisper)提取并学习音频、视频中的单词

本文介绍如何在Google Colab中使用Open AI的Whisper语音转文字API将音频或视频转换为SRT文件并导入《简忆生词本》的音频目录,以便学习和记忆其中的单词并练习外语听力。

1. 在浏览器中打开网址 https://colab.research.google.com

2. 点击“添加笔记本”,在上方“代码执行程序”菜单中选择“更改运行时类别”,在“硬件加速器”中选择GPU。

3. 在笔记本中输入以下代码并点击左侧运行按钮:

!pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg

4. 如果要提取视频文件中的文本,可以在Mac上输入以下命令将视频转换为mp3:

brew install ffmpeg

ffmpeg -I input.mp4 input.mp3

5. 点击Colab左侧目录图标,将音频文件拖拽到Colab文件视图中并等待上传完成。

6. 在笔记本中输入以下代码并运行:

!whisper input.mp3 —-model medium (英文语音使用)

!whisper input.mp3 —-model medium —-language ja (日语语音使用)

7. 运行完成后,在左侧文件视图中选择input.srt,并点击右侧三个圆点,选择“下载”。

8. 打开《简忆生词本》APP,点击添加目录,并选择“添加音频目录(文件)”或“添加视频目录(文件)”,并选择视频或语音文件的位置。

9. 在新添加的音频/视频目录中,点击右上角三个圆点的图标,并选择“导入歌词、字幕文件”,并选择刚刚下载的SRT文件。

进一步参考

  1. https://www.youtube.com/watch?v=8SQV-B83tPU
  2. 通过外语歌曲提高外语听力的有效方法
  3. 通过外语电影、动画提高外语听力的有效方法
使用Google Colab和OpenAi语音转文字API(Whisper)提取并学习音频、视频中的单词

发表回复

必填项已用*标注

滚动到顶部