使用Google Colab和OpenAi语音转文字API（Whisper）提取并学习音频、视频中的单词

本文介绍如何在Google Colab中使用Open AI的Whisper语音转文字API将音频或视频转换为SRT文件并导入《简忆生词本》的音频目录，以便学习和记忆其中的单词并练习外语听力。

2. 点击“添加笔记本”，在上方“代码执行程序”菜单中选择“更改运行时类别”，在“硬件加速器”中选择GPU。

3. 在笔记本中输入以下代码并点击左侧运行按钮：

!pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg

4. 如果要提取视频文件中的文本，可以在Mac上输入以下命令将视频转换为mp3：

brew install ffmpeg

ffmpeg -I input.mp4 input.mp3

5. 点击Colab左侧目录图标，将音频文件拖拽到Colab文件视图中并等待上传完成。

6. 在笔记本中输入以下代码并运行：

!whisper input.mp3 —-model medium （英文语音使用）

!whisper input.mp3 —-model medium —-language ja （日语语音使用）

7. 运行完成后，在左侧文件视图中选择input.srt，并点击右侧三个圆点，选择“下载”。

8. 打开《简忆生词本》APP，点击添加目录，并选择“添加音频目录（文件）”或“添加视频目录（文件）”，并选择视频或语音文件的位置。

9. 在新添加的音频/视频目录中，点击右上角三个圆点的图标，并选择“导入歌词、字幕文件”，并选择刚刚下载的SRT文件。

使用Google Colab和OpenAi语音转文字API（Whisper）提取并学习音频、视频中的单词