本文介紹如何在Google Colab中使用Open AI的Whisper語音轉文字API將音訊或視訊轉換為SRT文件並導入《簡憶生詞本》的音頻目錄,以便學習和記憶其中的單字並練習外語聽力。
1. 在瀏覽器中開啟網址 https://colab.research.google.com
2. 點選“新增筆記本”,在上方“程式碼執行程式”選單中選擇“更改運行時類別”,在“硬體加速器”中選擇GPU。
3. 在筆記本中輸入以下程式碼並點擊左側運行按鈕:
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
4. 如果要提取視訊檔案中的文字,可以在Mac上輸入以下命令將視訊轉換為mp3:
brew install ffmpeg
ffmpeg -I input.mp4 input.mp3
5. 點選Colab左側目錄圖標,將音訊檔案拖曳到Colab文件視圖中並等待上傳完成。
6. 在筆記本中輸入以下程式碼並運行:
!whisper input.mp3 —-model medium (英文語音使用)
!whisper input.mp3 —-model medium —-language ja (日語語音使用)
7. 運行完成後,在左側文件檢視中選擇input.srt,並點選右側三個圓點,選擇“下載”。
8. 打開《簡憶生詞本》APP,點選新增目錄,並選擇“新增音訊目錄(文件)”或“新增視訊目錄(文件)”,並選擇視訊或語音檔案的位置。
9. 在新加入的音訊/視訊目錄中,點選右上角三個圓點的圖示,並選擇“導入歌詞、字幕檔”,並選擇剛下載的SRT文件。