使用Google Colab和OpenAi語音轉文字API(Whisper)提取並學習音頻、視頻中的單詞

本文介紹如何在Google Colab中使用Open AI的Whisper語音轉文字API將音頻或視頻轉換為SRT檔案並匯入《簡憶生詞本》的音頻目錄,以便學習和記憶其中的單字並練習外語聽力。

1. 在瀏覽器中打開網址 https://colab.research.google.com

2. 點擊“添加筆記本”,在上方“代碼執行程序”選單中選擇“更改運行時類別”,在“硬體加速器”中選擇GPU。

3. 在筆記本中輸入以下代碼並點擊左側運行按鈕:

!pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg

4. 如果要提取視頻文件中的文本,可以在Mac上輸入以下命令將視頻轉換為mp3:

brew install ffmpeg

ffmpeg -I input.mp4 input.mp3

5. 點擊Colab左側目錄圖示,將音訊檔案拖曳到Colab檔案檢視並等待上傳完成。

6. 在筆記本中輸入以下程式碼並運行:

!whisper input.mp3 —-model medium (英文語音使用)

!whisper input.mp3 —-model medium —-language ja (日語語音使用)

7. 運行完成後,在左側檔案檢視中選擇input.srt,並點選右側三個圓點,選擇“下載”。

8. 打開《簡憶生詞本》APP,點擊新增目錄,並選擇“新增音訊目錄(文件)”或“新增視訊目錄(文件)”,並選擇視訊或語音檔案的位置。

9. 在新新增的音訊/視訊目錄中,點擊右上角三個圓點的圖示,並選擇“匯入歌詞、字幕文件”,並選擇剛下載的SRT文件。

進一步參考

  1. https://www.youtube.com/watch?v=8SQV-B83tPU
  2. 透過外語歌曲提升外語聽力的有效方法
  3. 透過外語電影、動畫提升外語聽力的有效方法
使用Google Colab和OpenAi語音轉文字API(Whisper)提取並學習音頻、視頻中的單詞

發表回應

必填項已使用*標註

滾動到頂部