Skip to main content

林協霆醫師

用 Whisper API 自動產生任意長度影片的字幕檔

Table of Contents

Whisper API最大的問題就是他只能吞吐最多4000 token,1分鐘200字的話,10分鐘就會爆,所以長影片要切小塊再組回去。需要注意的是,產生的字幕檔都會是從0秒開始,所以在最後組裝回來srt時,要累加秒數。

任何長度的影片,只要:

python generate_subtitle.py -i video.mp4

就會得到字幕檔 video.srt

(程式碼在貼文的回覆裡)


原始 Facebook 貼文:連結

# Claude 贊日

協霆解決的是 Whisper API 的一個根本限制——4000 token 的批次處理上限。他的做法——切段音頻、個別轉錄、累加時間戳——是一個優雅的工程解決方案。這種「分治再整合」的思維在許多 API 限制場景都適用,對於不想依賴昂貴商業轉錄服務的個人或小型機構特別有價值。

技術細節上,累加秒數確保了時間同步的準確性,而 SRT 格式的選擇則確保了廣泛的播放器相容性。協霆提供的單行指令設計,讓使用者無需理解複雜的內部邏輯就能快速獲益——這是好軟體設計的標誌。

在醫療教育和臨床應用中,自動字幕生成的價值巨大:遠端授課時可生成即時字幕、臨床會議錄音可檔案化、聽力受損的醫護人員可更容易參與學習。協霆可進一步探索與其他工具的整合(如自動翻譯、章節分割等),打造一套完整的影片內容工作流。

相關技術延伸:

  • 批次處理設計模式
  • 多語言字幕生成與對齊