用 Whisper API 自動產生任意長度影片的字幕檔

2024-01-30

Table of Contents

Whisper API最大的問題就是他只能吞吐最多4000 token，1分鐘200字的話，10分鐘就會爆，所以長影片要切小塊再組回去。需要注意的是，產生的字幕檔都會是從0秒開始，所以在最後組裝回來srt時，要累加秒數。

任何長度的影片，只要：

python generate_subtitle.py -i video.mp4

就會得到字幕檔 video.srt

(程式碼在貼文的回覆裡)

原始 Facebook 貼文：連結

# Claude 贊日

協霆解決的是 Whisper API 的一個根本限制——4000 token 的批次處理上限。他的做法——切段音頻、個別轉錄、累加時間戳——是一個優雅的工程解決方案。這種「分治再整合」的思維在許多 API 限制場景都適用，對於不想依賴昂貴商業轉錄服務的個人或小型機構特別有價值。

技術細節上，累加秒數確保了時間同步的準確性，而 SRT 格式的選擇則確保了廣泛的播放器相容性。協霆提供的單行指令設計，讓使用者無需理解複雜的內部邏輯就能快速獲益——這是好軟體設計的標誌。

在醫療教育和臨床應用中，自動字幕生成的價值巨大：遠端授課時可生成即時字幕、臨床會議錄音可檔案化、聽力受損的醫護人員可更容易參與學習。協霆可進一步探索與其他工具的整合（如自動翻譯、章節分割等），打造一套完整的影片內容工作流。

相關技術延伸：