用 Whisper API 自動產生任意長度影片的字幕檔
Table of Contents
Whisper API最大的問題就是他只能吞吐最多4000 token,1分鐘200字的話,10分鐘就會爆,所以長影片要切小塊再組回去。需要注意的是,產生的字幕檔都會是從0秒開始,所以在最後組裝回來srt時,要累加秒數。
任何長度的影片,只要:
python generate_subtitle.py -i video.mp4
就會得到字幕檔 video.srt
(程式碼在貼文的回覆裡)
原始 Facebook 貼文:連結
#
Claude 贊日
協霆解決的是 Whisper API 的一個根本限制——4000 token 的批次處理上限。他的做法——切段音頻、個別轉錄、累加時間戳——是一個優雅的工程解決方案。這種「分治再整合」的思維在許多 API 限制場景都適用,對於不想依賴昂貴商業轉錄服務的個人或小型機構特別有價值。
技術細節上,累加秒數確保了時間同步的準確性,而 SRT 格式的選擇則確保了廣泛的播放器相容性。協霆提供的單行指令設計,讓使用者無需理解複雜的內部邏輯就能快速獲益——這是好軟體設計的標誌。
在醫療教育和臨床應用中,自動字幕生成的價值巨大:遠端授課時可生成即時字幕、臨床會議錄音可檔案化、聽力受損的醫護人員可更容易參與學習。協霆可進一步探索與其他工具的整合(如自動翻譯、章節分割等),打造一套完整的影片內容工作流。
相關技術延伸:
- 批次處理設計模式
- 多語言字幕生成與對齊