大家好,我是波導終結者。
最近,我做帶字幕的視頻有點多,如何高效率地打時間軸就成了個問題。擱以前,剪映的語音識別和文稿匹配功能確實是實用的,但現在大家也都知道,功能全部要SSVIP才能用,會員也越來越貴。更關鍵的是很多核心功能仍然在向更高級的VIP遷移,說白了,你錢交了,事后跟你說這個不能用那個不能用,得交更多錢。所以最近我也是找了一圈最佳替代,最終敲定了卡卡字幕助手VideoCaptioner這款軟件,跟大家分享。
這是一款免費開源的軟件,在Github上可以找到源代碼或者安裝包,一鍵安裝運行。此處我以Windows版本為例,它的核心功能分為三塊,音視頻方面的東西自帶FFmpeg就略過了。第二塊是語音轉文字,提供了不少的提口供使用,這里推薦默認的FasterWhisper,本地幾G的模型,在線下載即可,非常方便。藍圈部分是LLM配置,用于語言大模型處理斷句,字幕優化甚至是翻譯等功能。
不過具體的設置和下載界面,并不在軟件的設置頁面,而在語音轉錄這個功能界面。目前FasterWhisper的程序和模型都能在界面里直接下載,免工具基本滿速,后續如果有變動再另說。硬盤容量和配置夠的話,large-v2或者v3的模型是強烈推薦的,支持顯卡加速,效率挺不錯的。
至于LLM語言大模型,之前跟大家分享過好幾期了,這里感覺就略過吧,反正DeepSeek本地用一用就挺夠的了。一般默認參數下,識別的字幕就還挺可以的,如果要求不是特別高,直接用都沒問題。如果需要更深處的處理,可以選中“字幕校正”,并且把文稿貼到文稿提示的文本框里,再進行處理。
這里的字幕校正,以及字幕是否分割,分割按句子分段還是按語義分段,以及中文最大字數,文稿提示等,都會對字幕最終的效果產生影響。當前1.3.3版本,還沒辦法達到剪映文稿匹配的效果,也即文稿原文完全不修改,完全按照文稿進行時間軸和字幕對齊。如果開了字幕校正,雖然可以對齊,但是有時候一些字眼會被大模型替換,如果不開校正,斷句有可能跟文稿出現部分錯位。總之就是,差不多可以替代80-90%的功能,最后要求高的話,不管哪種方案都需要再檢查一遍;要求不高的話直接識別完就用,也沒有問題。
另外,剛才有提到過,這款軟件也集成了FFmpeg,如果要打硬字幕的話,也可以直接一起生成。在字幕樣式里,可以設置主副字幕的樣子,不過目前的款式比剪映少一些,像整個字幕背景用矩形填充,以及透明度這些選項暫時還沒有,但也夠用了。
最后輸出的效果還不錯,截圖如上。對于軟件內打硬字幕,目前沒有提供編碼方式和質量選項,下一個Release應該會加上。Github上也有其他作者修改的分支,已經加上了這個功能,這就是開源軟件的好處。或者導出字幕,自己用其他軟件合成也沒有問題,就看每個人的工作流和需求了。
今天的分享先到這里。文章僅為拋磚引玉,這個免費開源本地工作的方案是目前我發現的最好用的。如果小伙伴有發現更好的“文稿匹配”功能的替代方案,也歡迎一起分享。
感謝大家的觀看,點贊和關注,我們下期再見。