Whisper 中文逐字稿好用嗎?本地 Whisper/MacWhisper vs 雲端 AI 工具實測比較

2026-06-12
KKevin Wong

簡單講:OpenAI Whisper 是免費、開源、可離線在自己電腦上跑的語音辨識模型,拿來做中文逐字稿堪用,但你得自己安裝執行環境、每次只能挑一個模型、也沒有內建編輯器。 如果你是 Mac 使用者又不想碰指令列,MacWhisper 幫 Whisper 套上圖形介面、好上手得多,但要付費才解鎖最大的模型。若你要的是「免安裝、上傳就好、由系統自動挑最合適的引擎、還能線上校對」,雲端 AI 工具(例如 Subanana)會省事很多。

先講利益揭露:我經營 Subanana,下面會拿它做對照。但我會把 Whisper 與 MacWhisper 真正的強項講清楚——在某些情境下,自架 Whisper 確實是更好的選擇。

Whisper 中文逐字稿 vs 雲端 AI 工具實測比較

OpenAI Whisper 是什麼?做中文逐字稿可以嗎?

Whisper 是 OpenAI 釋出的語音辨識模型,程式碼與模型權重以 MIT 授權開源,可以下載到自己的電腦離線執行。它支援多語言、包含中文,所以拿來做中文逐字稿是可行的。

它的「能力分級」靠模型大小:Whisper 提供 tiny、base、small、medium、large、turbo 等多種模型,越大的模型通常越準,但也越慢、越吃記憶體與顯示卡。其中 tiny、base、small、medium 另有純英文的 .en 版本,large 與 turbo 則只有多語言版。做中文這類非英文內容,一般要選較大的多語言模型,結果才比較可靠。

關鍵在於「怎麼跑起來」。Whisper 本身是一個指令列工具,也可以在 Python 裡呼叫,但執行前你得先安裝 ffmpeg 這個命令列工具,並備好 Python 與 PyTorch、用 pip 安裝,某些平台還可能要裝 rust。對工程師這很正常;對只是想把訪談錄音轉成文字的研究生或內容創作者,這道門檻往往就卡住了。

本地 Whisper 的真實優缺點

Whisper 真正的強項,值得先講清楚:

  • 完全免費:開源、沒有訂閱、沒有按分鐘計費。量大的人長期成本最低。
  • 私密、可離線:音訊不必上傳到任何雲端,整個轉錄都在你自己的機器上完成。對保密訪談、敏感資料來說,這是很實在的優勢。
  • 可客製:開發者能把它接進自己的流程、自架服務、自訂推論行為。

但要務實看待它的取捨:

  • 要自己架環境:ffmpeg、Python、相依套件,對非技術使用者是真實門檻。
  • 每次只跑一個模型:你得自己選模型大小,在「快」與「準」之間取捨;它不會在發現某段轉得不好時,自動換另一個模型重試。
  • 沒有編輯器、原生不分講者:原版 Whisper 是「模型+指令列」,給你一份文字輸出,沒有校對介面、也沒有現成的講者識別;要分講者、要編輯,得自己再接別的工具。
  • 吃硬體:大模型在沒有獨立顯示卡的電腦上會明顯偏慢。

換句話說,本地 Whisper 像「引擎」,不是「整台車」。你拿到的是辨識核心,周邊(介面、分講者、校對、匯出格式、品質把關)都要自己補。

MacWhisper 和直接用 Whisper 差在哪?

MacWhisper 是把 Whisper 套上 Mac 圖形介面的應用程式:一樣在你的 Mac 上用本地 Whisper 模型轉錄、音訊不離開裝置,但你不必碰指令列,把檔案拖進去就能轉。它解決的正是「Whisper 難安裝」這個痛點。

它採免費+付費的分版:免費版可使用 Tiny、Base、Small 等本地模型,足夠一般輕量使用;Pro 版才解鎖最大的模型(Large),並加上批次轉錄、講者識別、字幕匯出、YouTube 影片轉錄與系統音訊錄製。授權方式上,直接從 Gumroad 購買是一次性的終身授權App Store 上架的版本則採訂閱制

所以 MacWhisper 的定位很清楚:Mac 限定、把本地 Whisper 變得好上手、又保有離線私密,代價是要付費才拿得到最準的大模型,而且只在 Mac 上跑。

本地 Whisper/MacWhisper 與雲端 AI 工具怎麼選?

比較項目本地 OpenAI WhisperMacWhisper雲端 AI 工具(如 Subanana)
費用免費、開源免費版有限制;Pro 付費免費試用+付費訂閱
安裝門檻高(要 ffmpeg/Python)低(Mac 圖形介面)無(瀏覽器上傳即用)
平台Windows/Mac/Linux僅 Mac任何裝置、免安裝
隱私完全本地、可離線本地、可離線上傳雲端處理
選模型方式手動挑一個模型手動挑(大模型需 Pro)系統依內容自動挑,偵測到問題會自動改用別的模型重轉
分講者原生不支援Pro 支援支援
校對編輯器有(含 AI 校對建議、AI 問答)
整理輸出純文字輸出字幕/文字自動標點分段、移除語助詞,匯出 SRT/VTT/TXT/DOCX/XLSX/MD

沒有絕對的贏家,只有適合你情境的選擇:

  • 要免費、要離線、又不怕架環境 → 本地 Whisper。
  • 用 Mac、想要好上手又保有離線私密 → MacWhisper。
  • 不想安裝、想要分講者+線上校對+自動把稿子整理乾淨 → 雲端 AI 工具。

Subanana 和自架 Whisper 的核心差別是什麼?

最大的差別是:你不必自己當「模型管理員」。

自架 Whisper 時,模型選擇、品質把關、出問題重試,全都是你的事。Subanana 的做法相反——它持續評測多個語音辨識引擎,依來源語言與用途自動挑選表現最好的模型,不綁單一供應商;當某段輸出出現疑似辨識問題(例如幻聽、明顯錯漏)時,系統會自動改用另一個評測過的模型重轉那一段,把較乾淨的結果交給你,而這種內部重轉不會額外扣你的額度。換句話說,「挑模型、抓錯、重試」這層工你不用碰。

值得一提的是,這套多模型路由不是憑空設計的——Subanana 最早就是只用 Whisper,正是因為實際遇到單一模型在某些音訊條件下會出現幻聽、認不出有效語音,才改成多供應商、自動備援的架構。

除此之外,Subanana 直接給你的是「整台車」而不只是引擎:

  • 免安裝:用瀏覽器上傳錄音(或貼上公開影片連結)就能轉,任何裝置都行。
  • 自動整理成可讀稿:自動分講者、移除語助詞、加標點與分段,把「文字牆」變成一段段好讀的內容。
  • 線上校對:在編輯器裡校對;AI 會標出疑似聽錯或同音錯字並建議修正(由你逐一確認,不會自動改),也能直接用 AI 問答快速定位內容。
  • 多格式匯出:SRT、VTT、TXT、DOCX、XLSX、Markdown,後續要剪字幕、寫文件、做研究編碼都接得上。
  • 支援 80 種以上語言,中文/華語之外也涵蓋常見語言與翻譯。

代價是 Subanana 的轉錄在雲端進行,音訊會上傳處理——若你的資料規定「絕對不能離開本機」,那本地 Whisper/MacWhisper 仍是更貼合的選擇。想更全面地比較各種錄音轉文字的方法與費用,可以參考錄音檔轉文字完整教學;想針對採訪、研究、會議三種用途挑工具,則可看AI 逐字稿工具怎麼選

常見問題(FAQ)

Whisper 做中文逐字稿準嗎? 可行,且選較大的多語言模型時結果較可靠。但它不會自動分講者、也不會自動整理標點分段,這些都要靠你自己再加工;準確度也不等於零錯誤,重要引用仍要對照原音校對。

Whisper 完全免費嗎? 本地 OpenAI Whisper 是開源免費的。MacWhisper 有免費版(限 Tiny/Base/Small 模型),要用最大的 Large 模型與進階功能則需付費。雲端工具多半是免費試用+付費訂閱。

不會寫程式,可以用 Whisper 嗎? 直接用原版 Whisper 需要安裝 ffmpeg 與 Python,對非技術使用者門檻偏高。Mac 使用者可改用 MacWhisper(圖形介面);想完全免安裝,就選瀏覽器上傳的雲端工具。

在意隱私,一定要用本地 Whisper 嗎? 如果規定資料不能離開本機,本地 Whisper 或 MacWhisper(兩者皆可離線)最合適。雲端工具會把音訊上傳處理,方便性換取了「資料離開本機」這一點——依你的合規要求取捨。

Subanana 是用 Whisper 嗎? Subanana 不綁定任何單一供應商,而是持續評測多個語音辨識引擎、依內容自動挑選最合適的,並在偵測到問題時自動改用其他模型重轉。重點不是「用哪一家」,而是「每一段都路由到當下評測最佳的引擎」。

想跳過安裝與選模型,上傳就拿到分好講者、整理乾淨的逐字稿?

選用 Subanana,讓工作更輕鬆

無需提供付款方式
免費試用
隨時取消