Whisper 中文逐字稿好用嗎？本地 Whisper 與雲端 AI 工具比較

簡單講：OpenAI Whisper 是免費、開源、可離線在自己電腦上跑的語音辨識模型，拿來做中文逐字稿堪用，但你得自己安裝執行環境、每次只能挑一個模型、也沒有內建編輯器。如果你是 Mac 使用者又不想碰指令列，MacWhisper 幫 Whisper 套上圖形介面、好上手得多，但要付費才解鎖最大的模型。若你要的是「免安裝、上傳就好、由系統自動挑最合適的引擎、還能線上校對」，雲端 AI 工具（例如 Subanana）會省事很多。

先講利益揭露：我經營 Subanana，下面會拿它做對照。但我會把 Whisper 與 MacWhisper 真正的強項講清楚——在某些情境下，自架 Whisper 確實是更好的選擇。

OpenAI Whisper 是什麼？做中文逐字稿可以嗎？

Whisper 是 OpenAI 釋出的語音辨識模型，程式碼與模型權重以 MIT 授權開源，可以下載到自己的電腦離線執行。它支援多語言、包含中文，所以拿來做中文逐字稿是可行的。

它的「能力分級」靠模型大小：Whisper 提供 tiny、base、small、medium、large、turbo 等多種模型，越大的模型通常越準，但也越慢、越吃記憶體與顯示卡。其中 tiny、base、small、medium 另有純英文的 .en 版本，large 與 turbo 則只有多語言版。做中文這類非英文內容，一般要選較大的多語言模型，結果才比較可靠。

關鍵在於「怎麼跑起來」。Whisper 本身是一個指令列工具，也可以在 Python 裡呼叫，但執行前你得先安裝 ffmpeg 這個命令列工具，並備好 Python 與 PyTorch、用 pip 安裝，某些平台還可能要裝 rust。對工程師這很正常；對只是想把訪談錄音轉成文字的研究生或內容創作者，這道門檻往往就卡住了。

本地 Whisper 的真實優缺點

Whisper 真正的強項，值得先講清楚：

完全免費：開源、沒有訂閱、沒有按分鐘計費。量大的人長期成本最低。
私密、可離線：音訊不必上傳到任何雲端，整個轉錄都在你自己的機器上完成。對保密訪談、敏感資料來說，這是很實在的優勢。
可客製：開發者能把它接進自己的流程、自架服務、自訂推論行為。

但要務實看待它的取捨：

要自己架環境：ffmpeg、Python、相依套件，對非技術使用者是真實門檻。
每次只跑一個模型：你得自己選模型大小，在「快」與「準」之間取捨；它不會在發現某段轉得不好時，自動換另一個模型重試。
沒有編輯器、原生不分講者：原版 Whisper 是「模型＋指令列」，給你一份文字輸出，沒有校對介面、也沒有現成的講者識別；要分講者、要編輯，得自己再接別的工具。
吃硬體：大模型在沒有獨立顯示卡的電腦上會明顯偏慢。

換句話說，本地 Whisper 像「引擎」，不是「整台車」。你拿到的是辨識核心，周邊（介面、分講者、校對、匯出格式、品質把關）都要自己補。

MacWhisper 和直接用 Whisper 差在哪？

MacWhisper 是把 Whisper 套上 Mac 圖形介面的應用程式：一樣在你的 Mac 上用本地 Whisper 模型轉錄、音訊不離開裝置，但你不必碰指令列，把檔案拖進去就能轉。它解決的正是「Whisper 難安裝」這個痛點。

它採免費＋付費的分版：免費版可使用 Tiny、Base、Small 等本地模型，足夠一般輕量使用；Pro 版才解鎖最大的模型（Large），並加上批次轉錄、講者識別、字幕匯出、YouTube 影片轉錄與系統音訊錄製。授權方式上，直接從 Gumroad 購買是一次性的終身授權；App Store 上架的版本則採訂閱制。

所以 MacWhisper 的定位很清楚：Mac 限定、把本地 Whisper 變得好上手、又保有離線私密，代價是要付費才拿得到最準的大模型，而且只在 Mac 上跑。

本地 Whisper／MacWhisper 與雲端 AI 工具怎麼選？

比較項目	本地 OpenAI Whisper	MacWhisper	雲端 AI 工具（如 Subanana）
費用	免費、開源	免費版有限制；Pro 付費	免費試用＋付費訂閱
安裝門檻	高（要 ffmpeg／Python）	低（Mac 圖形介面）	無（瀏覽器上傳即用）
平台	Windows／Mac／Linux	僅 Mac	任何裝置、免安裝
隱私	完全本地、可離線	本地、可離線	上傳雲端處理
選模型方式	手動挑一個模型	手動挑（大模型需 Pro）	系統依內容自動挑，偵測到問題會自動改用別的模型重轉
分講者	原生不支援	Pro 支援	支援
校對編輯器	無	有	有（含 AI 校對建議、AI 問答）
整理輸出	純文字輸出	字幕／文字	自動標點分段、移除語助詞，匯出 SRT／VTT／TXT／DOCX／XLSX／MD

沒有絕對的贏家，只有適合你情境的選擇：

要免費、要離線、又不怕架環境 → 本地 Whisper。
用 Mac、想要好上手又保有離線私密 → MacWhisper。
不想安裝、想要分講者＋線上校對＋自動把稿子整理乾淨 → 雲端 AI 工具。

Subanana 和自架 Whisper 的核心差別是什麼？

最大的差別是：你不必自己當「模型管理員」。

自架 Whisper 時，模型選擇、品質把關、出問題重試，全都是你的事。Subanana 的做法相反——它持續評測多個語音辨識引擎，依來源語言與用途自動挑選表現最好的模型，不綁單一供應商；當某段輸出出現疑似辨識問題（例如幻聽、明顯錯漏）時，系統會自動改用另一個評測過的模型重轉那一段，把較乾淨的結果交給你，而這種內部重轉不會額外扣你的額度。換句話說，「挑模型、抓錯、重試」這層工你不用碰。

值得一提的是，這套多模型路由不是憑空設計的——Subanana 最早就是只用 Whisper，正是因為實際遇到單一模型在某些音訊條件下會出現幻聽、認不出有效語音，才改成多供應商、自動備援的架構。

除此之外，Subanana 直接給你的是「整台車」而不只是引擎：

免安裝：用瀏覽器上傳錄音（或貼上公開影片連結）就能轉，任何裝置都行。
自動整理成可讀稿：自動分講者、移除語助詞、加標點與分段，把「文字牆」變成一段段好讀的內容。
線上校對：在編輯器裡校對；AI 會標出疑似聽錯或同音錯字並建議修正（由你逐一確認，不會自動改），也能直接用 AI 問答快速定位內容。
多格式匯出：SRT、VTT、TXT、DOCX、XLSX、Markdown，後續要剪字幕、寫文件、做研究編碼都接得上。
支援 80 種以上語言，中文／華語之外也涵蓋常見語言與翻譯。

代價是 Subanana 的轉錄在雲端進行，音訊會上傳處理——若你的資料規定「絕對不能離開本機」，那本地 Whisper／MacWhisper 仍是更貼合的選擇。想更全面地比較各種錄音轉文字的方法與費用，可以參考錄音檔轉文字完整教學；想針對採訪、研究、會議三種用途挑工具，則可看AI 逐字稿工具怎麼選。

看 Subanana 如何把錄音轉成逐字稿

常見問題（FAQ）

Whisper 做中文逐字稿準嗎？ 可行，且選較大的多語言模型時結果較可靠。但它不會自動分講者、也不會自動整理標點分段，這些都要靠你自己再加工；準確度也不等於零錯誤，重要引用仍要對照原音校對。

Whisper 完全免費嗎？ 本地 OpenAI Whisper 是開源免費的。MacWhisper 有免費版（限 Tiny／Base／Small 模型），要用最大的 Large 模型與進階功能則需付費。雲端工具多半是免費試用＋付費訂閱。

不會寫程式，可以用 Whisper 嗎？ 直接用原版 Whisper 需要安裝 ffmpeg 與 Python，對非技術使用者門檻偏高。Mac 使用者可改用 MacWhisper（圖形介面）；想完全免安裝，就選瀏覽器上傳的雲端工具。

在意隱私，一定要用本地 Whisper 嗎？ 如果規定資料不能離開本機，本地 Whisper 或 MacWhisper（兩者皆可離線）最合適。雲端工具會把音訊上傳處理，方便性換取了「資料離開本機」這一點——依你的合規要求取捨。

Subanana 是用 Whisper 嗎？ Subanana 不綁定任何單一供應商，而是持續評測多個語音辨識引擎、依內容自動挑選最合適的，並在偵測到問題時自動改用其他模型重轉。重點不是「用哪一家」，而是「每一段都路由到當下評測最佳的引擎」。

想跳過安裝與選模型，上傳就拿到分好講者、整理乾淨的逐字稿？

免費試用 Subanana