AI 逐字稿工具怎麼選？採訪／研究／會議挑選指南｜Subanana

挑 AI 逐字稿工具，與其問「哪一個最好」，不如先問「我這份逐字稿要拿來做什麼」。採訪要的是分得出講者、能逐句引用；質性研究要的是準確、好做編碼標註；會議要的是抓得出決議與待辦。用途不同，該看的條件就不同。先講結論：四個關鍵條件——準確度、講者標示（diarization）、標點分段、匯出格式——決定一份逐字稿好不好用；先想清楚用途，再對著這四項挑工具，比看品牌排名實際得多。

我經營 Subanana（一款 AI 語音轉文字工具），這篇就用它當例子，帶你把這四個條件逐一拆開。下文先比較三種把錄音變文字的做法，再給你一張依用途挑條件的對照表，最後示範實際操作。

AI 逐字稿工具有哪幾種做法？

把錄音變成逐字稿，目前主要有三條路。三者各有取捨，沒有絕對的贏家，只有適不適合你的用途與預算：

做法	速度	準確度	講者標示	適合誰
人工聽打	最慢	最高（可標註語氣、停頓）	靠人工標	對逐字、語氣有極高要求；預算充足
免費自動工具	快	中下，口音／多人易出錯	多半沒有	零預算、內容短、可接受大量手動重整
AI 語音轉文字	快	高，會自動分段標點	自動分講者	採訪、研究、會議等要省時又要可引用

人工聽打：準確度上限最高，連語氣、停頓、重疊發言都能照需要標註，缺點是極慢——業界常見的經驗值是一小時錄音要花四到六小時聽打，多人、口音重、收音差會更久。
免費自動工具：快又免費，門檻最低；但對口音較重或多人交談的內容錯字率偏高，多半不分講者、沒有標點分段，讀起來像一面文字牆，要拿去引用往往得再花大量時間重整。
AI 語音轉文字：用語音辨識模型重新轉錄，並自動做標點、分段、講者識別，再讓你在編輯器裡校對。比人工聽打快得多、比免費工具準，是「要省時又要可引用」最務實的折衷——代價是仍須做最後一輪人工校對，準確度高不等於零錯誤。

這篇指南聚焦第三條路，因為採訪、研究、會議這三種用途，要的正是「省時 + 可引用」的平衡。

挑 AI 逐字稿工具該看哪四個條件？

無論你做哪一種用途，下面四個條件是共通的評估軸。挑工具時，照你的用途給它們排優先序：

準確度（尤其是中文）：中文同音字多、人名與專有名詞密集，這些字偏偏是你最需要正確的地方。值得留意工具是否針對繁體中文、華語做過優化，而不是把中文當成「其他語言」一視同仁。
講者標示（diarization）：多人座談、焦點團體、雙人採訪最麻煩的就是分不出誰講哪句。能自動分講者、又能讓你把 Speaker 1 改成實際角色名的工具，會省下大量回頭標記發言者的工夫。
標點與分段：這是「逐字稿」和「字幕」最大的差別。字幕按時間切成短句、慣例不加標點；逐字稿要有標點、有段落，才方便逐段閱讀、做標註、抽引述。選工具時要確認它走的是逐字稿（轉錄）路線，而不是只給你一串字幕行。
匯出格式：你後續要把逐字稿放進哪裡，決定你要哪種格式。寫進論文或報導常用 Word（DOCX）；貼進筆記軟體用純文字（TXT）；要做引用標註或編碼，用 Excel（XLSX）把時間碼、講者、文字表格化最方便。

把這四項對著你的用途排一排，哪個工具適合你，答案通常就很清楚了。

採訪、研究、會議各該看重哪個條件？

同樣四個條件，三種用途的權重不一樣。下面這張對照表幫你快速定位：

用途	最看重	次要	常見匯出格式
採訪（新聞／Podcast）	講者標示、可引用	準確度	DOCX、TXT
質性研究／UX 訪談	準確度、講者標示	標點分段（利於編碼）	XLSX、DOCX
會議記錄	抓出決議與待辦	講者標示、摘要	DOCX、Markdown

採訪：你最後要把受訪者的話一句句引進報導或節目逐字稿，所以「分得出誰講哪句」「引得出原話」最關鍵。
質性研究：要逐句編碼、放進論文，準確度與講者標示同等重要；能把逐字稿表格化（時間碼＋講者＋文字）會大幅省下整理時間。
會議：除了逐字稿本身，你通常還要一份能看的摘要——抽出決議、待辦、負責人。這時「轉錄＋摘要」一條龍的工具會比純轉錄省事。

值得提醒一個常見誤區：很多人第一次找工具時把「字幕」和「逐字稿」混為一談，結果在工具裡選了字幕模式去做採訪，拿到一堆按時間切碎、沒標點的短句，反而更難用。這也是上面第 3 個條件特別重要的原因。想了解這兩者差異與會議場景的設定，可參考 AI 會議線上轉錄；採訪情境的完整步驟，另寫在這篇訪談逐字稿教學裡。

怎麼用 Subanana 把錄音轉成可引用的逐字稿？

這裡用 Subanana 示範整個流程。它在逐字稿這個情境的差異化，正好對著上面四個條件：繁體中文與華語的辨識品質、講者識別、自動移除語助詞、自動標點與分段。

關鍵第一步是選對模式。Subanana 分字幕模式、轉錄模式、會議模式——逐字稿要選轉錄模式，它才會自動加標點、依語意分段，產出可閱讀的逐字稿；字幕模式只會給你按時間切碎的字幕行。整個流程分四步：

匯入錄音：上傳音訊或影片檔（支援 .mp4／.mov／.webm／.ogg），或貼上公開的 YouTube／Instagram／Facebook 連結直接匯入。如果內容放在私人連結或受權限保護的影片，請改用檔案上傳。
選模式並設定來源語言：進入轉錄模式，選錄音的來源語言。Subanana 涵蓋 80＋種語言，華語、繁體中文、英文、日韓語都在內。把講者數目設為自動偵測（或手動輸入人數），並開啟自動標點與分段。
校對與標示講者：轉錄完成後進入編輯器，系統會自動把不同講者分成 Speaker 1、Speaker 2，並移除「嗯」「就是」這類語助詞、整理文字。接著你可以：
- 改講者名——把 Speaker 1 改成「主持人」、Speaker 2 改成「受訪者 A」，整份稿會同步更新，方便日後逐句引用標註。
- 修正錯字——點文字直接改；人名、機構名、專業術語這類最容易出錯的詞，建議先設定詞彙表（Glossary），系統轉錄時會優先採用你指定的寫法。
- 和逐字稿對話——編輯器內可直接問 AI「受訪者 A 在哪一段提到 X」「幫我抽三個關鍵論點」，對長錄音的整理特別省時。
匯出：選你需要的格式。逐字稿最常用 DOCX（Word，直接編輯）或 TXT（貼進筆記軟體）；要做引用標註或編碼，可選 XLSX 把時間碼、講者、文字表格化呈現。也支援 VTT、SRT、Markdown。

關於準確度，Subanana 持續評測各語音辨識模型，為每種來源語言挑選表現最好的一個，不鎖死單一供應商；轉錄出問題時會自動換另一個模型重跑，而這個重跑不額外扣你的分鐘額度。實際品質仍建議你拿自己的錄音上免費方案試做，比看任何數字都準。要把採訪或研究錄音轉成文字，可從 AI 音訊線上轉錄開始。

免費試做你的逐字稿

一個界線：現場活動的即時多語字幕是另一個產品

挑工具時要分清楚一件事：逐字稿（轉錄模式）做的是事後把錄音整理成可讀、可引用的文字，靠的是中文辨識品質和講者識別。如果你的場景是研討會、活動現場要邊講邊上多語字幕、讓台下觀眾即時看，那屬於另一個產品線——Subanana 的即時字幕功能（live caption），可參考 AI 即時語音轉字幕。它由主持人預先設定一個來源語言加一個翻譯目標語言，觀眾透過分享連結選擇顯示原文、譯文或雙語。把這兩件事分清楚，才不會拿事後轉錄的工具去硬做現場即時的需求。

什麼情況下 AI 逐字稿工具反而不適合？

誠實說，AI 轉錄不是萬靈丹，這幾種情況其他做法可能更合適：

預算為零、內容又短：一段幾分鐘的內容、又不介意自己重整，免費自動工具就夠用，不必為此付費。
要逐字保留語氣、停頓、重疊發言的學術或法律用途：對「每個停頓都有意義」的研究設計，人工聽打仍是準確度與細節的天花板；AI 轉錄可以先把九成苦工做完，但最細的標註還是得靠人。
要直接引用原話的段落：AI 轉錄把絕大部分文字和分段處理好，但要逐字引述前，務必做一輪人工校對，核對人名、專有名詞、關鍵數字——引用的份量越重，越值得校。

AI 逐字稿工具常見問題

問：逐字稿和字幕有什麼差別？ 答：字幕是給影片畫面看的，按時間切成短句、慣例不加標點，輸出 SRT／VTT；逐字稿是給人讀的，要有標點、有段落、分得出講者，方便逐段閱讀與引用。做採訪、研究、會議要的是逐字稿，所以在工具裡要選轉錄（逐字稿）模式，不是字幕模式。

問：多人採訪或座談分得出誰講哪句嗎？ 答：可以。轉錄模式支援講者識別，會自動分出 Speaker 1、Speaker 2 等標記，你在編輯器內可以改成實際角色（主持人、受訪者 A），整份稿會同步更新。

問：免費方案能做完整份逐字稿嗎？ 答：可以試做、預覽結果，但匯出要付費。免費方案不支援字幕／逐字稿檔案下載，也不能在編輯器選取複製文字，唯一輸出是有浮水印、最長 5 分鐘、720p 的影片；每檔 3 GB 上限。要匯出 DOCX／TXT／XLSX 等可用的逐字稿檔案，需要付費方案（每檔上限放寬到 15 GB／3 小時）。各方案內容可看方案費用。

問：AI 轉錄出來的逐字稿可以直接引用嗎？ 答：建議先做一輪人工校對再引用。AI 把絕大部分文字和分段處理好，但人名、專有名詞、關鍵數字這些「引錯就出事」的地方，值得你逐句核對——尤其是要直接引述原話的段落。

問：很長的錄音（一兩小時）也可以轉嗎？ 答：可以。付費方案每檔上限 15 GB／3 小時，一般採訪、會議錄音都在範圍內。長錄音更建議先用編輯器內的 AI 對話功能抓重點段落，再針對要引用的部分細校。

先想清楚用途，再對著準確度、講者標示、標點分段、匯出格式這四項挑，就不容易選錯。想直接上手，可以註冊試用，拿你自己的一段錄音實際跑一次，最能看出合不合用。

查看方案費用

AI 逐字稿工具怎麼選？採訪、研究、會議三種用途的挑選指南