訪談逐字稿怎麼做？訪談錄音轉文字完整教學｜Subanana

訪談逐字稿的核心需求其實只有三個：文字要準、要分得出誰講哪句、要能直接拿來引用。如果你做的是質性研究、UX 訪談、新聞採訪，或只是學生在交報告，你要的不是一份大概的紀錄，而是一份可以逐句編碼、引述進論文或報導裡的文字稿。

做法主要有三種——人工聽打、免費自動字幕工具、AI 語音轉文字。這篇教學會說明三者的取捨，並示範如何用 Subanana 的轉錄模式，把一段訪談錄音（繁體中文、華語都可以）轉成帶講者標示、有標點、有分段的逐字稿，把後續人工整理的時間壓到最低。先講結論：AI 轉錄負責把九成的苦工做完，你只需要做最後一輪校對。

訪談逐字稿和字幕有什麼差別？

很多人第一次找工具時，會把「字幕」和「逐字稿」混為一談，結果拿到不合用的檔案。兩者其實是兩件事：

字幕（subtitles） 是給影片畫面看的，按時間切成一行行短句，慣例上不加標點，輸出 SRT／VTT 等檔案。
逐字稿（transcript） 是給人讀的，要有標點、要有段落、要分得出講者，方便你一段段往下讀、做標註、抽引述。

訪談逐字稿屬於後者。所以在工具裡選錯模式——用了字幕模式去做訪談——你會得到一堆按時間切碎、沒有標點的短句，反而更難用。這也是下文一直強調「要選轉錄模式」的原因。

三種做法的取捨

做法一：人工聽打

最傳統，也是準確度上限最高的做法——你親自一句句聽、一句句打。

優點：你完全掌握每個字，連語氣、停頓、重疊發言都可以照你的研究需要標註。
侷限：極慢。業界常見的經驗值是一小時錄音要花四到六小時聽打，多人訪談、口音重、收音差的情況更慢。對要趕死線的記者或同時跑多場訪談的研究者來說，時間成本往往無法負擔。

做法二：免費自動字幕工具

不少免費工具（例如影片平台的自動字幕、線上轉文字網站）可以快速生成文字。

優點：快、免費、門檻低。
侷限：對口音較重或多人交談的內容，錯字率明顯偏高；多半不分講者，整段訪談的文字混在一起，分不出誰講哪句；通常沒有標點和分段，讀起來像一面文字牆。對英文短內容堪用，對要拿去引用的中文訪談，往往要再花大量時間重整。

做法三：AI 語音轉文字工具

如果你要的是「拿到逐字稿就能讀、能引用」的品質，AI 轉錄是目前最務實的折衷。工具用語音辨識模型重新轉錄一次，並做標點、分段、講者識別，再讓你在編輯器裡校對。

優點：比人工聽打快得多；比免費工具準，而且會自動分講者、加標點分段。
取捨（要說清楚）：AI 轉錄不會取代最後的校對。要逐字引用受訪者原話之前，你仍應做一輪人工校對——核對人名、專有名詞、關鍵數字。準確度高不等於零錯誤；引用的份量越重，越值得校。

下一節示範如何用 Subanana 走第三條路。

怎麼用 Subanana 把訪談錄音轉成逐字稿？

我經營 Subanana，這裡用它示範整個流程。Subanana 在訪談逐字稿這個情境的差異化是：繁體中文與華語的辨識品質、講者識別（diarization）、自動移除語助詞、自動標點與分段。

關鍵第一步是選對模式。Subanana 分字幕模式、轉錄模式、會議模式——訪談逐字稿要選轉錄模式，它才會自動加標點、依語意分段，產出可閱讀的逐字稿；字幕模式只會給你按時間切碎的字幕行。整個流程分四步：

匯入錄音：上傳訪談的音訊或影片檔（支援 .mp4／.mov／.webm／.ogg），或者貼上公開的 YouTube／Instagram／Facebook 連結直接匯入。如果訪談放在私人連結或受權限保護的影片，請改用檔案上傳。
選轉錄模式並設定來源語言：進入轉錄模式，選錄音的來源語言。Subanana 涵蓋 80＋種語言，華語、繁體中文、英文、日韓語都在內。把講者數目設為自動偵測（或手動輸入人數），並開啟自動標點與分段。
校對與標示講者：轉錄完成後進入編輯器。系統會自動把不同講者分成 Speaker 1、Speaker 2，並移除「嗯」「就是」這類語助詞、整理文字。你可以做這些事：
- 改講者名：把 Speaker 1 改成「主持人」、Speaker 2 改成「受訪者 A」，整份逐字稿會同步更新，方便日後逐句引用標註。
- 修正錯字：點文字直接改。人名、機構名、專業術語這類最容易出錯的詞，建議先設定詞彙表（Glossary），系統轉錄時會優先採用你指定的寫法。
- 和逐字稿對話：編輯器內可以直接問 AI——「受訪者 A 在哪一段提到 X」「幫我抽出三個關鍵論點」——對長訪談的整理特別省時。
匯出：選你需要的格式。逐字稿用途最常用 DOCX（Word，直接編輯）或 TXT（貼進 Obsidian、Notion 等筆記軟體）；要做引用標註或編碼，可選 XLSX，把時間碼、講者、文字表格化呈現。也支援 VTT、SRT、Markdown。

校對好、匯出檔案，這份訪談逐字稿就能直接放進你的論文、報導或分析裡。想了解模式設計，可參考 AI 字幕／轉錄工具與 AI 會議記錄。

免費試做你的逐字稿

中文訪談特別要注意什麼？

中文訪談——尤其是繁體中文與華語混雜口音的訪談——正是不少通用語音工具最弱的一環。挑工具時值得留意兩點：

繁體中文與華語的辨識品質：中文同音字多、人名與專有名詞密集，免費通用工具錯字率偏高，而這些字偏偏是你最需要引用準確的地方。Subanana 持續評測各語音辨識模型，為每種來源語言挑選表現最好的一個，不鎖死單一供應商；轉錄出問題時還會自動換另一個模型重跑，這個重跑不額外扣你的分鐘額度。
講者識別省下的整理時間：多人座談、焦點團體訪談最麻煩的就是分不出誰講哪句。轉錄模式會自動分出講者並讓你重新命名，省掉你回頭一句句標記發言者的工夫——這對後續編碼與引用標註特別關鍵。

要提一點界線：跨語言的處理上，「一句話裡中英來回夾雜、即時自動切換」這種情境是 Subanana 即時字幕功能的強項，不是轉錄模式的範圍。訪談逐字稿這邊，你要倚靠的是中文辨識品質和講者識別，而不是句中即時語言切換。需要現場即時字幕的活動場景，可參考 AI 即時語音轉字幕。

訪談逐字稿常見問題

問：免費方案能做完整份訪談逐字稿嗎？ 答：可以試做、預覽結果，但匯出要付費。免費方案不支援字幕／逐字稿檔案下載，也不能在編輯器選取複製文字，唯一輸出是有浮水印、最長 5 分鐘、720p 的影片；每檔 3 GB 上限。要匯出 DOCX／TXT／XLSX 等可用的逐字稿檔案，需要付費方案（每檔上限放寬到 15 GB／3 小時）。

問：多人訪談分得出誰講哪句嗎？ 答：可以。轉錄模式支援講者識別，會自動分出 Speaker 1、Speaker 2 等標記，你在編輯器內可以改成實際角色（主持人、受訪者 A），整份稿會同步更新。

問：AI 轉錄出來的逐字稿可以直接引用嗎？ 答：建議先做一輪人工校對再引用。AI 轉錄把絕大部分文字和分段處理好，但人名、專有名詞、關鍵數字這些「引錯就出事」的地方，值得你逐句核對——尤其是要直接引述受訪者原話的段落。

問：訪談錄音檔很長（一兩小時）也可以嗎？ 答：可以。付費方案每檔上限 15 GB／3 小時，一般訪談錄音都在範圍內。長訪談更建議用編輯器內的 AI 對話功能先抓重點段落，再針對要引用的部分細校。

訪談逐字稿怎麼做？把訪談錄音轉成可引用、分得出講者的逐字稿