訪談逐字稿怎麼做?把訪談錄音轉成可引用、分得出講者的逐字稿
訪談逐字稿的核心需求其實只有三個:文字要準、要分得出誰講哪句、要能直接拿來引用。如果你做的是質性研究、UX 訪談、新聞採訪,或只是學生在交報告,你要的不是一份大概的紀錄,而是一份可以逐句編碼、引述進論文或報導裡的文字稿。
做法主要有三種——人工聽打、免費自動字幕工具、AI 語音轉文字。這篇教學會說明三者的取捨,並示範如何用 Subanana 的轉錄模式,把一段訪談錄音(繁體中文、華語都可以)轉成帶講者標示、有標點、有分段的逐字稿,把後續人工整理的時間壓到最低。先講結論:AI 轉錄負責把九成的苦工做完,你只需要做最後一輪校對。

訪談逐字稿和字幕有什麼差別?
很多人第一次找工具時,會把「字幕」和「逐字稿」混為一談,結果拿到不合用的檔案。兩者其實是兩件事:
- 字幕(subtitles) 是給影片畫面看的,按時間切成一行行短句,慣例上不加標點,輸出 SRT/VTT 等檔案。
- 逐字稿(transcript) 是給人讀的,要有標點、要有段落、要分得出講者,方便你一段段往下讀、做標註、抽引述。
訪談逐字稿屬於後者。所以在工具裡選錯模式——用了字幕模式去做訪談——你會得到一堆按時間切碎、沒有標點的短句,反而更難用。這也是下文一直強調「要選轉錄模式」的原因。
三種做法的取捨
做法一:人工聽打
最傳統,也是準確度上限最高的做法——你親自一句句聽、一句句打。
- 優點:你完全掌握每個字,連語氣、停頓、重疊發言都可以照你的研究需要標註。
- 侷限:極慢。業界常見的經驗值是一小時錄音要花四到六小時聽打,多人訪談、口音重、收音差的情況更慢。對要趕死線的記者或同時跑多場訪談的研究者來說,時間成本往往無法負擔。
做法二:免費自動字幕工具
不少免費工具(例如影片平台的自動字幕、線上轉文字網站)可以快速生成文字。
- 優點:快、免費、門檻低。
- 侷限:對口音較重或多人交談的內容,錯字率明顯偏高;多半不分講者,整段訪談的文字混在一起,分不出誰講哪句;通常沒有標點和分段,讀起來像一面文字牆。對英文短內容堪用,對要拿去引用的中文訪談,往往要再花大量時間重整。
做法三:AI 語音轉文字工具
如果你要的是「拿到逐字稿就能讀、能引用」的品質,AI 轉錄是目前最務實的折衷。工具用語音辨識模型重新轉錄一次,並做標點、分段、講者識別,再讓你在編輯器裡校對。
- 優點:比人工聽打快得多;比免費工具準,而且會自動分講者、加標點分段。
- 取捨(要說清楚):AI 轉錄不會取代最後的校對。要逐字引用受訪者原話之前,你仍應做一輪人工校對——核對人名、專有名詞、關鍵數字。準確度高不等於零錯誤;引用的份量越重,越值得校。
下一節示範如何用 Subanana 走第三條路。
怎麼用 Subanana 把訪談錄音轉成逐字稿?
我經營 Subanana,這裡用它示範整個流程。Subanana 在訪談逐字稿這個情境的差異化是:繁體中文與華語的辨識品質、講者識別(diarization)、自動移除語助詞、自動標點與分段。
關鍵第一步是選對模式。Subanana 分字幕模式、轉錄模式、會議模式——訪談逐字稿要選轉錄模式,它才會自動加標點、依語意分段,產出可閱讀的逐字稿;字幕模式只會給你按時間切碎的字幕行。整個流程分四步:
- 匯入錄音:上傳訪談的音訊或影片檔(支援 .mp4/.mov/.webm/.ogg),或者貼上公開的 YouTube/Instagram/Facebook 連結直接匯入。如果訪談放在私人連結或受權限保護的影片,請改用檔案上傳。
- 選轉錄模式並設定來源語言:進入轉錄模式,選錄音的來源語言。Subanana 涵蓋 80+ 種語言,華語、繁體中文、英文、日韓語都在內。把講者數目設為自動偵測(或手動輸入人數),並開啟自動標點與分段。
- 校對與標示講者:轉錄完成後進入編輯器。系統會自動把不同講者分成 Speaker 1、Speaker 2,並移除「嗯」「就是」這類語助詞、整理文字。你可以做這些事:
- 改講者名:把 Speaker 1 改成「主持人」、Speaker 2 改成「受訪者 A」,整份逐字稿會同步更新,方便日後逐句引用標註。
- 修正錯字:點文字直接改。人名、機構名、專業術語這類最容易出錯的詞,建議先設定詞彙表(Glossary),系統轉錄時會優先採用你指定的寫法。
- 和逐字稿對話:編輯器內可以直接問 AI——「受訪者 A 在哪一段提到 X」「幫我抽出三個關鍵論點」——對長訪談的整理特別省時。
- 匯出:選你需要的格式。逐字稿用途最常用 DOCX(Word,直接編輯)或 TXT(貼進 Obsidian、Notion 等筆記軟體);要做引用標註或編碼,可選 XLSX,把時間碼、講者、文字表格化呈現。也支援 VTT、SRT、Markdown。
校對好、匯出檔案,這份訪談逐字稿就能直接放進你的論文、報導或分析裡。想了解模式設計,可參考 AI 字幕/轉錄工具 與 AI 會議記錄。
中文訪談特別要注意什麼?
中文訪談——尤其是繁體中文與華語混雜口音的訪談——正是不少通用語音工具最弱的一環。挑工具時值得留意兩點:
- 繁體中文與華語的辨識品質:中文同音字多、人名與專有名詞密集,免費通用工具錯字率偏高,而這些字偏偏是你最需要引用準確的地方。Subanana 持續評測各語音辨識模型,為每種來源語言挑選表現最好的一個,不鎖死單一供應商;轉錄出問題時還會自動換另一個模型重跑,這個重跑不額外扣你的分鐘額度。
- 講者識別省下的整理時間:多人座談、焦點團體訪談最麻煩的就是分不出誰講哪句。轉錄模式會自動分出講者並讓你重新命名,省掉你回頭一句句標記發言者的工夫——這對後續編碼與引用標註特別關鍵。
要提一點界線:跨語言的處理上,「一句話裡中英來回夾雜、即時自動切換」這種情境是 Subanana 即時字幕功能的強項,不是轉錄模式的範圍。訪談逐字稿這邊,你要倚靠的是中文辨識品質和講者識別,而不是句中即時語言切換。需要現場即時字幕的活動場景,可參考 AI 即時語音轉字幕。
訪談逐字稿常見問題
問:免費方案能做完整份訪談逐字稿嗎? 答:可以試做、預覽結果,但匯出要付費。免費方案不支援字幕/逐字稿檔案下載,也不能在編輯器選取複製文字,唯一輸出是有浮水印、最長 5 分鐘、720p 的影片;每檔 3 GB 上限。要匯出 DOCX/TXT/XLSX 等可用的逐字稿檔案,需要付費方案(每檔上限放寬到 15 GB/3 小時)。
問:多人訪談分得出誰講哪句嗎? 答:可以。轉錄模式支援講者識別,會自動分出 Speaker 1、Speaker 2 等標記,你在編輯器內可以改成實際角色(主持人、受訪者 A),整份稿會同步更新。
問:AI 轉錄出來的逐字稿可以直接引用嗎? 答:建議先做一輪人工校對再引用。AI 轉錄把絕大部分文字和分段處理好,但人名、專有名詞、關鍵數字這些「引錯就出事」的地方,值得你逐句核對——尤其是要直接引述受訪者原話的段落。
問:訪談錄音檔很長(一兩小時)也可以嗎? 答:可以。付費方案每檔上限 15 GB/3 小時,一般訪談錄音都在範圍內。長訪談更建議用編輯器內的 AI 對話功能先抓重點段落,再針對要引用的部分細校。