英文逐字稿怎麼做?把英語訪談、講座、Podcast 錄音轉成文字

2026-06-15
KKevin Wong

要把一段英語錄音轉成英文逐字稿,最務實的做法是用 AI 語音轉文字工具:選對「轉錄模式」、設定來源語言為英文、先把人名與專有名詞加進詞彙表,轉錄後再做一輪人工校對。 這樣一段一兩小時的英文訪談、線上課程或 Podcast,幾分鐘就能拿到帶標點、分段、分得出講者的逐字稿,需要的話還能一鍵翻成繁體中文。下面說明三種做法的取捨,並完整示範流程。

英文逐字稿怎麼做?英語錄音轉文字完整教學

英文逐字稿和中文逐字稿有什麼不一樣?

同樣是逐字稿,英文音檔有它特別的難處,挑工具與設定時要先知道:

  • 口音差異大:英語母語者、印度英語、歐洲口音、台灣講者的英語,發音差很多。通用免費工具對非標準口音的錯字率明顯偏高。
  • 專有名詞密集:英文訪談裡常有人名、公司名、技術術語、縮寫(API、ROI、KPI),這些偏偏是你最需要拼對、也最常被聽錯的字。
  • 語速快、連音多:英語口語連音、吞音多,快速對談時尤其考驗辨識模型。

所以英文逐字稿的重點不只是「能轉文字」,而是口音與專有名詞的處理能力,以及能不能讓你方便校對。

三種做法的取捨

  • 人工聽打:準確度上限最高,但極慢——一小時英語錄音常要花三到五小時聽打,口音重、多人對談更久。趕死線時幾乎不可行。
  • 免費自動工具:快又免費,但對口音較重或多人交談的英文內容錯字率偏高,多半不分講者、沒有標點分段,讀起來像一面文字牆,事後重整很花時間。
  • AI 語音轉文字:目前最務實的折衷。用語音辨識模型轉錄,並自動加標點、分段、分講者,再讓你在編輯器校對。比人工快得多,也比免費工具準。要說清楚的是:AI 轉錄不會取代最後的校對,要逐字引用前仍應人工核對人名與關鍵數字。

下面示範第三條路。

怎麼用 Subanana 把英文錄音轉成逐字稿?

我經營 Subanana,這裡用它示範整個流程。Subanana 在英文逐字稿這個情境的關鍵能力是:多模型語音辨識路由(持續評測多個模型,為英文挑表現最好的那一個,出問題時自動換模型重跑,且重跑不額外扣額度)、講者識別自動標點與分段,以及可選的翻譯成繁體中文。整個流程分五步:

  1. 匯入英文錄音:上傳音訊或影片檔(支援 .mp4/.mov/.webm/.ogg),或貼上公開的 YouTube/Instagram/Facebook 連結直接匯入。國外講座、英文 Podcast 常放在 YouTube,貼連結就能匯入,不用先下載。
  2. 選轉錄模式,來源語言設為英文:逐字稿要選轉錄模式(不是字幕模式)——字幕模式只會給你按時間切碎、沒有標點的字幕行;轉錄模式才會自動加標點、依語意分段,產出可閱讀的英文逐字稿。把講者數設為自動偵測(或手動輸入人數)。
  3. 先設定詞彙表(英文逐字稿最關鍵的一步):把錄音裡會出現的人名、公司名、產品名、技術縮寫加進詞彙表(Glossary),系統轉錄時會優先採用你指定的拼法。英文專有名詞最容易被聽錯,先教工具這些詞,能省掉大量事後改錯字的時間。
  4. 校對與標示講者:轉錄完成後進編輯器。系統會自動分出 Speaker 1、Speaker 2,並移除「um」「you know」這類語助詞。你可以把講者改成實際角色(Host、Guest A),整份稿會同步更新;也可以直接和逐字稿對話,請 AI 抽重點、找某段內容,長訪談特別省時。
  5. 匯出:選你需要的格式。英文逐字稿最常用 DOCX(Word 直接編輯)或 TXT(貼進 Notion、Obsidian);要做引用標註,可選 XLSX 把時間碼、講者、文字表格化。也支援 VTT、SRT、Markdown。

校對好、匯出,這份英文逐字稿就能直接放進你的報告、文章或研究裡。模式設計可參考 AI 字幕/轉錄工具

英文逐字稿怎麼提高準確度?

同一段錄音,設定對不對,成品差很多。三個最有效的做法:

  • 先設詞彙表:如前述,人名、品牌、技術縮寫先加進去。這是投報率最高的一步。
  • 選對模式:做來讀、來引用的逐字稿就選轉錄模式,才有標點分段;字幕模式是給影片畫面用的,慣例上不加標點。
  • 錄音品質顧好:盡量用近距離麥克風、降低背景雜音。再強的模型,遇到收音差、多人搶話也會吃力——這一點所有工具都一樣。

要提一點界線:「一句話裡中英來回夾雜、即時自動切換」這種情境是 Subanana 即時字幕功能的強項,不是轉錄模式的範圍。純英文音檔做逐字稿,你要倚靠的是英文辨識品質和講者識別。需要現場即時字幕的活動,可參考 AI 即時語音轉字幕

英文逐字稿要中英對照怎麼辦?

很多人要的不只是英文逐字稿,還要一份繁體中文對照,方便團隊閱讀或做摘要。在轉錄模式裡,設定來源語言為英文後,可以加選一個翻譯目標語言(例如繁體中文),系統會在英文逐字稿之外,一併產出中文翻譯。轉錄模式每次一個翻譯目標語言;若要同時輸出多個語言版本的字幕,那是字幕模式的範圍。

常見問題

問:英文逐字稿用免費方案能做完整一份嗎? 答:可以試做、預覽結果,但匯出要付費。免費方案不支援字幕/逐字稿檔案下載,也不能在編輯器選取複製文字,唯一輸出是有浮水印、最長 5 分鐘、720p 的影片。要匯出 DOCX/TXT/XLSX 等可用檔案,需要付費方案(每檔上限放寬到 15 GB/3 小時)。各方案見 方案費用

問:英文錄音有口音,轉得出來嗎? 答:口音越重、收音越差,難度越高,這對所有工具都一樣。Subanana 的做法是為英文路由到評測表現最好的模型,並在某段出問題時自動換另一個模型重跑;但非標準口音、多人搶話的段落,仍建議你在編輯器裡重點校對。最準的判斷方式是拿你自己的音檔免費試做一段看看。

問:英文逐字稿可以分出不同講者嗎? 答:可以。轉錄模式支援講者識別,會自動分出 Speaker 1、Speaker 2,你可以在編輯器改成 Host、Guest A 等實際角色,整份稿同步更新,方便逐句引用。

問:英文訪談一兩小時也可以嗎? 答:可以。付費方案每檔上限 15 GB/3 小時,一般英文訪談、講座、Podcast 都在範圍內。長錄音建議先用編輯器內的 AI 對話抓重點段落,再針對要引用的部分細校。

選用 Subanana,讓工作更輕鬆

無需提供付款方式
免費試用
隨時取消