Podcast 逐字稿製作完整教學:上傳單集、分出講者、編輯到匯出

2026-06-03
KKevin Wong

Podcast 逐字稿最快的做法,是把單集音檔(或 YouTube 影片連結)丟進 AI 語音轉文字工具,先自動產生一份分得出講者、有標點與分段的初稿,再花十幾分鐘校對專有名詞,最後匯出成 SRT、Word 或純文字。整個流程不需要逐句聽打,一集六十分鐘的節目,通常半小時內就能拿到一份可以直接引用、改寫成文章的逐字稿。

這篇教學會把每一步拆開講清楚:要準備什麼、AI 幫你做掉哪些苦工、哪些地方仍然需要人工確認,以及拿到逐字稿之後該怎麼延伸成 Show Notes 與 SEO 內容。文中以 Subanana 的逐字稿工具 為例示範,但流程對多數 AI 轉錄服務都通用。

Podcast 逐字稿製作完整教學

Podcast 為什麼需要逐字稿?

很多人以為逐字稿只是「給聽障朋友看的字幕」,但對經營節目的人來說,它其實是一份能重複利用的資產:

  • SEO 與搜尋曝光:純音檔在 Google 上幾乎搜不到,逐字稿則是一整頁可被索引的文字。把單集逐字稿放上網站,等於替每一集多開一道自然搜尋的入口。
  • 改寫成文章與貼文:六十分鐘的對談裡通常藏著三到五個可以獨立成篇的觀點。有了逐字稿,把口語整理成部落格文章、電子報或社群貼文都快得多。
  • 製作 Show Notes 與時間戳:逐字稿是寫重點摘要、列出章節時間戳、整理金句的底稿。
  • 可引用、可查證:來賓講過的數據或說法,日後要引用時可以直接回到逐字稿核對,不必重聽整集。
  • 無障礙與多元裝置:在不方便戴耳機、或聽力不便的情境下,文字版本讓更多人能接觸你的內容。

換句話說,逐字稿不是額外的工作,而是把你已經錄好的內容榨出更多價值。

Apple Podcasts、Spotify 的內建逐字稿夠用嗎?

這是中文 Podcaster 最常忽略的一個坑。Apple Podcasts 與 Spotify 近年都推出了自動逐字稿,但它們有明確的語言限制。

根據 Apple 官方的 Podcast 逐字稿說明(截至 2026-06-03 查證),Apple 自動產生逐字稿目前支援的語言為英文、丹麥文、荷蘭文、芬蘭文、法文、德文、義大利文、挪威文、葡萄牙文、西班牙文與瑞典文——清單裡並沒有中文。也就是說,如果你的節目是國語,Apple 平台不會幫你自動生成逐字稿;你得自己準備一份 VTT 或 SRT 檔,再透過 RSS 或 Apple Podcasts Connect 上傳,平台才會顯示。

這帶出兩個重點:

  1. 中文節目幾乎一定要自備逐字稿,內建功能補不上這塊。
  2. 就算平台某天支援中文,自動稿也很難處理專有名詞與來賓姓名——這些正是需要可編輯、可校對、能建詞彙表的工具的地方。

所以對台灣的 Podcaster 來說,務實的做法是:用一個準確、分得出講者、能匯出標準字幕檔的 AI 工具自己產逐字稿,再依平台需求上傳。下面就進入實際操作。

Podcast 逐字稿怎麼做?五個步驟完整流程

以下用一集雙人對談(一位主持人、一位來賓)的節目為例。

步驟你要做的事AI 幫你完成的部分
1. 準備音檔匯出單集 MP3/WAV,或複製節目的公開 YouTube 連結
2. 上傳並設定選擇來源語言、開啟分講者與自動分段排程處理、自動辨識語音
3. AI 產生初稿等待轉錄完成語音轉文字、區分講者、加標點分段、過濾贅字
4. 校對編輯確認專有名詞、來賓姓名、品牌與數字標出可能誤聽的詞並提供建議改法
5. 匯出與延伸下載 SRT/Word,產生摘要與 Show Notes依模板整理重點、行動項目與章節

步驟一:準備音檔或連結

先從你的錄音或剪輯軟體匯出單集音檔,常見的 MP3、WAV、M4A 都可以。如果你的節目同步發在 YouTube,也可以直接複製該影片的公開連結——Subanana 支援貼上公開的 YouTube、Instagram、Facebook 連結,由系統抓取並轉錄,省去先下載再上傳的步驟。

小提醒:上傳前不必特地降噪或剪掉空白;AI 轉錄是依音檔長度計費,但即使中間有靜音段也照長度計算,所以把節目開頭的閒聊剪掉反而更省。

步驟二:上傳並設定講者與分段

進入 Subanana 應用程式 建立新專案,選擇「逐字稿」模式,接著做三個設定:

  • 來源語言:選國語(中文)作為節目主要語言。Subanana 支援 80 種以上語言(含國語與粵語),各語言都會挑選表現較好的辨識模型處理。
  • 講者人數:可以讓系統自動偵測,也可以手動指定(例如這集是 2 位)。手動指定通常能讓講者切分更穩定。
  • 智慧分段:開啟後,AI 會把連續的口語切成好讀的段落,而不是一大塊文字。

步驟三:AI 產生初稿

設定完成後,系統會把音檔送進轉錄流程。這一步 AI 幫你做掉最花時間的苦工:

  • 語音轉文字:把整段對談辨識成文字。系統會針對來源語言挑選表現較好的辨識模型,並在偵測到輸出異常時自動改用其他模型重跑,提升可靠度。
  • 分出講者(Diarization):自動標出哪幾句是主持人、哪幾句是來賓,省去你邊聽邊標。
  • 標點與分段:逐字稿模式會自動補上標點符號並分段,讓內容像文章一樣好讀(這是逐字稿模式特有的處理,字幕模式依慣例不加標點)。
  • 整理口語:AI 會適度過濾「嗯」「然後」這類贅字,讓初稿更乾淨。

值得一提的是,如果某段音檔辨識結果出現異常,系統會自動把那幾段改用另一個模型重新處理以產出更可靠的結果,而這類內部重試不會額外扣你的分鐘數——同一個檔案只計費一次。

步驟四:校對與編輯

AI 初稿不等於成品。Podcast 最容易出錯的地方是專有名詞:來賓的名字、公司品牌、產品名、外語詞彙。編輯器裡有幾個工具能加速這道校對:

  • AI 校對建議:編輯器會對文字做一次檢查,標出可能「聽錯」或「同音字用錯」的詞並提出建議(例如把「在見」改成「再見」)。每個建議都由你決定要不要採用,不會自動套用。要注意它處理的是替換錯誤,不會幫你補回漏聽的字,所以關鍵段落還是建議對照音檔聽一次。
  • 詞彙表(Glossary):把固定會出現的名字、品牌、術語先建進詞彙表,後續專案都能套用,減少同一個名字一錯再錯。詞彙表分為整個工作區共用與單一專案專用兩種,對固定來賓或系列節目特別有用。
  • CPS 提示:若打算拿逐字稿當字幕用,編輯器會標出每秒字數過多、來不及閱讀的段落,方便調整。

校對的訣竅是「抓大放小」:先確認人名、數字、品牌這些一錯就尷尬的硬傷,口語的小瑕疵則可以視用途決定要不要逐字修。

步驟五:匯出,並延伸成 Show Notes 與文章

校對完成後就可以匯出。Subanana 支援的格式包含 SRT、VTT、純文字(TXT)、Word(DOCX)、Excel(XLSX)與 Markdown,也能打包成一個 ZIP。對 Podcast 來說,常見的搭配是:

  • SRT/VTT:上傳到 Apple Podcasts Connect 或放進影片版,當作字幕/平台逐字稿。
  • Word/純文字:拿來改寫成部落格文章或電子報。
  • Markdown:直接貼進網站後台或筆記工具。

逐字稿之外,Subanana 還能直接從同一份轉錄產生摘要與重點整理,作為 Show Notes 的草稿。這個摘要功能可以自己挑選要用哪一個大型語言模型(LLM)來生成,並套用內建的摘要模板(如重點整理、行動項目等),快速把一小時的對談收斂成一頁重點。需要注意的是,挑選模型這件事目前只開放在摘要功能;轉錄與翻譯的模型是由系統自動挑選,不需要你操心。

你也可以直接在編輯器裡「與逐字稿對話」——問它「這集主要談了哪三件事」「來賓對某個主題的看法是什麼」,由 AI 根據逐字稿內容回答,幫你更快抓出可以寫成貼文或文章的重點。

小提醒:免費方案可以先試跑、預覽結果,但匯出檔案(含逐字稿與字幕)需要付費方案才能解鎖。各方案的分鐘數與價格可參考 Subanana 方案費用頁

夾雜外語詞與多位來賓怎麼處理?

台灣的 Podcast 常常一句中文夾幾個英文詞,或同時有兩三位來賓,這兩種情況最考驗工具:

  • 夾雜的英文詞彙:節目裡常出現的英文品牌、產品名或專業術語,建議在校對前先加進詞彙表,讓後續轉錄沿用固定寫法,減少拼錯與前後不一致。
  • 多位來賓:如果你知道確切人數,建議在設定時手動指定講者數,通常比全自動更穩。匯出後,編輯器裡的講者標籤(例如「講者 1/講者 2」)可以改成實際姓名,讀起來更清楚。
  • 收音品質:講者輪流講、避免長時間交疊說話,辨識與講者切分都會更乾淨;收音清楚的素材,後續校對的工夫也會明顯變少。

簡單說,事前多給一點資訊(人數、詞彙表)、收音清楚一點,事後就少改一點

一個界線:直播即時字幕是另一回事

如果你做的是現場活動或線上直播,需要的是即時字幕,那屬於另一個功能。Subanana 的即時語音轉字幕是麥克風或系統音源即時輸入、現場顯示,由主持端設定一個來源語言與一個翻譯語言,觀眾透過分享連結觀看。

而 Podcast 逐字稿是錄好之後的後製流程:你已經有完整音檔,追求的是準確度、講者切分與可編輯性,而不是零延遲。兩者用途不同,別把直播字幕的需求套到逐字稿上,反之亦然。

常見問題

一集六十分鐘的 Podcast,做逐字稿要多久? 轉錄本身通常幾分鐘內完成,真正花時間的是校對。如果你只需要大致可讀的版本,十幾分鐘確認人名與數字就夠;要當成正式發布的逐字稿,抓半小時上下校對較保險。

AI 逐字稿準確嗎?需要全部重聽嗎? 不需要逐句重聽。AI 初稿在一般收音清楚的情況下已經相當完整,重點是針對專有名詞、人名、數字這類「一錯就明顯」的地方做確認。模糊或關鍵段落再對照音檔聽一次即可。

可以匯出成字幕直接放上 YouTube 或 Apple Podcasts 嗎? 可以。匯出 SRT 或 VTT 後,YouTube 可直接上傳字幕檔;Apple Podcasts 則依其規定,於 Apple Podcasts Connect 或透過 RSS 提供 VTT/SRT。

免費方案能直接拿到逐字稿檔案嗎? 免費方案適合先預覽辨識效果,但匯出逐字稿與字幕檔需要付費方案。建議先用免費版試跑一小段,確認準確度與流程符合需求,再決定升級。

那「採訪」「會議」也能用同一套流程嗎? 可以。逐字稿模式同樣適用於採訪錄音與會議記錄;差別只在於摘要模板與後續用途。若想深入了解一般錄音檔的做法,可參考訪談逐字稿教學

開始把你的 Podcast 變成文字資產

Podcast 逐字稿不是額外負擔,而是讓你已經產出的內容被搜尋、被引用、被改寫成更多篇文章的關鍵一步。流程其實很簡單:上傳單集、讓 AI 分出講者並產出初稿、花點時間校對專有名詞、匯出你要的格式,再延伸成 Show Notes 與 SEO 文章。

選用 Subanana,讓工作更輕鬆

無需提供付款方式
免費試用
隨時取消