YouTube 影片逐字稿取得完整教學:從自動字幕到可編輯的中文逐字稿

2026-05-28
KKevin Wong

當你想要 YouTube 影片裡頭講了什麼的完整文字版——不是字幕檔、不是翻譯,而是可以複製貼進筆記、可以用 Ctrl+F 搜尋的整段文字——你需要的是「逐字稿」(transcript)。

逐字稿和字幕(subtitles)是兩件事。字幕是給影片畫面用的,按時間切成短短的一行行;逐字稿是給人讀的,要有標點、要有段落、要能一段一段往下看。這份教學專門講怎麼取得 YouTube 影片的中文逐字稿——從 YouTube 內建功能、第三方擷取工具,到 AI 轉錄三種方式都會比較,並示範如何用 Subanana 取得帶標點分段、可編輯的逐字稿。

如果你的需求是雙語對照字幕(同畫面顯示中英文)或單純翻譯字幕,可參考 中英對照字幕製作教學影片翻譯完整教學。本文聚焦在逐字稿這個特定需求。

YouTube 影片逐字稿取得教學

為什麼你會需要 YouTube 影片的逐字稿

逐字稿的常見使用情境:

  • 研究與筆記:看完一支訪談、課程、會議錄影,你想把講者講的內容整理成筆記、做摘要,逐字稿讓你可以一邊讀一邊畫重點,比反覆倒帶聽快得多。
  • 引用與佐證:寫文章、做報告、整理逐字錄音引述時,你需要原話的精確文字版本。
  • 可搜尋的知識庫:把多支影片的逐字稿存進 Obsidian、Notion 或 Google Docs 後,未來想找「某位來賓提到 XX 的那段」可以直接全文搜尋。
  • 無障礙閱讀:聽障使用者、閱讀偏好強於聽講的人,需要文字版本來吸收影片內容。
  • 內容再利用:YouTuber、Podcaster 把影片逐字稿改寫成部落格文章、電子報、社群短文,一支影片變多種媒體素材。

這些情境都有共同特徵:讀者要的是流暢、有標點、有段落的文字,而不是按時間切碎的字幕行。這正是逐字稿和字幕的根本差異。

取得 YouTube 逐字稿的三種主流方式

實務上有三條路徑,各有取捨。

方式一:YouTube 內建「顯示文字記錄」功能

YouTube 對多數公開影片提供自動產生的文字稿。操作方法:在影片下方點「⋯」(更多)→「顯示文字記錄」(Show transcript),右側會展開時間碼+逐句文字。

優點:

  • 完全免費,不需要任何外部工具。
  • 適合英文短片或你只需要大致了解講了什麼的場景。

侷限:

  • 沒有標點:YouTube 自動字幕基本上不加句點、逗號、問號。一整段讀下來像沒有換氣的句子,閱讀體驗很差。
  • 沒有段落:每行只是按時間切,沒有依語意分段。長影片得到的是一塊巨大的文字牆。
  • 中文準確度參差:中文(特別是粵語、口音較重的內容、專有名詞)自動字幕的錯字率明顯高於英文。
  • 無法直接編輯:你只能複製出來,再到別處慢慢修。
  • 沒有講者標示:如果是多人訪談、播客錄影,全部文字混在一起,分不出誰講了哪句。

如果你只是想了解一支英文短片的大意、不在意可讀性,這條路最快。但要當成可讀、可引用的逐字稿來用,多半要再做一輪人工整理。

方式二:第三方逐字稿擷取網站

網路上有些網站貼上 YouTube 連結就會回傳逐字稿——本質是去抓 YouTube 同一份自動字幕,再以網頁形式呈現出來。

優點:

  • 操作門檻低,不用安裝軟體。
  • 部分網站會幫你做基本的標點或合併。

侷限:

  • 抓的是同一份原始字幕:YouTube 自動字幕的所有問題(沒標點、錯字、無段落)會原樣承襲。
  • 品質參差:有的網站處理得乾淨,有的幾乎沒處理。
  • 隱私與穩定性:你貼的是公開影片網址,多半沒問題,但長期能不能用、會不會收費,取決於該網站運營狀況。

對英文影片這條路可用,對中文影片改善有限——因為底層仍是 YouTube 自動字幕。

方式三:AI 語音轉文字工具(推薦給認真用逐字稿的人)

如果你要的是「拿到逐字稿就能讀、能編輯、能直接放進文件裡」的品質,AI 轉錄工具是當前最務實的選擇。流程:把影片(或影片連結)丟給工具,工具用自家語音辨識模型重新轉錄一次,並做標點、分段、可選的講者識別。

優點:

  • 重新轉錄,不繼承 YouTube 自動字幕的錯誤
  • 自動加標點與段落:產出可讀文字,不是字幕行。
  • 支援講者識別:多人訪談可以分出 Speaker 1、Speaker 2。
  • 可直接編輯與匯出:在工具內修錯字、加註解,再匯出 DOCX、TXT 等檔案。
  • 支援 AI 對話:部分工具能讓你直接和逐字稿問答(「他在哪段提到 XX?」)。

下一節介紹如何用 Subanana 走這條路。

用 Subanana 取得 YouTube 逐字稿

Subanana 在這個情境的差異化:URL 直接匯入轉錄模式自動加標點與段落支援講者識別編輯器內可與逐字稿對話

關鍵概念是 Subanana 的「模式」設計。Subanana 有字幕模式、轉錄模式、會議模式——逐字稿要選轉錄模式

  • 字幕模式是為影片畫面顯示而設計的,刻意不加標點(句點、逗號會讓字幕行視覺擁擠),輸出 SRT/VTT 等檔案。
  • 轉錄模式是為閱讀而設計的,會自動加標點並依語意分段,輸出 DOCX/TXT/Markdown 等可讀檔案。

要拿 YouTube 影片做可讀的逐字稿,務必選轉錄模式。

端到端工作流:四個步驟

步驟 1:貼上 YouTube 連結

打開 Subanana,選擇「從 URL 匯入」,把 YouTube 影片連結(包含 Shorts)貼進去。系統會自動下載影片並進入下一步——你不需要先把影片下載到電腦再上傳。

可匯入的範圍:公開 YouTube、Instagram、Facebook 影片(包含 Shorts/Reels)。不支援:私人影片、年齡限制影片、區域限制影片、會員限定影片。遇到這些情況,請先用其他方式取得影片檔,再走檔案上傳路徑。

步驟 2:選擇轉錄模式並設定原文語言

進入「轉錄」(Transcription)模式,選擇影片的原文語言。Subanana 涵蓋 80+ 種語言,常見的中文(普通話、繁體、簡體)、英文、日文、韓文都在內。

關鍵:選轉錄模式,不要選字幕模式。轉錄模式才會自動加標點與段落,產出可閱讀的逐字稿;字幕模式產出的是按時間切碎的字幕行。

如果原文影片是中文以外的語言(例如英文訪談),且你想要中文翻譯版的逐字稿,可在這一步同時設定一個翻譯目標語言。轉錄模式支援單一翻譯目標。

步驟 3:編輯、校對、識別講者

轉錄完成後進入編輯器,你可以:

  • 修正錯字:點擊文字直接編輯。中文常見的同音字、人名、專有名詞建議在這步先修正。
  • 識別講者:多人訪談、Podcast 錄影會自動分出 Speaker 1、Speaker 2。你可以把 Speaker 1 改成「主持人」、Speaker 2 改成「來賓 王小明」,整份逐字稿會跟著更新。
  • 使用詞彙表(Glossary):影片涉及品牌名、產品名、專業術語,可預先設定詞彙表,系統會在轉錄時優先採用你指定的寫法。
  • AI 對話:編輯器內可直接和逐字稿對話——「整理出第 10 分鐘到 15 分鐘的重點」、「他對 XX 的態度是什麼」、「幫我列出三個關鍵論點」。這對長影片的內容整理特別省時。

步驟 4:匯出

匯出選項:

  • DOCX:最常用的可讀逐字稿格式,可直接在 Word/Pages/Google Docs 開啟編輯。
  • TXT:純文字,適合貼進 Obsidian、Notion 等筆記工具。
  • Markdown:適合貼進部落格、文件系統。
  • XLSX:時間碼+文字+講者表格化呈現,適合做引用標註或分析。
  • SRT/VTT:如果你後續想把這份逐字稿再變成字幕貼回影片,可匯出標準字幕格式。

對逐字稿用途,最常選 DOCX 或 TXT。

什麼時候 YouTube 自動字幕已經夠用

老實說,不是每支影片都值得用 AI 轉錄重做一次。以下情境 YouTube 自動字幕已經夠:

  • 英文內容、你只需要大意:英文自動字幕準確度尚可,閱讀大意不需要標點完美。
  • 短片(3 分鐘以內):手動補幾個句點、整理一下就好,不需要走完整工作流。
  • 一次性使用、不需要保存或引用:純粹想知道講了什麼,看完就丟。

反過來,以下情境建議用 AI 轉錄:

  • 中文/粵語/日韓語等非英文內容。
  • 影片長(10 分鐘以上),人工整理時間成本太高。
  • 多人對談,需要分辨講者。
  • 內容要存檔、引用、再利用(部落格、報告、電子報)。
  • 專有名詞、人名、品牌名多(自動字幕容易錯)。

與其他常見工具的脈絡

簡短脈絡,幫你判斷該不該選 Subanana:

  • Taption:台灣本土選項,按分鐘付費。如果你每月只有一兩支影片要做逐字稿,按分鐘付費可能更省;如果是穩定每週多支影片的量產需求,訂閱制更划算。
  • 手動工作流(自行下載 + 開源語音辨識):技術門檻高,需要自己處理影片下載、模型部署、標點與分段後處理。對開發者是可行方案;對非技術使用者成本太高。
  • YouTube 字幕+人工整理:完全免費,但只適合英文短片或可以接受花時間整理的情境。

常見問題

Q:所有 YouTube 影片都可以匯入嗎? A:公開影片(包含 Shorts)可以直接貼連結匯入。私人影片、年齡限制影片、區域限制影片、會員限定影片無法匯入——這些影片請先用其他方式取得檔案,再走檔案上傳路徑。

Q:YouTube Shorts 可以做逐字稿嗎? A:可以。Shorts 與標準 YouTube 影片用同一套 URL 匯入流程。Shorts 通常很短,免費方案的 15 分鐘上限完全足夠。

Q:免費方案能完成 YouTube 逐字稿嗎? A:可以試做小段內容。免費方案每檔上限 15 分鐘/3 GB,但不支援字幕/逐字稿檔案下載——你可以在編輯器內預覽,但要匯出 DOCX/TXT 等檔案需要付費方案。付費方案每檔 15 GB/3 小時上限。

Q:訪談影片有多位講者,逐字稿能分辨誰講了什麼嗎? A:可以。Subanana 的轉錄模式支援講者識別,會自動分出 Speaker 1、Speaker 2 等標記。你在編輯器內可以把這些標記改成實際人名(「主持人」、「來賓 王小明」),整份逐字稿會同步更新。

選用 Subanana,讓工作更輕鬆

無需提供付款方式
免費試用
隨時取消