YouTube 影片逐字稿取得完整教學:從自動字幕到可編輯的中文逐字稿
當你想要 YouTube 影片裡頭講了什麼的完整文字版——不是字幕檔、不是翻譯,而是可以複製貼進筆記、可以用 Ctrl+F 搜尋的整段文字——你需要的是「逐字稿」(transcript)。
逐字稿和字幕(subtitles)是兩件事。字幕是給影片畫面用的,按時間切成短短的一行行;逐字稿是給人讀的,要有標點、要有段落、要能一段一段往下看。這份教學專門講怎麼取得 YouTube 影片的中文逐字稿——從 YouTube 內建功能、第三方擷取工具,到 AI 轉錄三種方式都會比較,並示範如何用 Subanana 取得帶標點分段、可編輯的逐字稿。
如果你的需求是雙語對照字幕(同畫面顯示中英文)或單純翻譯字幕,可參考 中英對照字幕製作教學 與 影片翻譯完整教學。本文聚焦在逐字稿這個特定需求。

為什麼你會需要 YouTube 影片的逐字稿
逐字稿的常見使用情境:
- 研究與筆記:看完一支訪談、課程、會議錄影,你想把講者講的內容整理成筆記、做摘要,逐字稿讓你可以一邊讀一邊畫重點,比反覆倒帶聽快得多。
- 引用與佐證:寫文章、做報告、整理逐字錄音引述時,你需要原話的精確文字版本。
- 可搜尋的知識庫:把多支影片的逐字稿存進 Obsidian、Notion 或 Google Docs 後,未來想找「某位來賓提到 XX 的那段」可以直接全文搜尋。
- 無障礙閱讀:聽障使用者、閱讀偏好強於聽講的人,需要文字版本來吸收影片內容。
- 內容再利用:YouTuber、Podcaster 把影片逐字稿改寫成部落格文章、電子報、社群短文,一支影片變多種媒體素材。
這些情境都有共同特徵:讀者要的是流暢、有標點、有段落的文字,而不是按時間切碎的字幕行。這正是逐字稿和字幕的根本差異。
取得 YouTube 逐字稿的三種主流方式
實務上有三條路徑,各有取捨。
方式一:YouTube 內建「顯示文字記錄」功能
YouTube 對多數公開影片提供自動產生的文字稿。操作方法:在影片下方點「⋯」(更多)→「顯示文字記錄」(Show transcript),右側會展開時間碼+逐句文字。
優點:
- 完全免費,不需要任何外部工具。
- 適合英文短片或你只需要大致了解講了什麼的場景。
侷限:
- 沒有標點:YouTube 自動字幕基本上不加句點、逗號、問號。一整段讀下來像沒有換氣的句子,閱讀體驗很差。
- 沒有段落:每行只是按時間切,沒有依語意分段。長影片得到的是一塊巨大的文字牆。
- 中文準確度參差:中文(特別是粵語、口音較重的內容、專有名詞)自動字幕的錯字率明顯高於英文。
- 無法直接編輯:你只能複製出來,再到別處慢慢修。
- 沒有講者標示:如果是多人訪談、播客錄影,全部文字混在一起,分不出誰講了哪句。
如果你只是想了解一支英文短片的大意、不在意可讀性,這條路最快。但要當成可讀、可引用的逐字稿來用,多半要再做一輪人工整理。
方式二:第三方逐字稿擷取網站
網路上有些網站貼上 YouTube 連結就會回傳逐字稿——本質是去抓 YouTube 同一份自動字幕,再以網頁形式呈現出來。
優點:
- 操作門檻低,不用安裝軟體。
- 部分網站會幫你做基本的標點或合併。
侷限:
- 抓的是同一份原始字幕:YouTube 自動字幕的所有問題(沒標點、錯字、無段落)會原樣承襲。
- 品質參差:有的網站處理得乾淨,有的幾乎沒處理。
- 隱私與穩定性:你貼的是公開影片網址,多半沒問題,但長期能不能用、會不會收費,取決於該網站運營狀況。
對英文影片這條路可用,對中文影片改善有限——因為底層仍是 YouTube 自動字幕。
方式三:AI 語音轉文字工具(推薦給認真用逐字稿的人)
如果你要的是「拿到逐字稿就能讀、能編輯、能直接放進文件裡」的品質,AI 轉錄工具是當前最務實的選擇。流程:把影片(或影片連結)丟給工具,工具用自家語音辨識模型重新轉錄一次,並做標點、分段、可選的講者識別。
優點:
- 重新轉錄,不繼承 YouTube 自動字幕的錯誤。
- 自動加標點與段落:產出可讀文字,不是字幕行。
- 支援講者識別:多人訪談可以分出 Speaker 1、Speaker 2。
- 可直接編輯與匯出:在工具內修錯字、加註解,再匯出 DOCX、TXT 等檔案。
- 支援 AI 對話:部分工具能讓你直接和逐字稿問答(「他在哪段提到 XX?」)。
下一節介紹如何用 Subanana 走這條路。
用 Subanana 取得 YouTube 逐字稿
Subanana 在這個情境的差異化:URL 直接匯入、轉錄模式自動加標點與段落、支援講者識別、編輯器內可與逐字稿對話。
關鍵概念是 Subanana 的「模式」設計。Subanana 有字幕模式、轉錄模式、會議模式——逐字稿要選轉錄模式:
- 字幕模式是為影片畫面顯示而設計的,刻意不加標點(句點、逗號會讓字幕行視覺擁擠),輸出 SRT/VTT 等檔案。
- 轉錄模式是為閱讀而設計的,會自動加標點並依語意分段,輸出 DOCX/TXT/Markdown 等可讀檔案。
要拿 YouTube 影片做可讀的逐字稿,務必選轉錄模式。
端到端工作流:四個步驟
步驟 1:貼上 YouTube 連結
打開 Subanana,選擇「從 URL 匯入」,把 YouTube 影片連結(包含 Shorts)貼進去。系統會自動下載影片並進入下一步——你不需要先把影片下載到電腦再上傳。
可匯入的範圍:公開 YouTube、Instagram、Facebook 影片(包含 Shorts/Reels)。不支援:私人影片、年齡限制影片、區域限制影片、會員限定影片。遇到這些情況,請先用其他方式取得影片檔,再走檔案上傳路徑。
步驟 2:選擇轉錄模式並設定原文語言
進入「轉錄」(Transcription)模式,選擇影片的原文語言。Subanana 涵蓋 80+ 種語言,常見的中文(普通話、繁體、簡體)、英文、日文、韓文都在內。
關鍵:選轉錄模式,不要選字幕模式。轉錄模式才會自動加標點與段落,產出可閱讀的逐字稿;字幕模式產出的是按時間切碎的字幕行。
如果原文影片是中文以外的語言(例如英文訪談),且你想要中文翻譯版的逐字稿,可在這一步同時設定一個翻譯目標語言。轉錄模式支援單一翻譯目標。
步驟 3:編輯、校對、識別講者
轉錄完成後進入編輯器,你可以:
- 修正錯字:點擊文字直接編輯。中文常見的同音字、人名、專有名詞建議在這步先修正。
- 識別講者:多人訪談、Podcast 錄影會自動分出 Speaker 1、Speaker 2。你可以把 Speaker 1 改成「主持人」、Speaker 2 改成「來賓 王小明」,整份逐字稿會跟著更新。
- 使用詞彙表(Glossary):影片涉及品牌名、產品名、專業術語,可預先設定詞彙表,系統會在轉錄時優先採用你指定的寫法。
- AI 對話:編輯器內可直接和逐字稿對話——「整理出第 10 分鐘到 15 分鐘的重點」、「他對 XX 的態度是什麼」、「幫我列出三個關鍵論點」。這對長影片的內容整理特別省時。
步驟 4:匯出
匯出選項:
- DOCX:最常用的可讀逐字稿格式,可直接在 Word/Pages/Google Docs 開啟編輯。
- TXT:純文字,適合貼進 Obsidian、Notion 等筆記工具。
- Markdown:適合貼進部落格、文件系統。
- XLSX:時間碼+文字+講者表格化呈現,適合做引用標註或分析。
- SRT/VTT:如果你後續想把這份逐字稿再變成字幕貼回影片,可匯出標準字幕格式。
對逐字稿用途,最常選 DOCX 或 TXT。
什麼時候 YouTube 自動字幕已經夠用
老實說,不是每支影片都值得用 AI 轉錄重做一次。以下情境 YouTube 自動字幕已經夠:
- 英文內容、你只需要大意:英文自動字幕準確度尚可,閱讀大意不需要標點完美。
- 短片(3 分鐘以內):手動補幾個句點、整理一下就好,不需要走完整工作流。
- 一次性使用、不需要保存或引用:純粹想知道講了什麼,看完就丟。
反過來,以下情境建議用 AI 轉錄:
- 中文/粵語/日韓語等非英文內容。
- 影片長(10 分鐘以上),人工整理時間成本太高。
- 多人對談,需要分辨講者。
- 內容要存檔、引用、再利用(部落格、報告、電子報)。
- 專有名詞、人名、品牌名多(自動字幕容易錯)。
與其他常見工具的脈絡
簡短脈絡,幫你判斷該不該選 Subanana:
- Taption:台灣本土選項,按分鐘付費。如果你每月只有一兩支影片要做逐字稿,按分鐘付費可能更省;如果是穩定每週多支影片的量產需求,訂閱制更划算。
- 手動工作流(自行下載 + 開源語音辨識):技術門檻高,需要自己處理影片下載、模型部署、標點與分段後處理。對開發者是可行方案;對非技術使用者成本太高。
- YouTube 字幕+人工整理:完全免費,但只適合英文短片或可以接受花時間整理的情境。
常見問題
Q:所有 YouTube 影片都可以匯入嗎? A:公開影片(包含 Shorts)可以直接貼連結匯入。私人影片、年齡限制影片、區域限制影片、會員限定影片無法匯入——這些影片請先用其他方式取得檔案,再走檔案上傳路徑。
Q:YouTube Shorts 可以做逐字稿嗎? A:可以。Shorts 與標準 YouTube 影片用同一套 URL 匯入流程。Shorts 通常很短,免費方案的 15 分鐘上限完全足夠。
Q:免費方案能完成 YouTube 逐字稿嗎? A:可以試做小段內容。免費方案每檔上限 15 分鐘/3 GB,但不支援字幕/逐字稿檔案下載——你可以在編輯器內預覽,但要匯出 DOCX/TXT 等檔案需要付費方案。付費方案每檔 15 GB/3 小時上限。
Q:訪談影片有多位講者,逐字稿能分辨誰講了什麼嗎? A:可以。Subanana 的轉錄模式支援講者識別,會自動分出 Speaker 1、Speaker 2 等標記。你在編輯器內可以把這些標記改成實際人名(「主持人」、「來賓 王小明」),整份逐字稿會同步更新。