質性研究逐字稿怎麼做?論文訪談、焦點團體錄音轉文字與分析準備全攻略

2026-06-11
KKevin Wong

質性研究的逐字稿,要的不是一份「大概聽得懂」的紀錄,而是一份分得出誰講哪句、能逐句引述進論文、又能直接匯入編碼軟體分析的研究素材。簡單講:先用 AI 轉錄把整段訪談或焦點團體錄音轉成帶講者標示、有標點分段的文字稿,再做一輪人工校對核對人名與專有名詞,最後匯出成 TXT 或 DOCX,匯入 NVivo、MAXQDA 或 ATLAS.ti 做編碼與主題分析。

這篇是寫給研究生與質性研究者的——做訪談、做焦點團體、要交論文附錄、要把資料拿去編碼的人。和一般「訪談逐字稿怎麼做」的通用教學不同,這裡專門談研究情境的眉角:多位發言者的焦點團體怎麼分講者、逐字稿怎麼整理才方便後續編碼、口語素材要不要轉成書面語、以及怎麼把成品接進質性資料分析(QDA)軟體。

質性研究逐字稿:論文訪談與焦點團體錄音轉文字、講者識別、書面語整理、匯入 QDA 軟體編碼分析

質性研究的逐字稿和一般逐字稿差在哪?

差別在於「後續要拿來做什麼」。一般工作場景的逐字稿,讀得懂、抓得到重點就夠了;質性研究的逐字稿則是分析的原始資料(raw data),標準更高:

  • 可追溯到發言者:訪談要分得出研究者與受訪者;焦點團體更要分得出每一位參與者講了什麼,否則無法做發言者層級的比較與編碼。
  • 可逐字引述:寫進論文的引文必須與錄音一字不差,人名、專有名詞、關鍵數字都要正確。
  • 可匯入分析工具:成品要能進 CAQDAS/QDA 軟體(如 NVivo、ATLAS.ti、MAXQDA),在裡面建立編碼簿、標記節點、跑查詢。根據賓州印第安納大學的質性資料分析指南,這類軟體的標準流程,正是「先轉錄、再編碼」——轉錄工具的章節,就排在編碼章節之前。

所以選工具時,第一件要確認的事就是:用「逐字稿(轉錄)模式」,不要用「字幕模式」。字幕是給影片畫面看的,按時間切成沒有標點的短句、輸出 SRT;拿去做研究只會得到一堆切碎的文字牆,反而更難編碼。

訪談與焦點團體錄音轉文字有哪些做法?

做法速度分講者適合的研究情境
人工聽打最慢(1 小時錄音常要 4–6 小時)看聽打者功力樣本極少、需要標註語氣停頓的精細分析
免費自動字幕工具多半不分只是先抓大意,不打算逐字引用
AI 語音轉文字(轉錄模式)自動分講者多數論文訪談、焦點團體——把九成苦工交給 AI,自己做最後校對

對要趕論文進度、又同時跑好幾場訪談的研究者來說,AI 轉錄通常是最務實的折衷:它比人工聽打快得多,比免費字幕工具準,而且會自動分講者、加標點分段。但有一點要先說清楚——AI 轉錄不會取代最後一輪人工校對。要把受訪者原話寫進論文之前,你仍要逐句核對人名、術語與關鍵數字;引用的份量越重,越值得花時間校。

焦點團體有好幾位發言者,逐字稿分得出來嗎?

這正是焦點團體錄音最棘手的地方,也是該優先看的能力——講者識別(speaker diarization)。一段七、八個人交談的錄音,如果工具不分講者,整段文字會混在一起,根本分不出某句觀點是誰提的,後續要做發言者層級的編碼幾乎不可能。

能自動分講者的工具,會把逐字稿整理成「發言者標籤+該段發言」的結構(例如「發言者 1:……」「發言者 2:……」)。這帶來兩個好處:一是你在校對時可以直接把「發言者 1」改成真實代號(如 P1、受訪者 A),維持匿名又可追溯;二是匯入 QDA 軟體後,一致的發言者標籤更利於依發言者自動歸類、比對不同參與者的說法。

收音品質仍然重要:焦點團體最好用桌面全向麥克風、減少同時搶話,分講者的結果會明顯更乾淨。再好的模型也救不回嚴重重疊或極小聲的發言,這部分要靠現場錄音的安排。

口語訪談要不要整理成書面語?

看你的研究取向。有些質性研究(如會話分析)刻意保留所有口語特徵——語助詞、重複、停頓——因為這些本身就是分析對象;這種情況下,逐字稿要盡量貼近原始口語。

但更多論文需要的是乾淨、可讀、可直接引用的引文。這時把訪談中的冗詞贅字、語助詞整理掉,讓句子回到通順的書面語,會讓論文的引述段落專業許多。AI 轉錄通常能自動移除明顯的語助詞、補上標點與分段,把「一面文字牆」整理成一段段可讀的內容,幫你省下大量手動整理的時間。

要注意的是:整理書面語是「讓引文通順」,不是「改寫受訪者的意思」。任何潤飾都不應改動原意;逐字引用的部分,務必回頭對照錄音確認。

怎麼用 Subanana 把研究訪談錄音轉成可分析的逐字稿?

我經營 Subanana,這裡用它示範整個研究情境的流程。Subanana 在這個情境的差異化是:繁體中文與華語的辨識品質、講者識別、自動移除語助詞、自動標點與分段,再加上能匯出成 QDA 軟體吃得下的格式

  1. 建立專案、選「逐字稿(轉錄)模式」:上傳訪談或焦點團體錄音(也可貼公開影片連結)。務必選轉錄模式,不要選字幕模式。
  2. 設定來源語言與講者數:來源語言選國語/華語或繁體中文;講者數可手動指定(焦點團體建議直接填人數)或交給系統自動偵測。需要的話可開啟智慧分段。
  3. 讓系統轉錄並自動整理:Subanana 會以語音辨識模型轉錄,自動分講者、移除語助詞、加上標點與分段。Subanana 持續評測多個語音模型、依內容挑選表現最好的引擎,不綁單一供應商;偵測到疑似辨識問題時還會自動改用另一個模型重轉那一段,而且這種內部重轉不額外扣你的額度
  4. 在編輯器校對:把「發言者 1/2」改成你的受訪者代號,核對人名、專有名詞與關鍵數字。Subanana 的 AI 校對會標出疑似聽錯或同音錯字並建議修正(由你逐一確認,不會自動改),但它處理的是「字打錯」,不負責補回漏字——漏字與關鍵引文仍要靠你對照錄音。你也可以直接在編輯器裡用 AI 問答,快速定位「某個主題在哪裡被討論」。
  5. 匯出給分析工具:完成後匯出。要寫進論文附錄、或要匯入 NVivo/MAXQDA/ATLAS.ti 編碼,選 DOCX 或 TXT 最通用——這兩種純文字/Word 格式正是主流 QDA 軟體最容易吃進去的格式。需要時間軸對照時也能輸出 SRT。

想看實際操作,可參考 Subanana 的 AI 會議與訪談轉錄功能,把整段研究錄音轉成帶講者標示、可校對、可匯出的逐字稿,後續編碼分析省下大半整理時間。

需要說明的是,免費方案可以先預覽轉錄結果,但無法匯出或複製逐字稿——要拿到可放進論文或匯入 QDA 軟體的檔案,需要付費方案。對要處理整批研究錄音的人來說,這通常是值得的投資。

匯出後怎麼接進 NVivo/MAXQDA/ATLAS.ti 編碼?

拿到乾淨、分好講者的逐字稿後,接進 QDA 軟體的大致步驟是:

  1. 匯入逐字稿:把 DOCX 或 TXT 檔匯入你的 QDA 專案。一致的發言者標籤(如 P1、P2)在這一步特別有用,方便依發言者歸類。
  2. 建立編碼簿:依研究問題與訪談大綱,建立初步的編碼(主題節點)。
  3. 逐段編碼:把段落標記到對應的編碼;多輪閱讀、視需要新增或合併編碼。
  4. 跑查詢與檢索:用文字查詢或編碼檢索,把同一主題的段落集中起來比對、抽引述。如賓州印第安納大學指南所述,查詢結果可儲存為節點,方便回顧與撰寫。

換句話說,逐字稿的品質直接決定編碼的效率:分好講者、整理乾淨的稿子,能讓你把時間花在「分析」而不是「重打字」。

常見問題(FAQ)

質性研究逐字稿一定要逐字(verbatim)嗎? 看研究取向。會話分析等取向要求高度逐字、保留語助詞與停頓;多數主題分析或內容分析的論文,則接受整理掉冗詞、回到通順書面語的「乾淨逐字稿」,只要不改動原意、引用處對照過錄音即可。

焦點團體錄音真的能自動分講者嗎? 能,但成效取決於收音。用全向麥克風、減少搶話重疊,講者識別會更乾淨;嚴重重疊或極小聲的發言仍可能需要人工在校對時釐清。

逐字稿可以直接匯入 NVivo、MAXQDA 或 ATLAS.ti 嗎? 可以。把逐字稿匯出成 DOCX 或 TXT,這類純文字/Word 格式是主流 QDA 軟體最通用的匯入格式;一致的發言者標籤有助於後續依發言者自動歸類。

AI 轉錄可以完全取代人工校對嗎? 不行。AI 負責把九成的轉錄苦工做完,但要逐字引述進論文之前,仍應人工核對人名、專有名詞與關鍵數字——準確度高不等於零錯誤,引用越關鍵越要校。

英文訪談也適用嗎? 適用。流程一樣,把來源語言設成英文即可;需要中英對照時也能加翻譯。延伸閱讀:英文逐字稿怎麼做

把整段研究錄音轉成可分析的逐字稿,現在就開始:

選用 Subanana,讓工作更輕鬆

無需提供付款方式
免費試用
隨時取消