AI 轉錄準確度:為何廠商 Benchmark 不可信,以及我們如何真正測試粵語模型

2026-06-03
KKevin Wong

如果你想找出哪一個語音轉文字模型最準確,廠商公布的 benchmark 數字是最不該看的地方——對粵語使用者來說尤其如此。原因很簡單:幾乎沒有一間廠商會用粵語做評測。他們公布的準確度,是在乾淨、照稿朗讀的高資源語言資料集上跑出來的最佳結果,跟你手上真正的錄音毫無關係:一段夾雜大量英文品牌名的粵語產品評測、一場兩個人搶著講的會議、一個不停在語言之間切換的創作者。

我做的是 Subanana,一個 AI 語音轉文字工具。我們會把每一段轉錄送進一組經過評測的模型,並且不斷重新測試這組模型。這篇文章講的是我們如何測試——方法、準則,以及我們自己一次真實評測的結果——以及我們為何不再相信廠商公布的準確度數字。

AI 轉錄準確度:為何廠商 Benchmark 不可信 — Subanana 指南

一分鐘摘要

  • 廠商的準確度 benchmark(單一個 WER 分數、「98% 準確」)大多是 benchmark-maxing:在乾淨、有稿、單一講者的音訊上量度,跟真實的粵語、中英夾雜或多人錄音完全不像。
  • 更關鍵的是:幾乎沒有廠商會專門用粵語做評測。粵語是低資源語言,又經常與英文夾雜,正正是通用模型最容易失準、甚至無中生有的地方。
  • 所以我們不靠廠商的數字揀模型。我們用自己真實、混亂的音訊去測試,再像一個人手校對的編輯那樣判斷輸出:有沒有改正聽錯的字、有沒有把口語整理成乾淨的書面語,以及最要緊的——有沒有改動任何事實。
  • 在一次真實評測中,一個細小、快速的模型勝過我們較重的生產預設模型(評審偏好約 92%,速度約快 13 倍)。更大、更慢,並不等於更準。
  • 證明這一點的失誤:一個模型把相機感光元件「LYT-828」悄悄改寫成「LYT-808」——讀起來通順、事實卻錯了,而且 WER 分數完全看不出來
  • 想自己評測一個工具?用你最差的真實音訊去測、盯著畫面上的字幕時間軸,再專門找事實被竄改的地方——不要看排行榜上的數字。

為何廠商的轉錄 benchmark 會誤導人?

一個公布的字詞錯誤率(Word Error Rate, WER)或準確度百分比,是在廠商自己挑選的條件下產生的單一數字。有三件事令它在揀選生產用模型時近乎無用:

  • 測試集太乾淨。 Benchmark 音訊通常是有稿、單一講者、在安靜房間錄、而且是高資源語言。真實音訊一樣都不是。
  • 指標太粗糙。 WER 把替換、插入、刪除都當成等重。但把一個型號讀錯(「Vivo X30」變成「Vivo X90」)是災難性錯誤,漏一個逗號則無傷大雅——WER 卻給它們同樣分數。
  • 那是廠商自己的計分板。 每一間實驗室都會報告自己模型表現最好的設定。你看到的是最高水位,不是預期結果。

這些都不算造假,只是 benchmark-maxing:為排行榜而優化,而不是為你的使用情境而優化。所以我們評測模型時,不會引用任何人公布的數字。我們用使用者真正上載的、混亂的、中英夾雜的真實音訊去跑模型,再就「一條完成的字幕或逐字稿真正重要的事」去判斷輸出。

這就是整套理念:準確度不是廠商遞給你的一個數字。它是你在自己的使用情境上量度出來的東西,否則你根本不會知道。

對一條字幕而言,「準確」到底指甚麼?

當大多數人講「轉錄準確度」時,其實混淆了兩件完全不同的工作:

  1. 語音轉文字(STT / ASR)——把音訊變成帶時間軸的原始文字。WER 量度的就是這一層。
  2. 文字整理——把那段粗糙、混亂的 ASR 文字變成一條可發布的字幕:改正聽錯的字、把口語整理成乾淨的書面語、還原空格與標點、移除語氣助詞,並且最要緊的——不改動任何事實。

兩個階段都會出錯,而且出錯的方式不同。一個模型可以產生很好的原始文字,卻因為時間軸飄移而交出無法使用的字幕;另一個模型可以時間軸完全對準,卻把品牌名搞錯。單一個準確度百分比無法捕捉以上任何一點,這正是我們把兩個階段分開、用質性方式測試的原因。

本文餘下部分會走過兩者:先是文字整理階段——這裏我們有一套有結構、有真實數據可以分享的評測;之後是原始 STT 階段——這裏我們的發現刻意維持質性。

我們如何測試文字整理階段:用 LLM 做評審,在真實音訊上判斷

以下是我們在 2026 年 4 月做的一次真實評測的方法。目標是負責在原始 ASR 輸出之上做整理(cleanup)那一步的模型——把粗糙的機器逐字稿變成一條可發布字幕的那一步。這一步做兩件不同的工作,我們會分開測試:

  • 改正錯誤——修正語音轉文字搞錯的字與數字:聽錯的品牌名、錯誤的型號、被漏掉的否定詞。
  • 整理用字——把口語、隨意的講法整理成乾淨的書面語(對粵語而言,就是由口語到書面語的 口語 → 書面語 轉換)、還原標點與空格、修掉語氣助詞——但不改動意思。

(把範圍講清楚:這次評測測的是文字整理那一步,不是原始語音轉文字。兩者的測法不同。)

  • 資料集是一組刻意挑選的細小真實樣本——粵語(香港)與英文——挑選的標準不是數量,而是那些會令模型出錯的情況:中英夾雜、技術詞與型號、標點密集的段落、短而脆弱的碎片、以及長段落。一把真正難搞的樣本,比一千段乾淨樣本暴露出更多真實失誤。
  • 比較方式是成對比較。每一個樣本,每一個候選模型的輸出都會與我們目前的生產基準一對一較量,再由另一個評審模型挑出較好的一個——或判定打和。
  • 準則是六樣真正定義一條好字幕的東西,逐個樣本獨立評分:
    • 改正聽錯的字——有沒有修正語音轉文字搞錯的地方?
    • 粵語口語轉書面語——有沒有把口語整理成乾淨的書面中文?(即由口語到書面語的工作,口語 → 書面語
    • 移除語氣助詞——有沒有把「呃」、「即係」這些口頭禪與重複起句修掉?
    • 保留事實——有沒有讓名稱、數字與事實原封不動?
    • 禁止加註——有沒有避免自行加入講者從未講過的方括號註解?
    • 徹底程度——它是真的把文字整理好,還是把明顯的錯誤留低?

我們把 31 個模型設定放進這次評測。只有 17 個能真正跑起來——其餘的在 preflight 階段就倒下:無效的 model ID、請求逾時、或不支援的設定。這本身就是一個有用的結果:一個你無法穩定呼叫的模型,無論 benchmark 分數多高,都不是候選。

這是文件級的方法,不是憑感覺。下面每一個數字都來自這次評測自己的輸出,而我們之所以分享,是因為這是我們有權分享的——不是因為某個廠商告訴我們他們的模型很好。

我們的發現:來自我們自己評測的數據

幾個結果特別突出。所有數字都來自我們自己的評測;它們是字幕整理工作上的評審偏好勝率與速度——不是任何人的 STT 準確度百分比。

模型設定評審偏好:改正錯誤評審偏好:整理速度
生產基準(一個 Gemini 3 Flash 模型,預設設定)基準基準約 4 分鐘
同一個 Gemini 3 Flash 模型,關閉思考60%80%約 18 秒
一個較輕的 Gemini 3.1 Flash Lite 模型,最精簡的一次100%約 67%約 19 秒
同一個 Gemini 3.1 Flash Lite 模型,得分最高的一次100%約 83%約 19 秒
一個細小的 GPT-5.4 nano 模型最高 80%最高約 67%約 20–55 秒
一個 Qwen3.6-Plus 模型最高 80%最高約 67%約 11 分鐘

從我們的數據可得出三點:

  • 整次評測中最高的平均評審偏好約為 92%——一個輕量的 Gemini 3.1 Flash Lite 設定,評審在絕大多數樣本上都偏好它多於我們的生產基準。一個細小、快速的模型,勝過了較重的預設。
  • 最精簡而又跑得起的設定,速度約為基準的 13 倍——大約 19 秒對約 4 分鐘——成本只是一小部分,而且在「改正錯誤」這一項上仍然乾淨利落地勝出。更大、更慢,並不更好。
  • 為模型的「思考」預算設上限,是單一最大的效率提升。 基準把絕大部分預算花在它大致上不需要的推理 token 上。在同一個模型家族上關掉那份推理預算,產生的輸出獲評審評為一樣好或更好,而速度快了大約一個數量級、用量也精簡得多。對於字幕整理這種受限而界定清晰的工作,延伸推理大多是白費功夫。

你會留意到,以上沒有一個是「準確度百分比」。它們是一個評審模型的相對偏好分數,在我們的音訊上、對著我們自己的基準跑出來。這是一個比「98% 準確」謙遜得多的說法,而且在真正揀選模型時有用得多。

證明「人手判斷、貼近使用情境的測試」為何重要的那一個失誤

這裏有一個例子,捕捉到整個論點。一個候選模型在整理一段粵語手機評測時(我們其中一段中英夾雜的粵語片段),做了這件事:

原文:    T-828 的 sensor 啦。那這顆 LYT-828 呢,我們,我們又來……
基準:    ……呢粒 LYT-828 呢……
候選:    ……嗰呢粒 LYT-808 呢……

這個模型把相機感光元件「LYT-828」悄悄改寫成「LYT-808」。我們在這次評測的其他地方也見到同一類錯誤,另一個候選把「Vivo X30 Pro」變成「Vivo X90 Pro」。

文字讀起來完美無瑕。文法乾淨、標點還原、口語被整理成恰當的書面語。WER 分數幾乎察覺不到這個改動——一長段裏的一個數字而已。但這是事實上的竄改:不同的產品、不同的感光元件。對一個科技評測者來說,這正是會在留言區被要求更正的那種錯誤。

教訓並不只關乎粵語。重點是:最危險的轉錄錯誤往往是通順那種——一句讀起來乾淨、卻把技術詞、型號或專有名詞悄悄掉了包的句子。它們正正藏在真實使用者會錄到的那種中英夾雜、術語密集的音訊裏。沒有任何公布的準確度 benchmark 會抓到這個錯;它之所以浮現,只因為我們像人手校對的編輯那樣判斷輸出——針對「這個模型有沒有改動事實?」這條問題——在這種失誤真正會發生的音訊上。這就是 benchmark-maxing 與「貼近使用情境的測試」之間的分別。

它也說明了為何「保留事實」是我們六項準則之一,以及我們為何把它讀成一個比較性的訊號,而非一個字面上的錯誤計數。在同一次評測裏,一個模型把「九成」用兩種同樣正確的方式表達(百分之九十九成)——語意完全相同、根本不是錯誤。一個天真的指標會把這個改寫標記為錯,卻漏掉感光元件的掉包。判斷力,放在對的材料上,就能把這個次序排對。

那原始語音轉文字階段又如何?

至於 STT 階段本身——音訊入、帶時間軸的文字出——我們的發現刻意維持質性。我們不會公布一張 WER 表,無論是我們自己還是別人的,因為這裏真正重要的失誤,並不能用單一個錯誤率好好捕捉。在生產環境裏令一個 STT 模型崩潰的,通常是以下其中之一:無中生有講者從未講過的內容、漏掉有效的語音、在粵語上表現不穩、或者時間軸與音訊飄移不同步。

幾件我們透過在自己的音訊上測試模型(而非閱讀規格表)所學到的事:

  • 文字好不代表時間軸好。 我們評測過一個前沿的多模態模型作為轉錄引擎:它的原始文字質素確實不錯,但字幕時間軸飄移——做一份用來閱讀的逐字稿尚可,做需要落在正確影格上的字幕則無法使用。
  • 有些模型直接產生無法使用的時間軸。 我們為同一份工作測試過的另一個模型,在我們的筆記裏寫著「時間軸垃圾」——紙面上強,對需要時間對齊的字幕而言是非起步點。
  • 粵語正是通用模型搖擺的地方。 Subanana 一開始用單一個著名的 STT 模型,而我們正是被 benchmark 隱藏的那類失誤逼離單一供應商的做法:在真實條件下無中生有與漏掉語音,當中粵語屬於最不穩定的一批。粵語是低資源語言、又常與英文夾雜,廠商鮮有專門優化——這正是它最容易出錯的原因。所以我們現在會橫跨多個經評測的引擎做路由,並在某一個產出壞片段時自動切換。
  • 真正的工程藏在縫隙裏。 當我們引入一個新的 STT 供應商時,工作並不是「WER 有沒有更低」。而是:一段背景音樂的時間被錯誤對應到另一句字幕上、需要移除的零散 [upbeat music] 標籤、被黏在一起而沒有空格的片段。這些都不會在準確度分數裏出現;但全部都會出現在使用者眼前。

誠實的總結是:我們按來源語言、按使用情境揀選表現最好的 STT 模型,並且不斷重新檢查——因為一個 benchmark 表現好的模型,仍然可能在時間軸上飄移、或在粵語上無中生有,而唯一知道的方法,就是把它放到真實的東西上跑。你可以在我們的 AI 字幕工具AI 會議轉錄頁面,讀到更多關於這套路由與品質堆疊如何運作。

你應該如何自己評測轉錄準確度?

你不需要一套評測框架,也能避開 benchmark 陷阱。原則很簡單:用你自己的音訊去測,按對你重要的事去判斷。

  • 用你最差的真實音訊,不是乾淨的片段。 挑那條有口音、有搶話、有術語、有語言切換的檔案。模型就是在那裏分高下。
  • 檢查時間軸,不只是文字。 開著字幕播放影片。飄移的字幕在文字 diff 裏看不見,在畫面上卻一目了然。
  • 專門找事實被竄改的地方。 掃一遍名稱、數字、產品與品牌詞。一條讀起來乾淨、數字卻錯的字幕,比一條明顯粗糙的更差。
  • 判斷完成的輸出,不是原始逐字稿。 你最終發布的是經過校正、排好版的字幕——所以就評測那個,包括它還需要多少人手整理。
  • 隨時間重新測試。 模型會變。這一季對你的語言最好的那個,下一季未必是。我們重跑評測,正正因為答案一直在移動。

如果你寧願不自己跑這一輪,那正是我們持續在做的工作:評測模型、按語言與使用情境路由到表現最好的那個,再在上面疊一層無中生有偵測與校對,令你檢視的輸出已經是系統能產出的最強版本。你可以用你自己最難搞的音訊試一試——由一個免費檔案開始,並檢查上面提過的那幾件事。

常見問題

公布的準確度百分比愈高,是揀選轉錄工具的可靠方法嗎?

不是。公布的數字是在乾淨、通常是單一講者、高資源語言音訊上的優化結果。它們很少能預測在帶口音、搶話、技術詞或語言切換的真實音訊上的表現。改為用你自己的檔案去測。

轉錄準確度與字幕品質有甚麼分別?

轉錄準確度通常指原始語音轉文字——字詞與時間軸。字幕品質是整理之後的完成結果:改正聽錯的字、把口語整理成乾淨的書面語、還原標點與空格、移除語氣助詞,並讓事實原封不動。一個工具可以一樣做得好、另一樣做得差。

為何你們用另一個模型來做評審?

對文字整理階段而言,一個 LLM 評審讓我們能在一致的準則上成對比較兩個輸出,比人手檢視快得多,並且每當有新模型推出就能廉價重跑。我們把它的判決當成一個對著我們自己基準的相對偏好訊號——而不是一個絕對的準確度分數——在一組刻意挑得很難的樣本上,並且在真正重要的失誤(例如事實竄改)上保持人手把關。

一個轉錄文字好的模型,是否總會產生好字幕?

不是,而且這是常見的陷阱。我們見過原始文字確實不錯的模型,產生飄移或無法使用的時間軸。對於必須對齊影格的字幕而言,時間軸的可靠程度與字詞準確度同樣重要——而兩者並不相關。

為何 Subanana 用多個語音轉文字模型,而不是一個?

因為沒有任何單一模型能在每一種語言與使用情境上都最好,而且任何模型都可能在真實音訊上無中生有或漏掉語音——粵語尤其如此。Subanana 一開始用單一供應商,在生產數據顯示單一引擎的極限(特別是在粵語上)之後,轉向多模型的做法。我們按來源語言路由到評測最好的模型,並在輸出品質下跌時自動切換。

選用 Subanana,讓工作更輕鬆

無需提供支付方式
免費試用
隨時取消