Google翻訳の音声翻訳の限界と、動画・音声をAIで翻訳する方法

「google翻訳音声」で探している作業が目の前の会話やフレーズをその場で訳すことなら、Google翻訳のマイク入力で十分です。一方、収録済みの動画・音声ファイルを丸ごと翻訳し、字幕（SRT / VTT）として書き出したいのであれば、Google翻訳はその用途には作られていません。後者は、文字起こしと字幕翻訳を一気通貫で行うAI字幕ツールの仕事です。本記事では、まずGoogle翻訳の音声・文書機能が公式にどこまで対応しているかを確認し、そのうえで動画・音声をAIで多言語字幕に変換する手順を整理します。

開示：私はAI音声文字起こし・字幕ツールである Subanana を運営しています。本記事はGoogle翻訳の公式ヘルプ（2026年6月時点）と自社製品の実機能に基づいて書いています。検証できない精度パーセンテージや、捏造したベンチマーク数値は使っていません。実際の精度は、ご自身の典型的な収録音声で試して判断するのが最も確実です。

Google翻訳の音声翻訳でできることは？

Google翻訳の「音声」まわりの機能は、用途ごとに分かれています。公式ヘルプで確認できる範囲を整理すると、次のとおりです。

マイクで音声を翻訳（Translate by speech） — パソコンでは、マイクに向かって話した単語やフレーズをその場で訳せます。公式ヘルプによると対応はブラウザによって異なり、「マイクでの翻訳はChromeで利用でき、SafariとEdgeでは限定的なサポート」とされています。さらに「マイクでの翻訳は言語を自動検出しません」とあり、話す前に翻訳元・翻訳先の言語を自分で指定する必要があります。
会話モード（bilingual conversation） — スマホアプリで、異なる言語を話す2人が交互に話して会話を成立させる機能です。対面でのやり取り向けです。
文字起こし（Transcribe） — スマホアプリ限定の機能で、公式ヘルプは「Translateアプリは、相手が別の言語で話している間、ほぼリアルタイムで翻訳できます」と説明しています。入力はその場のマイク音声で、ボタンが無効な場合は「その言語はサポートされていません」と表示されます。つまり対応言語は限られ、テキスト翻訳の全言語が使えるわけではありません。

要するに、Google翻訳の音声系はすべて**「いま、その場で発話されている音声」**を対象にしています。旅行・対面の打ち合わせ・とっさの一言には非常に便利です。

ここで重要なのは、これらの機能はいずれも録音済み・収録済みのファイルを読み込む設計ではないという点です。手元の .mp3 や .mp4 を選んでアップロードし、その音声を翻訳する、という導線はGoogle翻訳の音声機能にはありません。

なぜGoogle翻訳だけでは動画・音声の字幕化が難しいのか？

「動画翻訳」「音声翻訳」で本当にやりたいことは、多くの場合**「動画や音声ファイルを多言語に翻訳して、字幕として配布したい」**です。この目的に対して、Google翻訳には3つの構造的な壁があります。

録音済みファイルの音声を読み込めない。 前述のとおり、音声翻訳・文字起こしはライブのマイク入力専用です。スピーカーで動画を再生してマイクに拾わせる、という回避策は、再生音質・雑音・タイムコードのずれが重なり実用になりません。
文書翻訳の対応形式に動画・字幕がない。 Google翻訳には文書翻訳機能がありますが、公式ヘルプによると対応形式は 「.docx、.pdf、.pptx、.xlsx」で、サイズは10 MBまで（PDFは300ページ以内）。.mp4 や .srt といった動画・字幕ファイルは対象外で、SRT / VTTを書き出す機能もありません。
タイムコード付き字幕として出力できない。 仮にテキストを訳せても、各セリフを「いつからいつまで表示するか」の時間情報は付きません。字幕は、訳文そのものと同じくらいタイムコードが重要です。

逆に言えば、Google翻訳が圧倒的に強いのはテキスト翻訳の言語数です。公式ヘルプは「テキスト・手書き・写真・音声を200以上の言語で翻訳できる」と明記しており、対応言語の幅広さは他に類を見ません。短文のその場翻訳や、対応形式の文書翻訳であれば、まず第一の選択肢になります。

Google翻訳とAI字幕ワークフローの使い分け

どちらが優れているかではなく、用途が違うというのが結論です。次の表で切り分けてください。

やりたいこと	Google翻訳	AI字幕・翻訳ワークフロー
目の前の会話・短いフレーズをその場で訳す	◎ 最適	△ 不要
対応形式の文書（.docx / .pdf など）を訳す	◎ 10 MBまで・200以上の言語	△ 範囲外
収録済みの動画・音声ファイルを丸ごと翻訳	✕ ファイル入力に非対応	◎ アップロード／URLで取り込み
タイムコード付き字幕（SRT / VTT）で書き出す	✕ 出力形式になし	◎ 言語ごとに書き出し
複数の言語へ同時に字幕化	△ 文書は1言語ずつ	◎ 字幕モードは複数言語を同時指定
字幕を映像に焼き込んだ動画を作る	✕	◎ 単言語・対訳どちらも対応

短いその場の翻訳はGoogle翻訳。「ファイルを字幕として多言語化する」のはAI字幕ツール、という住み分けです。

動画・音声をAIで字幕に変換する手順

ブラウザ完結型のAI字幕ツールを使うと、ソフトのインストールなしで、収録済みファイルから多言語字幕まで一気に作れます。流れは次のとおりです。

元の動画・音声を読み込む。 ファイルをアップロードするか、公開URL（YouTube / Instagram / Facebook の公開投稿）を貼り付けます。ローカルに動画を保存していなくても取り込めます。
ソース言語を選ぶ。 元の音声の言語を指定します。日英が混在する素材なら、主となる言語をソースに設定します。
文字起こしを実行する。 動画の長さに応じて、数分〜十数分でタイムコード付きのテキストが生成されます。
テキストを確認・修正する。 ここが品質の要です。固有名詞や専門用語の誤変換を直しておくと、続く翻訳の品質も上がります。固有名詞は用語集に登録しておくと、表記ゆれを抑えられます。
翻訳先の言語を追加する。 字幕モードでは複数の目的言語を同時に指定できます（たとえば英語・中国語・韓国語を一度に）。Subananaは80以上の言語に対応しています。
書き出す。 言語ごとにSRT / VTTファイルを書き出すか、字幕を映像に焼き込んだ動画を生成します。元の言語と訳文を1つにまとめた対訳字幕（二言語SRT）も出力できます。

この手順の詳細や、AI翻訳だけで十分なケースと人手レビューが要るケースの見分け方は、音声・動画を多言語に翻訳する方法で詳しく解説しています。

AIの文字起こし精度は信頼できる？

字幕の品質は、訳文よりもまず第1ステップの文字起こし精度で決まります。文字起こしが崩れれば、その後の翻訳も崩れるからです。

Subananaはここに複数の品質レイヤーを重ねています。ソース言語ごとに最も成績の良いSTTモデルを選んで処理し（特定のベンダーに固定しません）、出力にハルシネーション（音声にない内容の混入）などの問題が見られた区間は、自動的に別のモデルへ振り直して、より確実な結果に差し替えます。さらに編集画面では、聞き取り間違い・同音異字の置き換えミスをAIが見つけて修正候補を提示し（適用するかはユーザーが都度判断します）、1行あたりの文字数が多すぎる／少なすぎる字幕（読みづらいカット）も検出します。レビューに回ってくる時点で、システムが出せる最も整った下書きになっている、という設計です。

なお、ライブイベントでその場の音声に字幕を付けたい場合は、ファイル処理とは別にリアルタイム字幕翻訳の機能があります。こちらはマイク／システム音声を直接取り込み、観客は共有リンクから字幕を表示できます（1イベントにつき翻訳先は1言語）。

まず試すなら

その場の会話・短文・対応形式の文書を訳したい → Google翻訳が最適です。手早く、200以上の言語に対応しています。
収録済みの動画・音声を、タイムコード付きの多言語字幕にして配布したい → AI字幕ワークフローの出番です。

Subananaは無料プランで処理結果（最初の5分・ウォーターマーク付き）を確認できます。SRT / VTTなどの書き出しや透かしの除去は有料プランで解放されます。料金はプラン一覧で確認できます。まずは手元の動画を1本、

AI字幕ツールで字幕化してみる

ところから始めるのが分かりやすいはずです。実際にアプリを開いて試す場合は plus.subanana.com からどうぞ。