音声・動画を多言語に翻訳する方法｜字幕で多言語化（SRT/VTT）

音声・動画を多言語に翻訳する最短ルートは、音声をまず文字起こしし、そのテキストを目的言語の「字幕」として翻訳・書き出すことです。動画をまるごと作り直す必要はありません。元の映像はそのまま、翻訳した字幕トラック（SRTやVTT）を載せるか、字幕を映像に焼き込むだけで多言語版が完成します。本記事では、この字幕ベースの多言語化ワークフローを手順で示し、AI翻訳だけで十分なケースと、人手レビューが要るケースの見分け方まで整理します。

開示：私はAI音声文字起こし・字幕ツールである Subanana を運営しています。本記事は自社製品の実機能と、字幕制作の一般的なワークフローに基づき2026年6月時点で執筆しました。検証できない精度パーセンテージや、捏造したベンチマーク数値は使用していません。実際の精度は、ご自身の典型的な収録音声で試して判断するのが最も確実です。

音声・動画を多言語に翻訳する方法は？

「音声翻訳」「動画翻訳」と検索すると、用途の異なる複数のアプローチが混在して出てきます。まず目的を切り分けると、選ぶべき手段がはっきりします。

字幕で多言語化したい（元の声はそのまま、目的言語のテキストを画面に出す）→ 本記事のワークフロー。文字起こし → 字幕翻訳 → SRT/VTT書き出し、または焼き込み。
テキストとして翻訳が欲しい（議事録・インタビューの翻訳原稿）→ 文字起こし → 翻訳付きの逐字稿として書き出し（DOCX / TXT など）。
話者の声そのものを別言語に差し替えたい（吹き替え・音声合成）→ これは別カテゴリの「ダビング／音声合成」であり、本記事の字幕ワークフローとは別物です。

このうち、検索ボリュームが大きい「動画を多言語で公開したい」「外国語の動画を自分の言語で理解したい」というニーズの大半は、字幕での多言語化で解決します。映像はそのまま使え、コストも編集の手間も最小で済むからです。

字幕ベースの多言語化は、突き詰めると次の2ステップです。

文字起こし（ソース言語） — 元の音声を、まずそのまま正確なテキストに起こす。
字幕翻訳（目的言語） — 起こしたテキストを目的の言語に翻訳し、タイムコード付きの字幕として書き出す。

精度を左右するのは圧倒的に第1ステップです。文字起こしが崩れていれば、その後の翻訳も崩れます。逆にソーステキストがきれいなら、現在のAI翻訳は実用水準に達しています。

字幕で多言語化する手順（ステップバイステップ）

ブラウザ完結型のAI字幕ツールを使う場合、ソフトのインストールなしで次の流れになります。

元の動画・音声を読み込む。 ファイルをアップロードするか、公開URL（YouTube / Instagram / Facebook の公開投稿）を貼り付けます。ローカルにダウンロードしなくても取り込めます。
ソース言語を選ぶ。 元の音声の言語を指定します。日英が混在する素材なら、主言語をソースに設定します。
文字起こしを実行する。 動画の長さに応じて数分から十数分でタイムコード付きのテキストが生成されます。
テキストを確認・修正する。 ここが品質の要です。固有名詞や専門用語の誤変換を直しておくと、翻訳後の品質も上がります。
翻訳先の言語を追加する。 字幕モードでは複数の目的言語を同時に指定できます（英語・中国語・韓国語などを一度に）。
書き出す。 言語ごとにSRT / VTTファイルを書き出すか、字幕を映像に焼き込んだ動画を生成します。元の言語と翻訳を1つにまとめた対訳字幕（二言語SRT）も出力できます。

YouTube向けに字幕ファイルだけ欲しい場合は字幕ファイル（SRT）ジェネレーター、動画に直接字幕を載せたい場合は動画字幕ジェネレーターが用途別の入口になります。

書き出せる形式

字幕ファイル： SRT、VTT
テキスト系： TXT、Word（DOCX）、Excel（XLSX）、Markdown（MD）
対訳字幕： ソース言語＋翻訳を1ファイルにまとめた二言語SRT
焼き込み動画： 字幕を映像に直接レンダリング（単一言語・二言語対応）

なお、ASSやFCPXMLといった一部の編集ソフト向け形式には対応していません。プロの動画編集ワークフローに深く組み込む場合は、SRTを取り込んでから各編集ソフト側でスタイリングする形になります。

AI翻訳だけで十分？人手レビューが要るのはどんなとき？

「AI翻訳で公開して大丈夫か」は、コンテンツのリスクの高さで判断するのが実務的です。次の表が目安です。

コンテンツの種類	AI翻訳だけで十分か	推奨アクション
SNS動画・Vlog・ハウツー	だいたい十分	そのまま公開、明らかな誤りだけ直す
社内向け録画・ウェビナー視聴用	多くの場合十分	専門用語の表記だけ確認
製品紹介・マーケティング動画	部分的にレビュー推奨	キャッチコピーと固有名詞をネイティブ確認
法務・医療・契約・公式声明	人手レビュー必須	翻訳者による最終チェックを前提に
文化的ニュアンスが核の表現（広告・脚本）	人手前提	AIは下訳、仕上げは人

判断を分けるポイントは次の3つです。

誤訳のコスト： 間違ったら誰かが損をするか。法務・医療・金融は迷わず人手。
固有名詞・専門用語の密度： 製品名・人名・業界用語が多い素材は、AIが文脈を取り違えやすい。事前に用語を揃えておくと精度が安定します。
言語ペアの相性： 主要言語間（日英・日中・日韓など）はAI翻訳が安定しやすく、話者数の少ない言語ほど下訳＋人手が無難です。

品質を底上げするコツ

AI翻訳の出来は、翻訳エンジンよりも前段の文字起こしテキストの質に強く依存します。次の順で効きます。

ソース言語の文字起こしを先に整える。 誤変換を残したまま翻訳に回さない。
固有名詞・専門用語をあらかじめ登録する。 用語集に製品名や人名を入れておくと、ブランド名のブレや当て字を防げます。これは多言語展開で地味に効きます。
対訳で確認する。 ソースと翻訳を上下に並べた二言語SRTを書き出すと、ズレを目視チェックしやすくなります。

Subananaは、転写のたびにソース言語ごとに最も成績の良い音声認識モデルを自動で選んでルーティングし、出力に不自然な点があれば別モデルへ自動でフォールバックします。さらにエディタ上では、聞き間違い（同音異字の取り違えなど）の候補をLLMが提示し、ユーザーが承認・却下する仕組みです。80以上の言語に対応し、転写・翻訳のいずれでも同じ言語セットが使えます。フランス語動画を英語にするといった特定ペアは翻訳ツールページからも始められます。

よくある質問

外国語の動画を日本語で理解したいだけなら？ ソース言語を元動画の言語に、翻訳先を日本語に設定し、日本語字幕のSRTかVTTを書き出せば、手元のプレイヤーで字幕付き再生できます。

一度に複数の言語へ翻訳できる？ 字幕モードでは複数の目的言語を同時指定できます。一方、ライブ字幕（イベントのリアルタイム翻訳）は配信ごとに1つの翻訳先のみで、複数言語が必要な場合は言語ごとに別セッションを並走させる運用になります。

話者の声を別言語に吹き替えできる？ 本ワークフローは字幕での多言語化です。声そのものを差し替える吹き替え・音声合成とは別カテゴリのため、混同しないようにしてください。

無料で試せる？ 無料プランは結果のプレビュー用で、字幕・文字起こしのファイル書き出しはできません（最初の5分・720pまでのウォーターマーク付き動画のみ）。SRT/VTTなどの書き出しは有料プランで解放されます。料金は

料金ページ

をご確認ください。

まとめ：まず文字起こし、次に字幕翻訳

音声・動画の多言語化は、「映像を作り直す」のではなく「文字起こし → 字幕翻訳 → 書き出し」の2ステップで考えるのが最短です。AI翻訳はSNS・社内・視聴用なら多くの場合そのまま使え、法務・医療・マーケティングなどリスクの高い領域だけ人手レビューを足せば十分です。ブラウザで文字起こしから多言語字幕の書き出しまで試すなら、こちらから始められます。

Subananaを無料で試す

音声・動画を多言語に翻訳する方法：字幕で多言語化する最短ワークフロー（SRT/VTT・焼き込み対応）

音声・動画を多言語に翻訳する方法は？

字幕で多言語化する手順（ステップバイステップ）

書き出せる形式

AI翻訳だけで十分？人手レビューが要るのはどんなとき？

品質を底上げするコツ

よくある質問

まとめ：まず文字起こし、次に字幕翻訳

Subananaで効率を向上させましょう

音声・動画を多言語に翻訳する方法は？

字幕で多言語化する手順（ステップバイステップ）

書き出せる形式

AI翻訳だけで十分？ 人手レビューが要るのはどんなとき？

品質を底上げするコツ

よくある質問

まとめ：まず文字起こし、次に字幕翻訳

Subananaで効率を向上させましょう

AI翻訳だけで十分？人手レビューが要るのはどんなとき？