動画を文字起こしする方法：話者付きテキストへ（2026）| Subanana

動画を文字起こしする一番速い方法は、AIの音声認識（speech-to-text）でいったんテキスト化し、エディターで校正することです。手で全部打ち込めば一字一句まで管理できますが、目安として1時間の音声に約4時間かかります。無料の自動字幕は速い反面、話者を分けてくれず、句読点もないことが多いので、あとから整え直す手間が残ります。

ここで大事なのは、字幕と文字起こし（逐字稿）は別の成果物だということです。動画を「読めるテキスト」にしたいなら、選ぶべきは字幕モードではなく文字起こしモードです。本記事では三つのアプローチのトレードオフを整理したうえで、Subananaの文字起こしモードを使って、動画ファイルやURLから話者ラベル・句読点・段落付きのテキストを作る手順を紹介します。

動画の文字起こしと字幕は何が違うの？

ツールを初めて触る人の多くが「字幕」と「文字起こし」を同じものとして扱い、結局は使いづらいファイルを手にしてしまいます。この二つは目的の違う別物です。

字幕（subtitle）は、動画に重ねて画面上で読むためのもの。短い区切りでタイミングが振られ、慣例的に句読点を付けず、SRTやVTTとして書き出します。
**文字起こし（逐字稿）**は、人がそのまま読むためのもの。上から下まで通読し、引用したり要約したりできるよう、句読点・段落・話者ラベルが必要です。

つまり「動画文字起こし」で本当に欲しいのは後者です。ここを取り違えてツールの字幕モードに動画を通すと、短くタイムスタンプの付いた句読点なしの断片が並ぶだけで、読み物としては扱いづらくなります。逆に、画面に焼き込むキャプションが目的なら、動画に字幕を付ける方法のほうが向いています。本記事は一貫して、読めるテキストを作る文字起こしモードの話です。

動画を文字起こしする3つの方法（比較）

動画をテキストにする道は、大きく三つあります。それぞれ向き・不向きがはっきり分かれます。

方法	速さ	話者の分離	句読点・段落	向いている場面
手作業で打ち込む	遅い（音声1時間に約4時間〜）	自分で付ける	自分で付ける	短い動画、最高精度が要る引用
無料の自動字幕ツール	速い	なし（一続きになりがち）	なし（付かないことが多い）	短い・聞き取りやすい動画の下書き
AIの音声認識（文字起こし）	速い	自動で分離	自動で付与	長い動画、複数話者、多言語

方法1：手作業での文字起こし

自分で動画を再生しながら一行ずつ打ち込む、最も伝統的な方法です。

利点： 一語一語を自分で管理でき、言い回しや間まで思いどおりに残せます。精度の上限が最も高い方法です。
限界： とにかく時間がかかります。業界でよく使われる目安は 4:1、つまり1時間の音声を起こすのに約4時間。複数の話者がいたり、なまりが強かったり、音質が悪かったりすると 6:1〜8:1 まで延び、さらに校正に25〜50％の時間が上乗せされます（Happy Scribe による目安）。本数が多い人にはまず現実的ではありません。

方法2：無料の自動字幕ツール

動画プラットフォームの自動字幕や、無料の文字起こしサイトを使う方法です。すばやくテキストが出てくるのが魅力です。

利点： 速い、無料、始めるハードルが低い。
限界： Google自身も、自動字幕は「発音の誤り・なまり・方言・雑音」で内容を取り違えることがあり、「複数の話者の声が重なったり、複数の言語が同時に出てきたり」すると精度が落ちると説明しています。そして「自動字幕は必ず確認し、正しく文字起こしされていない箇所は編集してください」とも明記しています（YouTube ヘルプ）。加えて、多くは話者を分けてくれないため動画全体が一続きになり、誰の発言か分かりません。短い動画の下書きには十分でも、読ませる・引用する用途では整え直す手間が残ります。

方法3：AIの音声認識（文字起こし）

「テキストが手に入った瞬間から読めて編集できる状態であってほしい」のなら、今いちばん現実的なのがAI文字起こしです。音声認識モデルで音声を起こし直し、句読点・段落・話者の識別を加えたうえで、エディターで校正できます。

利点： 手打ちよりずっと速く、無料の自動字幕より読みやすい形で出てきて、話者を分け、句読点と段落を自動で付けます。
正直なトレードオフ： AIは最後の校正の代わりにはなりません。人名・固有名詞・重要な数字は、書き出す前に人の目で一度確認する価値があります。

次の節では、この三つ目の道をSubananaでどう進めるかを示します。

Subananaで動画を文字起こしする手順は？

私はSubananaを運営しているので、これを例に全体の流れを説明します。動画の文字起こしで効いてくるのは、多言語での正確さ、話者分離（diarization）、フィラー語の自動除去、そして句読点と段落分けの自動付与です。手順は四つです。

動画を読み込む。 動画ファイル（.mp4 / .mov / .webm / .ogg）をアップロードするか、公開されているYouTube / Instagram / Facebookのリンクを貼り付けて直接読み込みます。ローカルにダウンロードする必要はありません。動画が非公開・アクセス制限付きの場合は、ファイルアップロードを使ってください。
文字起こしモードを選び、ソース言語を設定する。 字幕モードではなく文字起こしモードを選びます。これが句読点を付け、意味のまとまりで段落に分けるモードです。動画の言語を選び（Subananaは80以上の言語に対応しています）、話者数を自動検出にするか人数を手入力するかを選び、自動の句読点・段落分けをオンにします。
校正して話者にラベルを付ける。 文字起こしが終わるとエディターに移ります。システムが異なる声を「話者1」「話者2」のように分け、フィラー語（「えーと」「あの」など）を除去し、文章を整えます。ここから次のことができます。
- 話者の名前を変える： 「話者1」を「司会」、「話者2」を「ゲスト」のように変えると、テキスト全体が連動して更新されます。
- 聞き間違いを直す： どの語もクリックして直接編集できます。間違えやすい人名・社名・専門用語は、先に**用語集（Glossary）**に登録しておくと、その表記が優先されます。
- テキストと対話する： エディター内でAIに直接質問できます。「後半の要点を3つ挙げて」「Xについて話しているのはどこ？」のように、長い動画では大きな時間の節約になります。
書き出す。 必要な形式を選びます。読み物としてはDOCX（Wordですぐ編集）やTXT（Notion・Obsidian等に貼り付け）が定番。引用・整理には、タイムコード・話者・本文を表で並べるXLSXが便利です。SRT・VTT・Markdownにも対応しています。

各モードの設計を詳しく知りたい場合は、AI字幕・文字起こしツールやAI会議文字起こしをご覧ください。

動画の文字起こしを無料で試す

なまりや複数話者、外国語が混じる動画はどうする？

汎用の音声ツールが最も弱いのが、まさにここ — なまりのある発話、複数話者、そしていつもの言語から外れた音声です。ツールを選ぶときに確認しておくとよい点が二つあります。

言語ごとの正確さ： Subananaは利用可能な音声認識モデルを継続的に評価し、単一の提供元に固定するのではなく、ソース言語ごとに最も成績のよいモデルを選びます。さらに、ある区間の文字起こしがうまくいかなかった場合は、別のモデルで自動的に処理し直します。この再実行で追加の分数が消費されることはありません。
文字起こしの翻訳： 動画がある言語で、別の言語のテキストが必要なこともあります。文字起こしモードは翻訳先を一つ指定できるので、ソース言語で起こしつつ、同じ流れの中でもう一つの言語へ翻訳できます。複数の言語に同時展開したい場合は字幕モードのほうが適しており、その全体像は音声・動画を多言語に翻訳する方法で解説しています。

一点、線引きを挙げておきます。話者が一つの文の中で二つの言語を行き来し、その切り替えをツールがリアルタイムに自動検出する — これはSubananaのライブ字幕機能の強みであって、ファイルやURLからの文字起こしモードのものではありません。実際のイベントでリアルタイムの字幕が必要な場合は、AIリアルタイム文字起こしをご覧ください。

動画の文字起こしのよくある質問

無料で動画の文字起こしを丸ごと作れますか？ 動画を処理して結果をプレビューすることはできますが、書き出しは有料の手順です。無料プランは文字起こしファイルのダウンロードに対応しておらず、エディターでテキストを選択してコピーすることもできません。唯一の出力は、最初の5分のみ・最大720p・透かし入りの動画です（ファイルあたり3GBまで）。使えるテキストファイル（DOCX / TXT / XLSX など）を書き出すには有料プランが必要で、ファイルあたりの上限も15GB / 3時間に上がります。詳しくは料金をご覧ください。

複数の話者がいる動画で、誰の発言か判別できますか？ はい。文字起こしモードは話者の識別に対応しており、「話者1」「話者2」のように自動で分けます。エディターで実際の役割（司会、ゲストなど）に名前を変えると、テキスト全体が連動して更新されます。

YouTubeなどのURLからそのまま文字起こしできますか？ はい。公開されているYouTube / Instagram / Facebookのリンクを貼り付ければ、ダウンロードせずに直接読み込めます。短尺（Shortsやリール）も同じように扱えます。非公開やアクセス制限付きの動画は、ファイルをアップロードしてください。

長い動画（1〜2時間）でも文字起こしできますか？ はい。有料プランはファイルあたり最大15GB / 3時間まで対応し、たいていの動画をカバーします。長い動画では、まずエディターのAIチャットで主要な箇所を見つけ、引用するつもりの部分を重点的に校正すると効率的です。

AIの文字起こしをそのまま使ってよいですか？ そのまま貼って使える場面は多いですが、人名・固有名詞・重要な数字を引用する箇所だけは、書き出す前に一度確認することをおすすめします。AIは文章と段落の大半を処理しますが、語を間違えると困る箇所は人の目が最後の保険になります。

動画をテキストにする目的が「読む・引用する・要約する」なら、文字起こしモードが最短です。Subananaのアプリで動画をひとつ読み込んで、文字起こしモードで実際の仕上がりを確かめてみてください。

動画を文字起こしする方法：話者付きの読めるテキストに変える手順（2026年版）