インタビューの文字起こし：話者付き・そのまま引用できる逐語記録の作り方

インタビューの文字起こし（interview transcription）で本当に必要なのは、結局のところ三つだけです。文章が正確であること、誰がどの発言をしたかが分かること、そしてそのまま引用できること。定性調査、UXインタビュー、ジャーナリズム、あるいは課題を提出する学生のレポートであっても、欲しいのは大まかな近似ではなく、一行ずつコード化でき、論文や記事にそのまま引ける文章です。

主なアプローチは三つあります。手作業で打ち込む、無料の自動字幕ツールを使う、AIの音声認識（speech-to-text）を使う。本記事ではそれぞれのトレードオフを説明したうえで、Subananaの文字起こしモードを使って、インタビューの録音を話者ラベル・句読点・段落付きの逐語記録に変える手順を紹介します。後の手直しを最小限にするのが狙いです。先に結論を言えば、AI文字起こしが面倒な作業の九割ほどを肩代わりし、人間は最後の校正パスを一度かけるだけになります。

インタビューの逐語記録と字幕は何が違うのか？

ツールを初めて触る人の多くが「字幕」と「文字起こし（逐語記録）」を同じものとして扱い、結局は使えないファイルを手にしてしまいます。この二つは別の成果物です。

字幕は、動画に重ねて画面上で読むためのもの。短い区切りでタイミングが振られ、慣例的に句読点を付けず、SRTやVTTとして書き出します。
逐語記録は、人が読むためのもの。上から下まで通読し、注釈を付け、引用を抜き出せるよう、句読点・段落・話者ラベルが必要です。

インタビューの逐語記録は後者です。ツールでモードを間違えてインタビューを字幕用のワークフローに通すと、短くタイムスタンプの付いた句読点なしの断片の壁になり、かえって扱いづらくなります。だからこそ本記事では繰り返し強調します。文字起こしモードを選んでください。

三つのアプローチのトレードオフ

アプローチ1：手作業での文字起こし

最も伝統的で、正確さの上限が最も高い方法です。自分で聞きながら一行ずつ打ち込みます。

利点： 一語一語を自分で管理できる。口調、間、発言の重なりまで、調査に必要なとおりに正確に注釈できます。
限界： 非常に時間がかかる。業界でよく言われる目安では、1時間の音声を書き起こすのに4〜6時間かかり、話者が複数いたり、強いなまりがあったり、録音状態が悪かったりすると、さらに遅くなります。締め切りを抱えた記者や、複数のインタビューを同時に進める研究者にとって、この時間コストは予算を超えることが少なくありません。

アプローチ2：無料の自動字幕ツール

無料のツールは数多くあります。動画プラットフォームの自動字幕や、オンラインの文字起こしサイトなどは、すばやくテキストを生成してくれます。

利点： 速い、無料、始めるハードルが低い。
限界： なまりのある発話や使用頻度の低い言語ではエラー率が目に見えて高くなります。多くは話者を分けてくれないため、インタビュー全体が一続きになり、誰がどの発言をしたか分かりません。そして通常は句読点も段落も付かないので、文章の壁のように読めてしまいます。短い英語のクリップなら十分ですが、引用するつもりのインタビューでは、後から構成を整え直すのに多くの時間を取られがちです。

アプローチ3：AIの音声認識ツール

「文字起こしが手に入った瞬間から読めて引用できる状態であってほしい」のなら、今のところ最も現実的な中間がAI文字起こしです。音声認識モデルで音声を起こし直し、句読点・段落・話者の識別を加えたうえで、エディターで校正できます。

利点： 手打ちよりずっと速く、無料ツールより正確で、話者を分け、句読点と段落を自動で付けます。
トレードオフ（はっきり言っておくべき点）： AI文字起こしは最後の校正の代わりにはなりません。誰かの発言をそのまま引用する前に、人の手で一度は確認すべきです。名前、固有名詞、重要な数字をチェックしてください。高い精度はゼロエラーではありませんし、引用の重みが増すほど確認の価値も増します。

次の節では、この三つ目の道をSubananaでどう進めるかを示します。

Subananaでインタビュー音声を逐語記録にするには？

私はSubananaを運営しているので、これを使って全体の流れを説明します。インタビューの文字起こしで価値を発揮するのは、多言語での正確さ、話者分離（diarization）、フィラー語の自動除去、そして句読点と段落分けの自動付与です。

最初の決定的な一歩は、正しいモードを選ぶことです。Subananaには字幕モード・文字起こしモード・会議モードがあり、インタビューの逐語記録には文字起こしモードを使います。これが句読点を付け、意味のまとまりで段落に分け、読める文章を作るモードだからです。字幕モードでは短いタイミング付きのキャプション行しか得られません。流れは四つの手順です。

録音を読み込む。 インタビューの音声・動画ファイル（.mp4 / .mov / .webm / .ogg）をアップロードするか、公開されているYouTube / Instagram / Facebookのリンクを貼り付けて直接読み込みます。インタビューが非公開・アクセス制限付きのリンクの場合は、ファイルアップロードを使ってください。
文字起こしモードを選び、ソース言語を設定する。 文字起こしモードに入り、録音の言語を選びます。Subananaは80以上の言語に対応しているので、たいていのインタビュー音声は範囲内です。話者数を自動検出に設定する（または人数を手入力する）か選び、自動の句読点と段落分けをオンにします。
校正して話者にラベルを付ける。 文字起こしが終わるとエディターに移ります。システムが異なる声を「話者1」「話者2」のように分け、フィラー語（「えーと」「あの」など）を除去し、文章を整えます。ここから次のことができます。
- 話者の名前を変える： 「話者1」を「インタビュアー」に、「話者2」を「協力者A」に変えると、逐語記録全体が連動して更新されます。あとで一行ずつ引用したり注釈を付けたりするのに便利です。
- 聞き間違いを直す： どの語もクリックして直接編集できます。間違えやすい語、つまり人名・組織名・専門用語については、先に**用語集（Glossary）**を用意しておくと、文字起こしの段階でその表記が優先されます。
- 文字起こしと対話する： エディター内でAIに直接質問できます。「協力者AがどこでXに触れているか」「主要な論点を三つ抜き出して」といった具合で、長いインタビューでは大きな時間の節約になります。
書き出す。 必要な形式を選びます。逐語記録で多いのはDOCX（Word、すぐ編集可能）やTXT（Obsidian、Notion、その他のメモツールに貼り付け用）。引用・コーディング・注釈には、XLSXがタイムコード・話者・本文を表として並べてくれます。VTT、SRT、Markdownにも対応しています。

校正して書き出せば、インタビューの逐語記録はそのまま論文・記事・分析に組み込めます。各モードの設計を知りたい場合は、AI字幕・文字起こしとAI会議文字起こしをご覧ください。

インタビューの文字起こしを無料で試す

インタビューが多言語だったり、なまりが強かったりする場合は？

汎用の音声ツールが最も弱いのが、まさにここ — なまりのある発話と、いつもの英語＋少数の言語から外れた言語です。ツールを選ぶときに確認しておくとよい点が二つあります。

言語ごとの正確さ： Subananaは利用可能な音声認識モデルを継続的に評価し、単一の提供元に固定するのではなく、ソース言語ごとに最も成績のよいモデルを選びます。そして文字起こしがうまくいかなかった場合は、別のモデルで自動的に再実行します。この再実行で追加の分数が消費されることはありません。
逐語記録の翻訳： インタビューがある言語で録音され、別の言語の逐語記録が必要なこともあります。文字起こしモードは翻訳先を一つ指定できるので、ソース言語で起こしつつ、同じ流れの中でもう一つの言語へ翻訳できます。

一点、線引きを挙げておきます。文中での言語の切り替え — 話者が一つの文の中で二つの言語を行き来し、その切り替えをツールがリアルタイムに自動検出する — については、これはSubananaのライブ字幕機能の強みであって、文字起こしモードのものではありません。インタビューの文字起こしで頼りにするのは、多言語での正確さと話者分離であり、リアルタイムの文中言語切り替えではありません。実際のイベントでライブ字幕が必要な場合は、AIリアルタイム文字起こしをご覧ください。

インタビュー文字起こしのよくある質問

無料プランでインタビューの逐語記録を丸ごと作れますか？ 録音を処理して結果をプレビューすることはできますが、書き出しは有料の手順です。無料プランは字幕・文字起こしファイルのダウンロードに対応しておらず、エディターでテキストを選択してコピーすることもできません。唯一の出力は、最初の5分のみ・最大720p・透かし入りの動画で、ファイルあたり3GBまでです。使える逐語記録ファイル（DOCX / TXT / XLSX）を書き出すには有料プランが必要で、これによりファイルあたりの上限も15GB / 3時間に上がります。詳しくは料金をご覧ください。

複数の話者がいるインタビューで、誰がどの発言をしたか判別できますか？ はい。文字起こしモードは話者の識別に対応しており、「話者1」「話者2」のように自動で分けます。エディターでそれを実際の役割（インタビュアー、協力者A）に名前変更でき、逐語記録全体が連動して更新されます。

AIの文字起こしをそのまま引用してよいですか？ 私なら先に人の手で校正パスを一度かけます。AI文字起こしは文章と段落の大半を処理しますが、語を間違えると本当に困る箇所 — 名前、固有名詞、重要な数字 — は一行ずつ確認する価値があります。とくに協力者の発言をそのまま引用する箇所はそうです。効率よく校正するコツについては別の記事でも触れています。

1〜2時間の長いインタビュー録音でも使えますか？ はい。有料プランはファイルあたり最大15GB / 3時間まで対応し、たいていのインタビュー録音をカバーします。長いインタビューでは、まずエディターのAIチャットで主要な箇所を見つけ、引用するつもりの部分を重点的に校正するとよいでしょう。