Premiere Pro 字幕の付け方 完全ガイド 2026:内蔵 Speech to Text の全手順
20 分の製品レビュー動画を編集しているとします。素材はすでに Premiere のタイムラインに並べ、B-roll と効果音も合わせ終えました。残る最後の一手が字幕です。理屈の上では Premiere から出る必要はありません。Text パネルを開き、Speech to Text を回し、caption を生成し、微調整したうえで書き出すか、映像に焼き込みます。このワークフローは Premiere ユーザーのホームグラウンドであり、タイムラインの中で作業が途切れないその手ざわりは、ほかのツールが簡単には置き換えられません。
ただし、日英が混じるコンテンツ、英語のブランド名や技術用語が頻繁に挟まる動画、あるいは屋外インタビューのように背景ノイズのある素材を扱うなら、Premiere 内蔵の Speech to Text は次第に苦しくなってきます。本記事ではまず Premiere の字幕フローを最初から最後まで一度たどり、どんな場面で精度が落ちるのか、そして Subanana で SRT を作って Premiere に読み込み直す補完ルートをどう使うのかを整理します。
利害関係の明示:筆者は AI 字幕・文字起こしツールの Subanana を運営しています。本記事の情報は Adobe の Premiere Pro 公開ドキュメントと Subanana の社内製品ドキュメントに基づき、2026 年 5 月時点のものです。でっち上げた「実測精度」の数値は使っておらず、競合側の出典から出た偏ったベンチマークも引用していません。自分で比べたい場合は、どちらにも無料体験があるので、ご自身の動画で実際に回してみることをおすすめします。

Premiere Pro 字幕の付け方:Speech to Text の全手順
Adobe は近年のバージョンの Premiere Pro で、字幕ワークフローを一つの Text パネルの中に統合しました。プラグインも、サードパーティサービスも、タイムラインを離れる必要もありません。流れは次のとおりです。
- 素材を読み込んでタイムラインに載せる — 動画ファイルをシーケンスの上にドラッグし、オーディオトラックの位置が正しいか確認します。Speech to Text は選択されたオーディオトラックを対象に文字起こしするため、トラックを選び間違えると結果がそのままずれます。
- Text パネルを開く — 上部メニューの
Window>Textを選び、Transcriptタブに移ります。Transcribe sequenceまたはCreate transcriptionを押します。 - 言語とオーディオトラックを選ぶ — ポップアップでソース言語(例:
Japanese)を選び、オーディオトラックを指定し(通常は音楽・効果音トラックではなくセリフのトラックです)、セリフが複数のトラックに散っている場合はMixにチェックを入れます。Transcribeを押します。 - 文字起こしが終わったら transcript を確認 — Premiere が Text パネルの
Transcriptタブに文章を表示し、各段落はタイムラインのタイムコードに対応します。この段階はまだ純粋なテキストで、caption ではありません。ここで誤字を直し、文をつなぎ、不要な区間を削除できます。 - caption(字幕の行)を生成する — transcript を確認したら
Create captionsを押し、Create from sequence transcriptを選びます。1 行の最大文字数、caption 1 行の最大の長さ(秒)、行間などを設定できます。Premiere が transcript を caption の行に切り分け、タイムラインの字幕トラックに自動で載せます。 - タイムラインで微調整する — これで各 caption はタイムライン上でドラッグして動かせる clip になります。長さ、位置、文字をそのまま編集できます。フォント、サイズ、位置、フチ、背景色は
Essential Graphicsパネルで調整します。この段階が Premiere のいちばん強いところです。文字と画面が同じビューの中にあるので、字幕を直すためにツールを切り替える必要がありません。 - 書き出す —
ExportパネルでCaptionsにチェックを入れます。.srtや.vttを別ファイルとして書き出すこともできますし(YouTube、LinkedIn 用)、Burn Captions Into Videoにチェックを入れて字幕を映像ファイルに焼き込むこともできます(Instagram Reels、TikTok のように別の caption ファイルを受け取らないプラットフォーム用)。
この流れを最後までたどると、素材がはっきりした英語や日本語、あるいは英語中心のポッドキャストインタビューであれば、Premiere の Speech to Text はおおむね十分です。そして「文字起こし → 編集 → 焼き込み」がすべて一つのソフトの中で完結する点は、いまの standalone な AI 字幕ツールがまだ追いつけていない統合の強みです。
Premiere の Speech to Text が得意なこと
弱点を語る前に、Premiere 内蔵 STT が standalone な AI 字幕ツールを実際に上回るところを、まずはっきりさせておきます。
- タイムライン統合は代替不可 — 文字起こし結果が編集ポイントにそのまま揃い、caption を直すためにソフトを離れる必要がありません。すでに Premiere で半分ほど編集したプロジェクトなら、この摩擦の差は実際に大きいものです。
- テキストベースの粗編集(text-based editing) — 近年のバージョンは、transcript で直接段落を消すとタイムラインの対応する clip も一緒に切れる機能をサポートします。インタビュー、ポッドキャスト、長尺の講座素材では時間を大きく節約してくれます。
- Adobe エコシステムのワンストップ — Auto Reframe、Warp Stabilizer、Lumetri Color といったよく使うツールがすぐ隣にあり、字幕ソフトと編集ソフトの間を行き来して読み込み・書き出しを繰り返す必要がありません。
- サブスクリプションに既に含まれる — もともと Creative Cloud を契約しているなら、Speech to Text は付いてくる機能です。字幕機能のために別途費用を払う必要はありません。Premiere 単体アプリの年間プランは月額 US$22.99、月々払いは月額 US$34.49 です。
これは Premiere をよく使う人が本当に大切にしている価値です。毎日タイムラインの上で作業し、コンテンツが英語やはっきりした日本語中心なら、Premiere 内蔵 STT がいちばん手になじむ選択です。本記事はツールを乗り換えろとは言いません。
Premiere Speech to Text が苦しくなる場面
Premiere 内蔵 STT は単一のバックエンドモデルに縛られているため、いくつかの素材では目に見えて揺らぎます。字幕をよく扱うクリエイターには見覚えのある場面でしょう。
日英混在(code-switching) — 日本語の話し言葉に英語のブランド名、技術用語、外来語が混じるのは、IT・レビュー・チュートリアル系コンテンツの日常です。Premiere STT は「Sharp の AQUOS XLED のコントラスト」のような文に出くわすと、英語の単語を発音の近い日本語に誤って置き換えることが多く(「Sharp」が別の音に、「OLED」が見当違いの音写に)、後処理の校正で一語ずつ原文に戻す手間がかかります。字幕ツールを評価するときは、単一言語の精度だけでなく、この混在処理から見るのが現実的です。
屋外ノイズ・複数人の会話 — 街頭インタビュー、イベント現場、会議室で複数人が同時に話す場面では、単一モデルの STT はよく揺らぎます。Adobe は 2026 年 3 月 27 日の告知で 26.2 バージョンの精度改善(一部の言語でエラー率が最大 36% 低下)を発表したので、新しいバージョンは一部の場面で良くなる可能性があります。ただし告知がすべての言語を同じように扱っているわけではないので、自分が使う言語が「最も改善された」側に入っているかは自分で確かめる必要があります。同じ製品系列で過去に逆行した例もありました。26.0.1 バージョンは in 2016 building a mobile app を 16 billion moves to cost a minimum of と誤認識し、26.2 でようやく直りました。結論はこうです。制作フローが Premiere STT に依存しているなら、公式告知を読むよりも、バージョンを上げるたびにすでに分かっている素材で一度回してみるほうが信頼できます。
言語カバレッジが限られる(18 言語に対応) — Adobe の公式告知によると 26.2 バージョンは 18 言語に対応します。中国語系は Mandarin(簡体・繁体)と Cantonese、ヨーロッパ言語は主要なもの(英・仏・独・西・伊・葡・露・蘭・丹・諾・スウェーデン語)を含み、ここに韓国語、日本語、ヒンディー語が入ります。コンテンツがこの主要言語の中だけで動くならカバレッジに問題はありません。ただし少数言語や多言語混在の動画に進んだ瞬間、壁にぶつかります。参考までに、Subanana は現在 80 以上の言語に対応しています。複数の国の素材を扱う必要のあるクリエイターにとって、カバレッジはクラウドの standalone ツールがよく見せる強みです。
用語・固有名詞のコントロール — 単一モデルの STT は、登場する人物・製品・専門用語を毎回違うように書き起こしがちです。同じ名前が動画ごとに表記が揺れると、一貫性のために手直しが必要になります。この点は精度そのものというより、「どこまで自分でコントロールできるか」という粒度の問題に近いものです。
補完フロー:Subanana で SRT を作って Premiere に読み込み直す
Premiere STT を試してみたけれど結果が満足いかない場合 — 特に日英混在やノイズ環境で — Premiere を捨てる必要はありません。多くの場合いちばん現実的な方法はこうです。字幕の工程だけをより適したツールに任せて SRT を受け取り、その SRT を Premiere に読み込み直して編集を続けるのです。
Subanana の AI 字幕ツールは、まさにこの補完の役割のために設計されています。いちばんの差別化ポイントは、字幕モードで効きます。用語集による語彙単位のきめ細かいコントロール、テキスト層に絞った AI 自動校正(最終確定はユーザーが押す)、一つのソースから複数のターゲット言語を同時に出せる翻訳、そして 80 以上の言語カバレッジ — この組み合わせが、単一モデルに縛られた Premiere STT との差になります。
流れは次のとおりです。
- アップロードするかリンクを貼る — 動画ファイルを Subanana に直接アップロードするか、素材がすでに YouTube・Instagram・Facebook にある場合は公開リンクを貼れば済みます。ダウンロードや変換は不要です。
- ソース言語を選ぶ — 日本語、英語、または多言語混在。Subanana はソース言語に応じて、現在その言語でいちばんよく動く STT モデルにルーティングします(社内で複数のモデルを継続的にベンチマークし、単一の提供元には縛りません)。
- Subanana のエディターで校正する — ここが Subanana がいちばん力を入れた部分です。エディターは何層もの品質チェックを重ねてくれます。
- ハルシネーション検出 + 自動モデル切り替え — ある区間の出力が音声と合わない場合(モデルが「でっち上げた」場合)、システムがその区間をすでに検証済みの別のモデルで自動的に回し直します。問題のある区間がそのまま表に出ないようにします。
- AI 自動校正(テキスト層の同音・形の近い表記ミスに限定) — LLM が文字起こしを一度通し、誤って書き起こされたと思われる文字を示して修正案を提案し、最終的な確定はユーザーが一度押して決めます。はっきりさせておくと、この層は「誤認識された文字」だけを扱います。抜けた言葉を見つけたり、タイムコードを変えたりはしません。それは STT 自体とタイムラインチェックの役目です。
- 用語集(glossary)で表記をコントロール — 人物名、製品名、専門用語をあらかじめ登録しておくと、文字起こしの間ずっと同じ表記で保たれます。精度を一段引き上げるというより、語彙の単位でどこまで細かく結果をコントロールできるか、という粒度の話です。
- CPS(1 秒あたりの文字数)チェック — 「1 秒に文字を詰め込みすぎて視聴者が読めない」行や「長く居座りすぎて間が空く」行を示し、その行から優先して手直しできるようにします。
- SRT または二言語 SRT を書き出す — Subanana は原文 SRT はもちろん、二言語 SRT(原文 + 訳文を同じファイルに上下に並べる)も書き出せるので、「日英対訳字幕」を一度で作れます。字幕モードの翻訳は複数のターゲット言語を同時に出せるので、一つのソースから日本語・英語・韓国語の字幕をまとめて用意するのにも向いています。このほか VTT、TXT、DOCX、XLSX、Markdown まで、単一ファイル形式に対応します。
- Premiere に読み込み直す — Premiere の Text パネルで
Import captions from fileを押し、Subanana が書き出した.srtを選びます。caption の行がタイムコードに沿って字幕トラックに自動で並び、そのあとの微調整・焼き込み・書き出しは、もとから慣れた Premiere のワークフローそのままです。
このフローには現実的なトレードオフが一つあります。「SRT 書き出し → Premiere へ読み込み」という工程が一度増えるので、純粋な Premiere のフローほどシームレスではありません。ただしその代わりに、日英混在・ノイズ環境でより良い結果と、単一モデルに足を引っ張られない補完の仕組みが手に入ります。
Subanana の有料プランは月額 US$9(年間払いの場合)から始まります。STT モジュール一つのために Creative Cloud のサブスクリプションをまるごともう一つ背負うのと比べれば、この費用は置き換えではなく上乗せです。プラン全体の比較は下のボタンから確認できます。
純粋な Premiere フローにとどまるほうがいいのはいつか
正直に言うと、すべての場面が Subanana の一手間を余計に踏むだけの価値があるわけではありません。次のような場合は、Premiere 内蔵の Speech to Text にとどまるほうがいいでしょう。
- コンテンツが英語中心のとき — 英語の STT はほぼすべてのモデルで学習データが最も豊富な言語なので、Premiere の精度はすでに十分です。
- text-based editing を重視するとき — transcript から直接タイムラインを切り出すワークフローは、まだ standalone ツールが完全には再現できていません。
- 短い動画、はっきりしたセリフ、コントロールされた録音環境のとき — スタジオで録ったポッドキャスト、1 人カメラ向け講座動画なら、Premiere STT のエラー率はおおむね受け入れられます。
- 後処理の校正時間がそもそも十分なとき — 一語ずつ校正する工程がすでにフローに組み込まれているなら、ソース STT の精度が少し落ちても影響は小さいものです。
シンプルな判断基準はこうです。動画の素材が「日英混在 / 屋外ノイズ」に近いほど Subanana 補完の投資対効果が大きくなり、「英語 / スタジオ / はっきりしたセリフ」に近いほど Premiere にとどまるほうが得です。
字幕作業をもっと広く見たいなら、YouTube 動画に字幕を付ける方法と SRT ファイルの開き方も、同じ流れの延長として一緒に見ると役立ちます。
Premiere Pro 字幕の付け方 よくある質問
Q1. Premiere Pro の Speech to Text は別途費用がかかりますか? いいえ。STT 機能は Creative Cloud のサブスクリプションに含まれており、Premiere Pro を起動すればすぐ使えます。ただし STT だけを単独で買うことはできません。使うには Premiere のサブスクリプション全体を背負う必要があります(年間プラン月額 US$22.99、月々払い月額 US$34.49)。
Q2. Premiere STT は日英混在をうまく処理しますか? 日英混在は Premiere STT の弱いところです。英語の単語を発音の近い日本語に誤って置き換えることが多く、後処理の校正が必要になります。混在コンテンツが多いなら、Subanana で SRT を作って Premiere に読み込み直すフローをおすすめします。
Q3. 外部の SRT ファイルを Premiere に読み込むとタイムラインとずれませんか? SRT のタイムコードがタイムライン上の動画の in-point と合ってさえいれば問題ありません。Subanana が書き出す SRT は動画 0:00 を基準とした絶対タイムコードを使うので、Premiere に読み込むと caption の行がタイムコードに沿って字幕トラックに自動で並びます。複数の素材をつなぎ合わせている場合は、開始時間を少し調整する必要があるかもしれません。
Q4. Premiere の caption で二言語字幕を一度に出せますか? Premiere 内蔵の STT 自体は二言語字幕の生成に対応していません。日英対訳のような二言語字幕を作るには、caption トラックを 2 つ別々に読み込むか、外部ツールで二言語 SRT を作って読み込む必要があります。Subanana の二言語 SRT 書き出しは原文と訳文を同じ caption の中に上下に重ねるので、Premiere に読み込むとそのまま二言語で表示されます。
Q5. Premiere を大きくバージョンアップするたびに STT をテストし直すべきですか? おすすめします。Adobe Community には大きなバージョンアップ後に STT の精度が逆行した事例が複数積み上がっています(直近は 26.0.1 → 26.2 の修正サイクルでした)。制作フローが Premiere STT に依存するチームなら、精度をすでに分かっているテスト素材を一つ保管しておき、バージョンを上げたあと一度照合してみることをおすすめします。
Premiere Pro 字幕の付け方の核となるワークフローは、プロの編集環境では依然としていちばん手になじむ選択です。タイムライン統合、text-based editing、ワンストップの Adobe エコシステム — これらの強みは standalone ツールがまだ複製できていません。ただし素材が日英混在や屋外ノイズに向かい始めると、Premiere 内蔵 STT の精度がボトルネックになります。そのときは字幕の工程だけを Subanana で SRT を作って Premiere に読み込み直し、編集を続けるのが、いちばん現実的な補完ルートです。ツールを乗り換えることも、フローを組み直すこともなく、たった一点でだけより適したモデルを使うやり方です。