Podcasts und Interviews präzise transkribieren: die komplette Anleitung
Um Podcasts und Interviews präzise zu transkribieren, laden Sie die Audiodatei hoch (oder fügen einen öffentlichen YouTube-Link ein) und nutzen ein KI-Transkriptionstool, das drei Dinge leistet, die kostenlose Auto-Untertitel auslassen: Es trennt und beschriftet jeden Sprecher, entfernt Füllwörter und setzt Satzzeichen, und es lässt Sie falsch verstandene Begriffe korrigieren, bevor Sie exportieren. Lesen Sie das Ergebnis anschließend einmal durch, korrigieren Sie Namen und Fachbegriffe, die das Modell falsch erfasst hat, und exportieren Sie in das Format, das Ihr nächster Schritt braucht – ein Word-Dokument zum Bearbeiten, reinen Text für ein KI-Modell oder eine SRT-Datei, falls Sie zusätzlich Untertitel möchten.
Dieser letzte Korrekturdurchgang ist genau der Teil, den die meisten Anleitungen weglassen. Für ein sauberes Studiogespräch zwischen zwei Personen ist ein KI-Transkript nach einem fünfminütigen Überfliegen oft schon veröffentlichungsreif. Für eine vierköpfige Runde voller Durcheinanderreden, Akzenten und Fachbegriffen sollten Sie hingegen Zeit einplanen, um die Sprecher neu zu beschriften und das Fachvokabular zu bestätigen. Diese Anleitung deckt den gesamten Workflow ab – und zeigt genau, wo diese Grenze verläuft.
Ich betreibe Subanana, eine KI-App für Spracherkennung, daher verwende ich für die konkreten Beispiele deren Transkriptionsmodus. Der Workflow selbst lässt sich auf jedes leistungsfähige Tool übertragen.

Warum reichen kostenlose Auto-Untertitel bei langen Aufnahmen nicht aus?
Die Auto-Untertitel, die Sie von einem Diktiergerät am Handy oder einer Videoplattform bekommen, sind für kurze Clips mit einer einzigen Stimme gemacht. Bei genau den drei Dingen, die Podcasts und Interviews ausmachen, scheitern sie:
- Keine Sprecherbeschriftung. Ein 60-minütiges Interview, das als eine einzige, undifferenzierte Textwand transkribiert wird, ist für die Auswertung nahezu nutzlos. Sie können kein Zitat eines Gastes übernehmen, keine bestimmte Antwort herausziehen und nicht nachvollziehen, wer was zugesagt hat, ohne erneut hineinzuhören.
- Füllwörter und Versprecher bleiben drin. „Ähm, also, irgendwie, ich glaube, weißt du" überlebt wortwörtlich. Für ein Transkript, das Sie lesen oder weiterverwenden wollen, muss dieses Rauschen raus – per Hand, wenn Ihr Tool es nicht selbst erledigt.
- Fachbegriffe und Namen verstümmelt. Produktnamen, Personen, Abkürzungen und fachspezifische Begriffe sind genau die Wörter, bei denen ein allgemeines Modell am unsichersten ist. In einem Fachpodcast steckt darin der größte Teil des wertvollen Inhalts.
- Keine Korrekturebene. Eine reine Untertiteldatei liefert Ihnen nur das Ergebnis und sonst nichts – keine Möglichkeit, ein wahrscheinlich falsch verstandenes Wort zu markieren, keinen kontextbezogenen Weg, es in großem Umfang zu korrigieren.
Bei einem 30-Sekunden-Clip für Social Media spielt all das keine Rolle. Bei einer 45-minütigen Folge, aus der Sie Shownotes, einen Blogbeitrag oder Recherchenotizen machen wollen, kostet Sie jede dieser Lücken echte Bearbeitungszeit. Genau diese Lücke schließt ein speziell dafür gebauter Transkriptions-Workflow.
Was braucht ein präzises Podcast- oder Interview-Transkript wirklich?
Vier Funktionen unterscheiden ein Transkript, mit dem Sie arbeiten können, von einem reinen Rohauswurf:
| Funktion | Was sie leistet | Warum sie bei langen Aufnahmen zählt |
|---|---|---|
| Sprechererkennung (Diarisierung) | Erkennt und beschriftet, wer gerade spricht | Lässt Zitate zuordnen und die Antworten eines einzelnen Gastes herausziehen |
| Füllwort-Entfernung + Satzzeichen | Bereinigt „ähm/äh", setzt Satz- und Absatzgrenzen | Macht aus gesprochenem Wortschwall lesbaren Text |
| Vokabular-Steuerung | Fixiert Namen, Marken und Fachbegriffe, damit sie einheitlich transkribiert werden | Verhindert, dass Fachfolgen in Falschschreibungen versinken |
| Editierbare Korrektur | Markiert wahrscheinlich falsch verstandene Wörter und lässt Sie Korrekturen bestätigen | Bringt Sie zur Genauigkeit, ohne neu zu tippen |
Der Transkriptionsmodus von Subanana ist genau um diese Punkte herum gebaut. Die Sprecheranzahl lässt sich automatisch erkennen oder manuell festlegen, Füllwörter werden bereinigt, und ein Schalter für automatische Zeichensetzung und Absatzgliederung verwandelt den Rohstrom in lesbaren Text – eine Funktion des Transkriptionsmodus, da Untertitel bewusst auf Satzzeichen verzichten. Im Hintergrund vergleicht das Tool die Spracherkennungsmodelle je Sprache und leitet jeden Auftrag an das beste Modell weiter, mit automatischem Rückgriff auf ein zweites Modell bei jedem Abschnitt, der unzuverlässig wirkt. Sie sind also nicht an eine einzige Engine gebunden, die bei Ihrem Akzent oder Ihrer Audioqualität zufällig schwach ist.
Der Workflow: Hochladen → Transkribieren → Bearbeiten → Exportieren
Hier ist der durchgängige Ablauf für eine typische Folge, mit den Entscheidungen, die an jedem Schritt die Genauigkeit beeinflussen.
| Schritt | Was Sie tun | Hebel für die Genauigkeit |
|---|---|---|
| 1. Audio hinzufügen | Datei hochladen oder einen öffentlichen YouTube-/Instagram-/Facebook-Link einfügen | Verwenden Sie die hochwertigste Aufnahme, die Sie haben, nicht eine komprimierte Neufassung |
| 2. Ausgangssprache + Sprecher festlegen | Gesprochene Sprache wählen; Sprecher automatisch erkennen oder Anzahl eingeben | Eine korrekte Sprecheranzahl schärft die Diarisierung |
| 3. Vokabular fixieren | Gastnamen, Marken und wiederkehrende Fachbegriffe in ein Glossar eintragen | Verhindert, dass das Modell denselben Begriff immer wieder falsch schreibt |
| 4. Transkribieren | Das Modell laufen lassen; den Entwurf prüfen | — |
| 5. Bearbeiten | Sprecher neu beschriften, vorgeschlagene Wortkorrekturen annehmen oder verwerfen | Das ist der menschliche Durchgang – halten Sie ihn fokussiert |
| 6. Exportieren | Das Format wählen, das Ihr nächster Schritt braucht | Passen Sie das Format an die Aufgabe an (siehe unten) |
Ein paar Hinweise, die einen echten Unterschied machen:
- Die Audioqualität steht vor allem anderen. Kein Modell holt Details zurück, die nicht in der Aufnahme sind. Geben Sie ihm die Originaldatei, nicht eine abgefilmte oder stark komprimierte Kopie.
- Legen Sie die Sprecheranzahl fest, wenn Sie sie kennen. Wenn Sie ein Interview mit drei Personen aufgenommen haben, liefert die Angabe „drei Sprecher" sauberere Beschriftungen, als alles vollautomatisch laufen zu lassen.
- Fixieren Sie das Vokabular vorher, nicht nachher. Im Glossar von Subanana können Sie Begriffe einzeln hinzufügen, einen ganzen Block einfügen oder per XLSX/CSV im Stapel importieren; außerdem lässt sich eine arbeitsbereichsweite Liste plus projektspezifische Listen mit sprachbezogener Kennzeichnung pflegen. Bei einer wiederkehrenden Sendung zahlt sich ein einmal aufgebautes Glossar in jeder Folge aus. Eine Funktion für eigenes Vokabular ist bei Transkriptionstools inzwischen verbreitet; der praktische Vorteil hier liegt in der Granularität – arbeitsbereichsweit plus projektbezogen, nach Sprache gekennzeichnet.
- Nutzen Sie die Korrekturebene, statt neu zu tippen. Im Editor markiert ein KI-Durchgang wahrscheinlich falsch verstandene oder gleich klingende Wörter und schlägt eine Korrektur vor, die Sie annehmen oder verwerfen. Er ändert nichts stillschweigend und korrigiert Vertauschungen – falsche Wörter – statt Wörter zu erkennen, die in der Aufnahme fehlten. Genau das richtige Werkzeug, um ein fast korrektes Transkript schnell zu bereinigen.
Wenn Sie fertig sind, exportieren Sie in das Format, das Ihr nächster Schritt braucht. Subanana exportiert SRT, VTT, TXT, DOCX (Word), XLSX (Excel) und Markdown sowie ein ZIP mit allem zusammen:
- DOCX – wenn Sie das Transkript zu einem Artikel ausarbeiten oder es an eine mitwirkende Person schicken.
- TXT oder Markdown – wenn Sie das Transkript in ein anderes KI-Tool einspeisen, um Shownotes zu entwerfen oder Zitate herauszuziehen.
- SRT oder VTT – wenn dieselbe Folge auch eingeblendete Untertitel für einen Videoschnitt braucht.
- XLSX – wenn Sie Zeitstempel und Segmente zur Indexierung in einer Tabelle haben möchten.
Speziell für die Weiterverwendung gibt es zudem einen KI-Chat direkt im Editor: Sie können Fragen zum Transkript stellen – „Was hat der Gast zum Thema Preise gesagt?", „Fasse die zweite Hälfte zusammen" – und erhalten Antworten, die im tatsächlichen Gespräch verankert sind. Das schlägt das erneute Überfliegen einer Stunde Text auf der Suche nach einem einzigen Zitat.
Wann reicht die KI, und wann brauchen Sie einen menschlichen Durchgang?
Das ist die Frage, die entscheidet, wie viel Zeit Sie ein Transkript kostet. Die KI-Transkription ist mittlerweile so gut, dass sie bei vielen Inhalten schon im ersten Durchlauf praktisch fertig ist – aber eben nicht bei allen. Eine brauchbare Faustregel, bevor Sie loslegen:
- Die KI reicht meist aus bei: einem oder zwei Sprechern, klarem Studio- oder Headset-Ton, alltäglichem (nicht fachspezifischem) Wortschatz und einem Anwendungsfall, in dem kleine Fehler wenig kosten – interne Recherchenotizen, ein erster Entwurf der Shownotes, die Suche nach einem Zitat.
- Planen Sie einen menschlichen Durchgang ein bei: drei oder mehr Sprechern mit Durcheinanderreden, starken Akzenten oder lauten Außenaufnahmen, dichter Fach- oder Rechtssprache und allem, was Sie wortwörtlich veröffentlichen oder offiziell zitieren.
Die gute Nachricht: „Ein menschlicher Durchgang" bedeutet nur selten neu tippen. Wenn Diarisierung, Füllwort-Entfernung und eine Korrekturebene nach dem Prinzip „vorschlagen und bestätigen" die Hauptarbeit übernehmen, besteht der menschliche Durchgang vor allem darin, ein paar Sprecherwechsel neu zu beschriften und das Vokabular zu bestätigen – Minuten, nicht Stunden. Die Arbeit verschiebt sich vom Transkribieren zum Verifizieren, und genau dort steuert Ihr Urteilsvermögen den eigentlichen Wert bei.
Ein Hinweis zu Genauigkeitsangaben: Seien Sie skeptisch bei jedem Tool, das mit einer einzigen plakativen Genauigkeitsprozentzahl wirbt. Die reale Genauigkeit hängt weit mehr von Ihrer Audioqualität, Ihren Akzenten und Ihrem Themengebiet ab als von einer Zahl, die an einem fremden, sauberen Datensatz gemessen wurde. Der ehrliche Test besteht darin, ein paar Minuten Ihres eigenen, repräsentativen Tonmaterials durch die kostenlose Vorschau eines Tools laufen zu lassen und das Ergebnis zu beurteilen, das Sie tatsächlich erhalten.
Häufig gestellte Fragen
Kann ich einen Podcast direkt über einen YouTube-Link transkribieren? Ja. Neben dem Datei-Upload können Sie eine öffentliche YouTube-, Instagram- oder Facebook-URL einfügen, und das Tool ruft sie ab und transkribiert sie – praktisch, wenn die Folge ohnehin schon auf einer Videoplattform liegt. Per URL importierte Dateien unterliegen denselben Größen- und Längenbegrenzungen wie Uploads, und zugriffsbeschränkte oder private Inhalte lassen sich womöglich nicht importieren.
Sagt es mir, wer was gesagt hat? Ja – das ist die Diarisierung. Das Tool trennt die Sprecher und beschriftet sie; Sie können die Sprecheranzahl für genauere Ergebnisse manuell festlegen und die Beschriftungen anschließend im Editor umbenennen (Moderator, Gast, Namen).
Welche Audio- und Videoformate kann ich hochladen? Gängige Video- und Audiodateien funktionieren direkt, und kostenpflichtige Tarife unterstützen Dateien bis 15 GB oder drei Stunden. Ist Ihre Folge länger, teilen Sie sie auf. Die Seite des KI-Audio-zu-Text-Tools listet die unterstützten Eingaben auf.
Reicht der kostenlose Tarif, um eine brauchbare Transkriptdatei zu bekommen? Der kostenlose Tarif ist eine Vorschau – Sie sehen das Ergebnis an einer kurzen, mit Wasserzeichen versehenen Probe, aber der Export des Transkripts und das Kopieren des Textes sind kostenpflichtige Funktionen. Er ist dazu da, die Qualität zu prüfen, bevor Sie sich festlegen, nicht um eine fertige Datei auszuliefern.
Präzise Transkripte – schneller
Präzise Podcast- und Interview-Transkription geht nicht darum, das eine magische Modell zu finden – es ist ein Workflow: gutes Audio einspeisen, Sprecher und Vokabular vorab festlegen, die KI den Großteil erledigen lassen und dann ein paar fokussierte Minuten damit verbringen, die wichtigen Stellen zu prüfen. Die Tools übernehmen Diarisierung, Füllwort-Entfernung und Korrektur, sodass der menschliche Durchgang Verifizieren statt Neutippen ist.
Wenn Sie den Workflow an Ihrer eigenen Folge ausprobieren möchten, starten Sie im KI-Transkriptionstool oder öffnen Sie direkt die App. Für den Team- und Recherche-Einsatz über viele Aufnahmen hinweg zeigt die Preisseite, wo die Grenzen liegen.