Interview transkribieren: sprechergetrennte, zitierfähige Transkripte

Beim Transkribieren von Interviews geht es im Kern um drei Dinge: Der Text muss korrekt sein, er muss zeigen, wer welche Zeile gesagt hat, und er muss sich so, wie er ist, zitieren lassen. Ob qualitative Forschung, UX-Interviews, Journalismus oder einfach eine studentische Hausarbeit – du willst keine grobe Annäherung, sondern Text, den du Zeile für Zeile codieren und direkt in eine Arbeit oder eine Geschichte übernehmen kannst.

Es gibt drei gängige Wege: alles von Hand abtippen, kostenlose Untertitel-Tools oder KI-Spracherkennung. Dieser Leitfaden erklärt die Abwägungen und zeigt anschließend, wie ich den Transkript-Modus von Subanana nutzen würde, um aus einer Interview-Aufnahme ein Transkript mit Sprecherkennzeichnung, Interpunktion und Absätzen zu machen – damit die manuelle Nachbearbeitung danach so gering wie möglich ausfällt. Die Kurzfassung vorweg: Die KI-Transkription nimmt dir rund neun Zehntel der mühsamen Arbeit ab, und du machst am Ende einen einzigen Korrekturdurchgang.

Worin unterscheiden sich ein Interview-Transkript und Untertitel?

Viele greifen beim ersten Mal zu einem Tool und behandeln „Untertitel" und „ein Transkript" als dasselbe – und landen dann bei einer Datei, mit der sie nichts anfangen können. Es sind zwei verschiedene Ergebnisse:

Untertitel sind dafür gemacht, auf dem Bildschirm über einem Video gelesen zu werden: in kurze, mit Zeitstempeln versehene Zeilen geschnitten, üblicherweise ohne Interpunktion und als SRT oder VTT exportiert.
Ein Transkript ist dafür gemacht, von einem Menschen gelesen zu werden: Es braucht Interpunktion, Absätze und Sprecherkennzeichnung, damit du es von oben bis unten lesen, kommentieren und Zitate herausziehen kannst.

Ein Interview-Transkript gehört zur zweiten Art. Wenn du also den falschen Modus in einem Tool wählst und ein Interview durch einen Untertitel-Workflow schickst, bekommst du eine Wand aus kurzen, mit Zeitstempeln versehenen, interpunktionslosen Fragmenten, mit denen das Arbeiten in Wahrheit schwerer fällt. Deshalb betont dieser Leitfaden immer wieder: Wähle den Transkript-Modus.

Die Abwägungen zwischen den drei Wegen

Weg 1: Manuelle Transkription

Die traditionellste Methode und die mit der höchsten erreichbaren Genauigkeit – du hörst zu und tippst selbst, Zeile für Zeile.

Vorteil: Du hast jedes Wort in der Hand. Tonfall, Pausen, sich überschneidende Redebeiträge – du kannst alles genau so kennzeichnen, wie es deine Forschung verlangt.
Grenze: Es ist extrem langsam. Eine verbreitete Faustregel in der Branche besagt, dass eine Stunde Audio vier bis sechs Stunden zum Abtippen braucht, und mit mehreren Sprechern, starken Akzenten oder schlechter Aufnahmequalität wird es noch langsamer. Für eine Reporterin mit Abgabefrist oder eine Forscherin, die mehrere Interviews gleichzeitig führt, übersteigt dieser Zeitaufwand oft das verfügbare Budget.

Weg 2: Kostenlose Untertitel-Tools

Viele kostenlose Tools – die automatischen Untertitel auf Videoplattformen, Online-Transkriptionsseiten – erzeugen schnell Text.

Vorteil: schnell, kostenlos, niedrige Einstiegshürde.
Grenze: Bei akzentbehafteter Sprache und selteneren Sprachen ist die Fehlerquote spürbar höher; die meisten trennen die Sprecher nicht, sodass das ganze Interview ineinanderläuft und du nicht erkennst, wer welche Zeile gesagt hat; und sie ergänzen meist weder Interpunktion noch Absätze, sodass sich der Text wie eine Textwand liest. Für einen kurzen englischen Clip in Ordnung – aber bei einem Interview, das du zitieren willst, verbringst du danach oft viel Zeit mit dem Umstrukturieren.

Weg 3: KI-Spracherkennungs-Tools

Wenn dein Ziel lautet „Das Transkript ist lesbar und zitierfähig, sobald ich es bekomme", ist die KI-Transkription derzeit der praktischste Mittelweg. Das Tool transkribiert das Audio mit einem Spracherkennungsmodell neu, ergänzt Interpunktion, Absätze und Sprechererkennung und lässt dich anschließend in einem Editor Korrektur lesen.

Vorteil: deutlich schneller als das Abtippen von Hand; genauer als kostenlose Tools, und es trennt die Sprecher und ergänzt Interpunktion und Absätze automatisch.
Abwägung (die man ehrlich benennen sollte): Die KI-Transkription ersetzt den abschließenden Korrekturdurchgang nicht. Bevor du jemanden wörtlich zitierst, solltest du weiterhin einen menschlichen Durchgang machen – Namen, Eigennamen und zentrale Zahlen prüfen. Hohe Genauigkeit bedeutet nicht null Fehler, und je mehr Gewicht ein Zitat trägt, desto eher lohnt sich die Prüfung.

Der nächste Abschnitt zeigt, wie ich den dritten Weg mit Subanana gehen würde.

Wie macht man aus Interview-Audio mit Subanana ein Transkript?

Ich betreibe Subanana, also führe ich den ganzen Ablauf damit vor. Wo es sich beim Transkribieren von Interviews bewährt, ist die mehrsprachige Genauigkeit, die Sprechererkennung (Diarisierung), das automatische Entfernen von Füllwörtern und die automatische Interpunktion und Absatzgliederung.

Der entscheidende erste Schritt ist die Wahl des richtigen Modus. Subanana hat einen Untertitel-Modus, einen Transkript-Modus und einen Meeting-Modus – für ein Interview-Transkript willst du den Transkript-Modus, denn der ergänzt die Interpunktion, gliedert den Text sinngemäß in Absätze und erzeugt etwas Lesbares. Der Untertitel-Modus liefert dir nur kurze, mit Zeitstempeln versehene Untertitelzeilen. Der Ablauf hat vier Schritte:

Die Aufnahme importieren. Lade die Audio- oder Videodatei des Interviews hoch (.mp4 / .mov / .webm / .ogg) oder füge einen öffentlichen YouTube-, Instagram- oder Facebook-Link ein, um sie direkt zu importieren. Liegt das Interview hinter einem privaten oder zugriffsbeschränkten Link, nutze stattdessen den Datei-Upload.
Den Transkript-Modus wählen und die Ausgangssprache festlegen. Wechsle in den Transkript-Modus und wähle die Sprache der Aufnahme. Subanana deckt mehr als 80 Sprachen ab, sodass die meisten Interview-Aufnahmen erfasst sind. Stelle die Sprecherzahl auf automatische Erkennung (oder gib die Anzahl manuell ein) und aktiviere die automatische Interpunktion und Absatzgliederung.
Korrektur lesen und Sprecher benennen. Wenn die Transkription fertig ist, landest du im Editor. Das System teilt die verschiedenen Stimmen in Sprecher 1, Sprecher 2 und so weiter auf, entfernt Füllwörter („ähm", „weißt du") und glättet den Text. Von hier aus kannst du:
- Sprecher umbenennen: Ändere Sprecher 1 in „Interviewer" und Sprecher 2 in „Teilnehmer A", und das gesamte Transkript wird synchron aktualisiert – praktisch, um später Zeile für Zeile zu zitieren und zu kommentieren.
- Falsch verstandene Wörter korrigieren: Klicke auf ein beliebiges Wort und bearbeite es direkt. Für die Wörter, die am ehesten falsch sind – Personennamen, Organisationsnamen, Fachbegriffe – richte vorab ein Glossar ein, dann bevorzugt das System beim Transkribieren deine Schreibweisen.
- Mit dem Transkript chatten: Im Editor kannst du die KI direkt fragen – „Wo erwähnt Teilnehmer A X?" oder „Zieh die drei wichtigsten Argumente heraus" –, was bei einem langen Interview viel Zeit spart.
Exportieren. Wähle das benötigte Format. Für Transkripte sind die häufigsten Optionen DOCX (Word, direkt bearbeitbar) oder TXT (zum Einfügen in Obsidian, Notion oder ein anderes Notiz-Tool); für Zitation, Codierung oder Annotation ordnet XLSX Zeitcodes, Sprecher und Text als Tabelle an. VTT, SRT und Markdown werden ebenfalls unterstützt.

Sobald du Korrektur gelesen und exportiert hast, fügt sich das Interview-Transkript direkt in deine Arbeit, deinen Artikel oder deine Analyse ein. Um zu verstehen, wie die Modi angelegt sind, siehe KI-Untertitel und -Transkription und KI-Meeting-Transkription.

Transkribiere dein Interview kostenlos

Was, wenn das Interview mehrsprachig oder akzentbehaftet ist?

Genau hier sind allgemeine Sprach-Tools meist am schwächsten – bei akzentbehafteter Sprache und Sprachen jenseits der üblichen Handvoll rund ums Englische. Zwei Dinge lohnen sich bei der Tool-Wahl zu prüfen:

Genauigkeit über Sprachen hinweg: Subanana vergleicht laufend die verfügbaren Spracherkennungsmodelle und wählt für jede Ausgangssprache das jeweils leistungsstärkste, statt sich auf einen einzigen Anbieter festzulegen. Und wenn eine Transkription schiefgeht, läuft sie automatisch mit einem anderen Modell erneut – ein erneuter Durchlauf, der dich keine zusätzlichen Minuten kostet.
Das Transkript übersetzen: Ein Interview kann in einer Sprache aufgenommen sein, während du das Transkript in einer anderen brauchst. Der Transkript-Modus unterstützt ein einzelnes Übersetzungsziel, sodass du in der Ausgangssprache transkribieren und im selben Durchgang in eine weitere Sprache übersetzen kannst.

Eine Grenze sei genannt: Beim Sprachwechsel mitten im Satz – wenn jemand innerhalb eines einzelnen Satzes zwischen zwei Sprachen wechselt und das Tool den Wechsel in Echtzeit automatisch erkennt – ist das eine Stärke der Live-Untertitel-Funktion von Subanana, nicht des Transkript-Modus. Beim Transkribieren von Interviews stützt du dich auf mehrsprachige Genauigkeit und Sprechererkennung, nicht auf den Sprachwechsel innerhalb eines Satzes in Echtzeit. Wenn du Live-Untertitel bei einer echten Veranstaltung brauchst, siehe KI-Echtzeit-Transkription.

FAQ zur Interview-Transkription

Kann die kostenlose Stufe ein vollständiges Interview-Transkript erstellen? Du kannst eine Aufnahme durchlaufen lassen und das Ergebnis als Vorschau ansehen, aber der Export ist ein kostenpflichtiger Schritt. Die kostenlose Stufe unterstützt keine Downloads von Untertitel- oder Transkriptdateien, und du kannst den Text im Editor auch nicht markieren und kopieren – die einzige Ausgabe ist ein Video mit Wasserzeichen, nur die ersten 5 Minuten, in 720p und mit einem Limit von 3 GB pro Datei. Um nutzbare Transkriptdateien zu exportieren (DOCX / TXT / XLSX), brauchst du einen kostenpflichtigen Tarif (der das Limit pro Datei zugleich auf 15 GB / 3 Stunden anhebt). Einzelheiten findest du auf der Preisseite.

Erkennt es in einem Interview mit mehreren Sprechern, wer was gesagt hat? Ja. Der Transkript-Modus unterstützt die Sprechererkennung – er trennt automatisch Sprecher 1, Sprecher 2 und so weiter, und du kannst sie im Editor in die tatsächlichen Rollen umbenennen (Interviewer, Teilnehmer A), wobei das gesamte Transkript synchron aktualisiert wird.

Kann ich ein KI-Transkript direkt zitieren? Ich würde vorher einen menschlichen Korrekturdurchgang machen. Die KI-Transkription bewältigt den allergrößten Teil des Textes und die Absatzgliederung, aber die Stellen, an denen ein falsches Wort wirklich zählt – Namen, Eigennamen, zentrale Zahlen –, lohnt es sich Zeile für Zeile zu prüfen, besonders in Passagen, in denen du eine teilnehmende Person wörtlich zitierst. 3 Tipps zur KI-Transkription erklärt, wie du effizienter Korrektur liest.

Funktioniert eine lange Interview-Aufnahme (ein bis zwei Stunden)? Ja. Kostenpflichtige Tarife verarbeiten bis zu 15 GB / 3 Stunden pro Datei, was die meisten Interview-Aufnahmen abdeckt. Bei einem langen Interview würde ich zuerst den KI-Chat im Editor nutzen, um die zentralen Passagen zu finden, und dann die Teile genau Korrektur lesen, die du zitieren willst.

Interviews transkribieren: sprechergetrennte, zitierfähige Transkripte