Video in Text umwandeln: importieren, transkribieren, bearbeiten, exportieren
Um ein Video in Text umzuwandeln, erledigen Sie vier Dinge: das Video importieren, es transkribieren, das Ergebnis bearbeiten und im benötigten Format exportieren. Die ganze Aufgabe dauert Minuten statt der Stunden, die das Abtippen von Hand kosten würde. Den meisten unterläuft der Fehler nicht bei einem dieser Schritte – sondern bei der Entscheidung, welche Art von Text sie eigentlich wollen. Denn „Video in Text" kann ein sauberes, lesbares Transkript meinen, das Sie in ein Dokument einfügen, oder eine zeitgenau getaktete SRT-Untertiteldatei, die über dem Video auf dem Bildschirm erscheint. Das sind zwei verschiedene Ergebnisse, und die falsche Wahl bedeutet, die Arbeit noch einmal machen zu müssen.
Ich betreibe Subanana, eine KI-App für Sprache-zu-Text, und nutze sie hier, um den Ablauf durchzugehen. Die Schritte und Entscheidungen sind aber dieselben, zu welchem Werkzeug Sie auch greifen. Die Kurzfassung vorweg: zuerst das richtige Ergebnis wählen, dann die KI die mühsame Transkriptionsarbeit erledigen lassen und schließlich einen menschlichen Korrekturdurchgang machen, bevor Sie sich auf den Text verlassen.

Transkript oder Untertitel: Welche Art von Text wollen Sie wirklich?
Bevor Sie irgendetwas transkribieren, legen Sie das gewünschte Ergebnis fest. Ein Transkript und eine Untertiteldatei sind für unterschiedliche Zwecke gemacht:
- Ein Transkript ist Text, der von einem Menschen gelesen werden soll. Es hat Satzzeichen, Absätze und Sprecherkennzeichnungen, sodass Sie es von oben bis unten lesen, durchsuchen, kommentieren und zitieren können. Sie exportieren es als DOCX, TXT oder Tabelle.
- Untertitel sind Text, der über dem Video auf dem Bildschirm gelesen werden soll. Sie sind in kurze, getaktete Zeilen zerlegt, die zum Ton synchron laufen, üblicherweise ohne Satzzeichen geschrieben (die übliche Untertitelkonvention, kein Mangel), und werden als SRT oder VTT exportiert, damit ein Videoplayer sie anzeigen kann.
Hier der praktische Unterschied direkt gegenübergestellt:
| Transkript | SRT-Untertiteldatei | |
|---|---|---|
| Gemacht für | Lesen, Durchsuchen, Zitieren | Anzeige auf dem Bildschirm über dem Video |
| Satzzeichen & Absätze | Ja | Nein (Untertitelkonvention) |
| Zeitstempel | Optional (pro Einheit, beim Tabellenexport) | Ja – jede Zeile ist zeitsynchron |
| Sprecherkennzeichnungen | Ja (Sprecher 1, Sprecher 2 …) | Nein |
| Typischer Export | DOCX, TXT, XLSX | SRT, VTT |
| Wofür Sie es nutzen | Interviews, Podcasts, Vorlesungen, Besprechungsnotizen, Aufbereitung zu Artikeln | YouTube-Untertitel, Kursvideos, Social-Clips |
Wenn Sie den Inhalt lesen oder weiterverwenden wollen – ein Webinar zu einem Blogbeitrag machen, ein Interview zitieren, eine Vorlesung studieren –, brauchen Sie ein Transkript und sollten das Video im Transkriptmodus durchlaufen lassen. Wenn Sie Untertitel wollen, die über dem Video angezeigt werden, brauchen Sie Untertitel und nutzen stattdessen einen Untertitel-Workflow. Der Rest dieser Anleitung dreht sich um den Transkript-Weg, denn das ist fast immer gemeint, wenn von „Video in Text umwandeln" die Rede ist.
Eine weitere Unterscheidung, die man klar haben sollte: Transkription ist nicht Übersetzung. Transkribieren wandelt die gesprochenen Worte in einem Video in Text um – in derselben Sprache, in der sie gesprochen wurden. Übersetzen überträgt diesen Text in eine andere Sprache. Das sind getrennte Schritte – Sie können ein japanisches Video in japanischen Text transkribieren und dieses anschließend, falls nötig, in einem zweiten Durchgang ins Deutsche übersetzen. Gehen Sie nicht davon aus, dass „transkribieren" deutschen Text liefert, wenn die sprechende Person kein Deutsch gesprochen hat.
Wie wandelt man ein Video Schritt für Schritt in Text um?
Hier der Ablauf von Anfang bis Ende. In Subanana sieht er so aus, und bei den meisten KI-Transkriptionswerkzeugen ist die Struktur ähnlich:
| Schritt | Was Sie tun | Was Sie erhalten |
|---|---|---|
| 1. Importieren | Datei hochladen oder öffentlichen Video-Link einfügen | Das Video in der Warteschlange zur Transkription |
| 2. Transkribieren | Transkriptmodus + gesprochene Sprache wählen | Ein Transkriptentwurf mit Sprechern und Satzzeichen |
| 3. Bearbeiten | Korrekturlesen, Namen korrigieren, Sprecher benennen | Ein sauberes, korrektes Transkript |
| 4. Exportieren | Textformat auswählen | Eine nutzbare Datei (DOCX / TXT / XLSX …) |
Schritt 1 – Das Video importieren
Sie haben zwei Wege hinein:
- Eine Datei hochladen. Ziehen Sie eine .mp4, .mov, .webm oder .ogg hinein. In einem kostenpflichtigen Tarif dürfen Dateien bis zu 15 GB oder 3 Stunden groß sein, was die meisten langen Aufnahmen abdeckt – eine ganze Vorlesung, ein Webinar, ein zweistündiges Interview.
- Einen öffentlichen Link einfügen. Statt erst herunterzuladen, können Sie eine öffentliche YouTube-, Instagram- oder Facebook-URL einfügen, und das Werkzeug holt das Video und transkribiert es für Sie. Das funktioniert sowohl für gewöhnliche Videos als auch für Kurzformate (YouTube Shorts, IG Reels, FB Reels). Ist der Inhalt privat, altersbeschränkt, nur für Mitglieder sichtbar oder anderweitig hinter einer Anmeldung, kann der Link-Import scheitern – laden Sie die Datei in dem Fall herunter und laden Sie sie stattdessen hoch.
Dieser URL-Import ist wirklich praktisch, wenn das Video bereits auf einer Plattform liegt: Siehe das KI-Tool „Video in Text" für den link-basierten Ablauf.
Schritt 2 – Transkriptmodus und gesprochene Sprache wählen
Dieser Schritt entscheidet, ob Sie lesbaren Text bekommen oder eine Wand aus Untertitelfragmenten. Subanana hat einen Untertitelmodus, einen Transkriptmodus und einen Besprechungsmodus. Für ein lesbares Transkript wählen Sie den Transkriptmodus – er setzt Satzzeichen, gliedert den Text sinngemäß in Absätze und glättet die Prosa. (Der Untertitelmodus würde Ihnen stattdessen kurze, satzzeichenlose, getaktete Zeilen liefern.)
Stellen Sie dann ein:
- Ausgangssprache – die tatsächlich im Video gesprochene Sprache. Subanana deckt über 80 Sprachen ab, sodass die meisten Aufnahmen abgedeckt sind, und wählt das leistungsstärkste Sprachmodell für genau diese Sprache, statt sich auf einen einzigen Anbieter festzulegen.
- Anzahl der Sprecher – auf automatische Erkennung stellen oder die Anzahl eingeben, falls Sie sie bereits kennen. Das steuert die Sprecherzuordnung (Diarisierung).
- Automatische Satzzeichen und Absätze – für ein Transkript-Ergebnis einschalten. Das ist die Funktion, die das Resultat überhaupt erst lesbar macht.
Schritt 3 – Bearbeiten und korrekturlesen
Wenn die Transkription fertig ist, landen Sie im Editor mit einem Entwurf, in dem die Sprecher bereits getrennt, Füllwörter („ähm", „weißt du") entfernt und Satzzeichen gesetzt sind. Jetzt kommt der menschliche Durchgang:
- Sprecher benennen. Benennen Sie Sprecher 1 in „Moderator", Sprecher 2 in „Gast" um, und das ganze Transkript aktualisiert sich synchron – praktisch für späteres Zitieren.
- Verhörte Wörter korrigieren. Klicken Sie auf ein beliebiges Wort und bearbeiten Sie es. Für die Wörter, die jedem Sprachmodell am ehesten Probleme bereiten – Personennamen, Markennamen, Fachjargon –, legen Sie vorab ein Glossar an (eine arbeitsbereichsweite Liste oder eine projektbezogene, mit Sammelimport aus XLSX/CSV), und das System bevorzugt Ihre Schreibweisen schon während des Transkribierens.
- Mit dem Transkript chatten. Im Editor können Sie der KI Fragen zum Inhalt stellen – „Wo sprechen sie über Preise?" oder „Fasse die zweite Hälfte zusammen" –, was bei einem langen Video Zeit spart.
Ein Wort zu den Erwartungen: KI-Transkription erledigt den allergrößten Teil der Arbeit, aber sie macht den abschließenden Korrekturdurchgang nicht überflüssig. Bevor Sie jemanden zitieren oder den Text veröffentlichen, prüfen Sie Namen, Eigennamen und wichtige Zahlen selbst. Hohe Genauigkeit ist nicht dasselbe wie null Fehler.
Schritt 4 – Den Text exportieren
Wählen Sie das Format, das zu Ihrem nächsten Schritt passt:
- DOCX – eine Word-Datei, fertig zum Bearbeiten, Formatieren und Weitergeben.
- TXT – reiner Text zum Einfügen in Obsidian, Notion oder ein beliebiges Notizwerkzeug.
- XLSX – eine Tabelle, die Zeitstempel, Sprecher und Text als Spalten anlegt, ideal zum Codieren von Interviews oder zum Aufbau durchsuchbarer Archive.
- VTT / SRT / Markdown – ebenfalls verfügbar, falls Sie sie brauchen.
Das ist der komplette Ablauf. Zu den Modell- und Genauigkeitsdetails dahinter siehe wie Subananas Transkription funktioniert oder die eigene Seite zum Video-Transkriptionstool.
Was ist mit Genauigkeit, Akzenten und anderen Sprachen?
Genau hier sind Allzweck-Werkzeuge meist am schwächsten, daher lohnt es sich zu wissen, worauf man achten sollte:
- Genauigkeit je Sprache. Die Genauigkeit schwankt stark – je nach Sprache und je nachdem, wie sauber der Ton ist. Subanana vergleicht laufend die verfügbaren Spracherkennungsmodelle und leitet jede Transkription an das für die jeweilige Ausgangssprache beste Modell weiter, statt für alles ein einziges zu verwenden. Fällt eine Transkription schlecht aus, lässt das System die betroffenen Stellen automatisch über ein anderes Modell neu laufen – und dieser erneute Durchlauf kostet Sie keine zusätzlichen Minuten.
- Akzentbehafteter oder verrauschter Ton. Kein Werkzeug ist gegen eine schlechte Aufnahme gefeit. Je sauberer der Ton hinein, desto sauberer der Text heraus – ein ordentliches Mikrofon und wenig Hintergrundgeräusch bringen für die Genauigkeit mehr als jede Einstellung.
- Mehrere Sprecher. Die Sprecherzuordnung trennt Stimmen automatisch, aber das ist ein Bestmöglich-Schritt; in einer hitzigen Diskussion mit mehreren Personen, die durcheinanderreden, rechnen Sie damit, einige Zuordnungen im Editor von Hand zu korrigieren.
Wenn Ihr Video eine aufgezeichnete Besprechung statt eines einzelnen Vortrags ist, ergänzt Subananas KI-Besprechungstranskription eine strukturierte Zusammenfassung obendrauf – Entscheidungen, Aufgaben, Verantwortliche –, was man von einer Besprechungsaufnahme oft eigentlich will.
Wann sollten Sie eine SRT-Untertiteldatei statt eines Transkripts nutzen?
Greifen Sie zu Untertiteln (SRT/VTT) statt zu einem Transkript, wenn der Text auf dem Video erscheinen soll, statt für sich gelesen zu werden:
- Sie veröffentlichen das Video auf YouTube oder einer Kursplattform und wollen Untertitel, die Zuschauer einschalten können.
- Sie posten Kurzclips in sozialen Netzwerken und wollen eingeblendete Untertitel fürs Schauen ohne Ton.
- Sie brauchen getaktete, synchrone Zeilen, die ein Videoplayer anzeigen kann, keine Absätze.
In diesen Fällen nutzen Sie den Untertitel-Workflow, der zeitlich ausgerichtete SRT- oder VTT-Dateien ausgibt. Und wenn die Untertitel in einer anderen Sprache als die Sprache vorliegen sollen, ist das Transkription plus Übersetzung – den Ton transkribieren und dann eine Übersetzungs-Zielsprache hinzufügen. (Beachten Sie, dass die Echtzeit-Untertitelung im Moment des Geschehens bei einer Live-Veranstaltung wiederum eine eigene Funktion ist – siehe KI-Echtzeit-Transkription – und nicht zum Transkribieren einer bestehenden Videodatei gehört.)
Die einfachste Regel: Wenn ein Mensch den Text lesen wird, erstellen Sie ein Transkript; wenn ein Videoplayer den Text anzeigen wird, erstellen Sie Untertitel.
Häufig gestellte Fragen
Ist das Transkribieren eines Videos dasselbe wie das Hinzufügen von Untertiteln? Nein. Transkribieren erzeugt lesbaren Text (ein Transkript), den Sie als Dokument exportieren; Untertitel hinzufügen erzeugt getaktete Untertitelzeilen (SRT/VTT), die über dem Video angezeigt werden. Gleiche Quelle, unterschiedliche Ergebnisse – entscheiden Sie vor dem Start, was Sie brauchen. Die Vergleichstabelle weiter oben in dieser Anleitung führt die Unterschiede auf.
Kann die kostenlose Stufe ein ganzes Video transkribieren und mich den Text herunterladen lassen? Sie können ein Video durchlaufen lassen und das Ergebnis in der Vorschau ansehen, aber der Export ist ein kostenpflichtiger Schritt. Die kostenlose Stufe unterstützt keine Transkript- oder Untertiteldatei-Downloads, und Sie können den Text im Editor auch nicht markieren und kopieren – ihr einziges Ergebnis ist ein mit Wasserzeichen versehenes Video, nur die ersten 5 Minuten, in 720p, mit einer Grenze von 3 GB pro Datei. Um nutzbare Textdateien (DOCX / TXT / XLSX) zu exportieren, brauchen Sie einen kostenpflichtigen Tarif, der zugleich die Grenze auf 15 GB / 3 Stunden pro Datei anhebt. Die Details finden Sie auf der Preisseite.
Welche Videoformate und -längen werden unterstützt? Sie können .mp4-, .mov-, .webm- und .ogg-Dateien hochladen oder einen öffentlichen YouTube-/Instagram-/Facebook-Link einfügen. In einem kostenpflichtigen Tarif liegt die Obergrenze bei 15 GB oder 3 Stunden pro Datei, was die meisten langen Aufnahmen abdeckt. Private oder zugriffsbeschränkte Links lassen sich womöglich nicht importieren – nutzen Sie dafür den Datei-Upload.
Transkribiert es ein Video in einer anderen Sprache als Deutsch? Ja. Subanana unterstützt über 80 Sprachen und transkribiert in der tatsächlich gesprochenen Sprache. Wenn Sie den Text zusätzlich in einer anderen Sprache brauchen, ist das ein separater Übersetzungsschritt – der Transkriptmodus unterstützt eine einzelne Übersetzungs-Zielsprache neben dem Original. Werkzeuge wie das KI-Transkriptionstool und das KI-Tool „Sprache zu Text" setzen auf derselben mehrsprachigen Engine auf.
Wie genau ist KI-Videotranskription? Die Genauigkeit hängt stark von Sprache und Tonqualität ab, und sie ist hoch genug, dass der Großteil der Arbeit für Sie erledigt ist – aber sie ist nicht perfekt. Machen Sie immer einen Korrekturdurchgang bei Namen, Eigennamen und Zahlen, bevor Sie sich auf den Text verlassen oder ihn veröffentlichen. Eine strukturierte Anleitung zu den Bearbeitungsschritten finden Sie unter wie man ein Interview transkribiert.
Kann ich eine aufgezeichnete Besprechung transkribieren und auch eine Zusammenfassung bekommen? Ja – das ist der Besprechungsmodus statt des einfachen Transkriptmodus. Er erzeugt das Transkript plus eine strukturierte Zusammenfassung von Entscheidungen und Aufgaben. Wie das von Anfang bis Ende funktioniert, zeigt die Anleitung zur Google-Meet-Transkription.