Zoom-Meeting transkribieren: vom Mitschnitt zum sauberen Transkript und KI-Zusammenfassung
Um ein Zoom-Meeting zu transkribieren, hast du zwei Wege: Du schaltest Zooms eigene Audiotranskription ein (die einen Bezahltarif mit Cloud-Aufzeichnung voraussetzt und das Transkript als VTT-Datei speichert), oder du zeichnest den Call auf und lädst diese Datei in ein spezialisiertes Transkriptionstool hoch, um ein sauberes Transkript mit Sprecherzuordnung und strukturierter KI-Zusammenfassung zu erhalten. Im Folgenden gehe ich beide Wege durch, zeige, wo Zooms Grenzen liegen, und beschreibe die genauen Schritte für den zweiten Weg. Volle Transparenz: Ich betreibe Subanana und nutze es deshalb für die Upload-Anleitung.

Kann Zoom ein Meeting von sich aus transkribieren?
Ja — aber das brauchbare Transkript ist eine kostenpflichtige Funktion, nicht die kostenlosen Live-Untertitel. Es gibt drei verschiedene Zoom-Funktionen rund um Sprache-zu-Text, die häufig verwechselt werden:
- Live-Untertitel zeigen die Worte während des Calls auf dem Bildschirm. Im Moment nützlich, aber laut einer Zoom-Support-FAQ vom Mai 2026 können Teilnehmende diese Untertitel nach einem Rollout in diesem Monat nicht mehr als Datei für die Zeit nach dem Meeting speichern oder herunterladen — als Aufzeichnung taugen die Untertitel also nicht mehr.
- Die Audiotranskription der Cloud-Aufzeichnung ist das eigentliche Transkript. Laut Zooms Dokumentation transkribiert Zoom ein Meeting automatisch, wenn du es in der Cloud aufzeichnest, und speichert das Ergebnis als durchsuchbare, bearbeitbare VTT-Datei. Das setzt ein kostenpflichtiges Konto (Pro, Business, Education oder Enterprise) mit aktivierter Cloud-Aufzeichnung voraus — ein kostenloses Basic-Konto hat beides nicht.
- Die AI-Companion-Meetingzusammenfassung macht aus dem Gespräch eine Zusammenfassung. Laut Zooms Support-Dokumentation kann ein lizenzierter Nutzer in einem kostenpflichtigen Zoom-Workplace-Tarif den AI Companion eine Zusammenfassung erstellen lassen; der Host muss sie starten (sie ist nicht standardmäßig aktiv), und die Zusammenfassung landet in der E-Mail, im Zoom Team Chat und im Zoom Hub.
Wenn du also bereits für Zoom zahlst, deine Calls in der Cloud aufzeichnest und deine Meetings überwiegend einsprachig sind, liefert dir Zoom ein brauchbares Transkript samt Zusammenfassung ohne jedes Zusatztool. Die Reibung zeigt sich an den Rändern.
Wo liegen die Grenzen der eingebauten Zoom-Transkription?
Ein paar Punkte bringen Nutzer regelmäßig ins Stolpern:
- Sie steckt hinter zwei Bezahlschranken. Das Transkript braucht einen kostenpflichtigen Tarif samt eingeschalteter Cloud-Aufzeichnung; die Zusammenfassung braucht den AI Companion auf einer Zoom-Workplace-Stufe. Der kostenlose Tarif liefert dir keines von beiden — und die Live-Untertitel, die du sehen kannst, lassen sich nicht mehr speichern.
- Englisch ist die Standardsprache. Zooms Cloud-Aufzeichnungstranskript ist standardmäßig auf Englisch und unterstützt weniger Transkriptionssprachen, als man erwarten würde (Zoom nennt 18+). Die übersetzten Live-Untertitel decken laut Zooms Funktionsseite 33 Sprachen ab, aber das ist die Live-Untertitel-Funktion, nicht das gespeicherte Transkript.
- Sie geht von einer Sprache pro Meeting aus. Das Transkript entsteht in einer einzigen konfigurierten Sprache. Wenn dein Call die Sprachen mischt — ein internationales Team, das mitten im Gespräch zwischen Englisch und einer anderen Sprache wechselt — kommt ein einsprachiges Transkript damit schlecht zurecht.
- Das Ergebnis ist eine VTT-Untertiteldatei. Für Untertitel ist das in Ordnung, doch eine rohe VTT-Datei mit Zeitstempeln im Sekundentakt ist kein sauberes, in Absätze gegliedertes Transkript, das du in ein Protokoll einfügen würdest. Die letzte Meile der Nachbearbeitung bleibt an dir hängen.
Fairerweise: Wenn deine Organisation ohnehin für Zoom Workplace mit AI Companion zahlt, alles in der Cloud aufzeichnet und einsprachige Calls führt, ist der native Weg der Weg des geringsten Widerstands, und du brauchst wahrscheinlich nichts weiter.
Wie transkribierst du eine Zoom-Aufzeichnung mit Subanana?
Subanana tritt deinem Zoom-Call nicht bei — es gibt bewusst keinen Zoom-Bot. Stattdessen zeichnest du das Meeting in Zoom auf (Cloud- wie auch lokale Aufzeichnung erzeugen eine Datei) und lädst diese Audio- oder Videodatei dann in die Meeting-Transkription von Subanana hoch. Aus der Aufzeichnung erstellt Subanana ein sauberes Transkript mit Sprecherzuordnung und automatischer Zeichensetzung und gliedert es anschließend in eine strukturierte KI-Zusammenfassung — Kernpunkte, Entscheidungen, Aufgaben.
Was dir das gegenüber der rohen VTT-Datei bringt:
- Sprecherzuordnung und lesbare Formatierung. Die Diarisierung trennt, wer was gesagt hat, und der Transkriptmodus ergänzt Zeichensetzung und Absatzumbrüche, sodass das Ergebnis sich wie ein Protokoll liest und nicht wie eine Untertitelspur.
- Eine Zusammenfassung, die du steuern kannst. Du wählst aus einem gestuften Menü, welches große Sprachmodell die Zusammenfassung schreibt, und kannst eine eingebaute Vorlage anwenden (Meeting, Interview und weitere), damit die Struktur dazu passt, wie dein Team Entscheidungen festhält.
- Mehrsprachigkeit. Subanana transkribiert und übersetzt über mehr als 80 Sprachen hinweg, sodass ein gemischtsprachiger Zoom-Call oder ein nicht-englisches Meeting kein Fall zweiter Klasse ist.
- Echte Exportoptionen. Exportiere Transkript und Zusammenfassung als SRT, VTT, TXT, DOCX, XLSX oder Markdown — nicht nur als Untertiteldatei. (Der Export ist eine kostenpflichtige Funktion.)
- Stelle dem Transkript Fragen. Der KI-Chat in der App lässt dich das Meeting abfragen — „Was haben wir zum Budget entschieden?“, „Wer übernimmt die Nachverfolgung?“ — fundiert auf dem, was tatsächlich gesagt wurde.
Im Hintergrund vergleicht Subanana mehrere Sprache-zu-Text-Modelle und leitet jede Aufzeichnung an das für diese Sprache beste Modell weiter, mit automatischem Rückgriff auf ein anderes Modell, falls eines ein schlechtes Segment liefert — und diese internen Wiederholungen werden dir nicht zusätzlich berechnet.
Zoom nativ vs. Aufzeichnung in Subanana
| Was du brauchst | Zooms eingebaute Transkription | Aufzeichnen, dann in Subanana hochladen |
|---|---|---|
| Überhaupt ein Transkript | Bezahltarif + Cloud-Aufzeichnung an | Funktioniert mit jeder Zoom-Aufzeichnung (Cloud oder lokal) |
| Live-Untertitel speichern | Nach der Änderung im Mai 2026 nicht mehr speicherbar | Nicht relevant — du transkribierst die Aufzeichnung |
| Sprecherzuordnung | Ja, im Cloud-Aufzeichnungstranskript | Ja, per Diarisierung |
| Saubere Absätze vs. Untertiteldatei | VTT-Untertiteldatei mit Zeitstempeln | Transkript mit Zeichensetzung und Absätzen |
| KI-Zusammenfassung | AI Companion (separat, Host muss sie starten) | Eingebaut; Modell + Vorlage wählbar |
| Mehrsprachige / gemischtsprachige Calls | Eine konfigurierte Sprache; 18+ unterstützt | 80+ Sprachen, transkribieren + übersetzen |
| Exportformate | VTT | SRT, VTT, TXT, DOCX, XLSX, Markdown |
Zoom gewinnt bei der Bequemlichkeit, wenn du ohnehin in seinem Bezahl-Ökosystem steckst — nichts hochzuladen, das Transkript ist einfach da. Subanana gewinnt, wenn die Aufzeichnung der Ausgangspunkt ist und am Ende ein brauchbarer, mehrsprachiger Mitschrieb herauskommen soll.
Die konkreten Schritte
- Zeichne das Meeting in Zoom auf — sowohl die Cloud-Aufzeichnung (kostenpflichtig) als auch eine lokale Aufzeichnung speichern eine Datei, die du danach verwenden kannst.
- Sobald das Meeting endet und Zoom die Verarbeitung abgeschlossen hat, lade die Aufzeichnung (Audio oder Video) auf deinen Computer herunter.
- Öffne Subanana, starte eine Meeting-Transkription und lade die Datei hoch. Lege die Ausgangssprache fest; ergänze ein Übersetzungsziel, falls dein Meeting eines braucht.
- Lass es verarbeiten und prüfe dann: Sprecherzuordnung und Zeichensetzung werden automatisch angewendet, und die KI-Zusammenfassung filtert Entscheidungen und Aufgaben heraus. Wähle ein anderes Modell oder eine andere Vorlage, wenn du eine andere Perspektive willst.
- Korrekturlesen, dann Transkript und Zusammenfassung im benötigten Format exportieren (der Export ist eine kostenpflichtige Funktion).
Wann reicht Zooms eigenes Transkript?
Wenn Transkription und Cloud-Aufzeichnung in deiner Organisation bereits durchgängig aktiv sind, du für den AI Companion zur Erstellung von Zusammenfassungen zahlst und deine Meetings überwiegend einsprachig sind — bleib bei Zoom; das ist die geringste Reibung. Doch sobald auch nur einer dieser Punkte zutrifft — du zahlst nicht für die Stufen, die das Transkript oder die Zusammenfassung freischalten, deine Meetings umfassen mehr als eine Sprache, oder du willst einen sauberen, in Absätze gegliederten Mitschrieb mit steuerbaren Zusammenfassungen statt einer VTT-Untertiteldatei — ist es meist der sauberere Weg, den Call aufzuzeichnen und durch die KI-Meeting-Transkription von Subanana laufen zu lassen. Die Tarife siehst du auf der Preisseite.
Ein Meeting-Mitschrieb sind eigentlich zwei Probleme: Kann das Tool die Worte erfassen, und kannst du mit dem Ergebnis tatsächlich etwas anfangen? Zoom erfasst die Worte gut, sobald du in einem Bezahltarif bist. Das zweite Problem — daraus einen sauberen, mehrsprachigen, strukturierten Mitschrieb zu machen, den du weitergeben kannst — ist genau dort, wo die Aufzeichnung in einem spezialisierten Transkriptionstool ihren Platz verdient.