Sprechererkennung im Transkript erklärt – wie KI Sprecher zuordnet

Sprechererkennung – fachlich Sprecher-Diarisierung – ist der Vorgang, der die Frage „Wer hat wann gesprochen?“ in einer Audioaufnahme beantwortet. Wenn Sie ein Interview oder ein Meeting transkribieren, ist die Diarisierung die Ebene, die den fortlaufenden Text in Wortmeldungen aufteilt und jede einzelne markiert – Sprecher 1, Sprecher 2, Sprecher 3 –, sodass sich das Transkript wie ein Gespräch liest und nicht wie eine undifferenzierte Textwand. Sie verwandelt ein rohes Diktat in einen brauchbaren Mitschnitt einer Diskussion.

Dieser Leitfaden erklärt, was Diarisierung genau ist, wie eine KI die Labels im Hintergrund vergibt, warum sie für Interviews, Meetings und Forschung entscheidend ist und mit welchen praktischen Schritten die Labels präziser werden. Jede technische Aussage unten verweist auf eine aktuelle Dokumentationsseite eines Transkriptionsdienstes, sodass Sie die Quelle selbst prüfen können.

Was ist Sprecher-Diarisierung?

Sprecher-Diarisierung ist die Aufgabe, einen Audiostrom nach Sprecheridentität aufzuteilen. Das Transkriptionssystem muss nicht wissen, wer die Personen namentlich sind – es ermittelt nur, wie viele unterschiedliche Stimmen vorhanden sind und welche Sprachabschnitte zu welcher gehören. Googles Cloud Speech-to-Text beschreibt das Ergebnis ganz nüchtern: Das Transkriptionsergebnis markiert jedes Wort mit einer Nummer, die einem einzelnen Sprecher zugeordnet ist; Wörter desselben Sprechers tragen dieselbe Nummer. (Dokumentation zu Google Cloud Speech-to-Text)

Ein paar Begriffe lohnt es sich auseinanderzuhalten, weil sie oft vermengt werden:

Transkription wandelt gesprochene Sprache in Wörter um.
Diarisierung gruppiert diese Wörter nach Sprecher und vergibt anonyme Labels (Sprecher 1, Sprecher 2 …).
Sprecheridentifikation (oder Sprechererkennung im engeren Sinn) geht einen Schritt weiter und verknüpft eine Stimme mit einer bekannten Identität – das erfordert in der Regel vorab eine Sprachprobe oder einen Referenzausschnitt, und die meisten Transkriptions-Workflows verzichten darauf.

„Sprecherlabels im Transkript“ ist also Diarisierung, nicht Identifikation. Die Labels sind Platzhalter, die Sie selbst umbenennen, sobald Sie wissen, wer wer ist.

Davon zu unterscheiden ist außerdem die Kanaltrennung. Wurde jede Person auf einer eigenen Tonspur aufgenommen – etwa ein Podcast, bei dem jeder Gast ein eigenes Mikrofon hat, oder eine Callcenter-Aufnahme mit dem Agenten auf einem Kanal und der Kundin auf einem anderen –, brauchen Sie überhaupt keine Diarisierung. AWS nennt das Kanalidentifikation und behandelt es als eigenständigen Ansatz, getrennt von der Aufteilung nach Sprechern. (Dokumentation zu AWS Transcribe) Die Diarisierung ist der schwierigere und häufigere Fall: mehrere Personen auf einer einzigen gemischten Tonspur.

Wie vergibt die KI die Sprecherlabels?

Die Diarisierung ist nicht dasselbe Modell wie jenes, das die Wörter schreibt. Sie läuft als eigene Ebene neben der Transkription und erledigt im Kern vier Dinge:

Sprachaktivitätserkennung – die Passagen finden, die Sprache enthalten, und Stille und Geräusche verwerfen.
Segmentierung – die Sprache in kurze, gleichförmige Abschnitte schneiden und dort trennen, wo sich die Stimmcharakteristik ändert (ein wahrscheinlicher Sprecherwechsel).
Embedding – jeden Abschnitt in einen numerischen Stimm-Fingerabdruck umwandeln, der Tonhöhe, Klangfarbe und andere akustische Merkmale erfasst, unabhängig von den tatsächlich gesprochenen Wörtern.
Clustering – Abschnitte mit ähnlichem Fingerabdruck zusammenfassen. Jedes Cluster wird zu einem Sprecherlabel.

Die Labels werden anschließend wieder an das Transkript angehängt. AWS Transcribe etwa kann maximal 30 unterschiedliche Sprecher unterscheiden und versieht jeden mit einem Wert wie spk_0 bis spk_9; zurückgegeben wird ein eigener Abschnitt speaker_labels mit der Start- und Endzeit jeder Wortmeldung. (Dokumentation zu AWS Transcribe) Googles Ausgabe funktioniert auf Wortebene genauso: An jedes Wort wird eine speakerLabel-Nummer angehängt, und ein Ergebnis kann so viele Sprecher umfassen, wie Cloud Speech-to-Text in der Audioprobe eindeutig erkennen kann. (Dokumentation zu Google Cloud)

Ein wichtiger Punkt: Die Diarisierung ist nicht bei allen Sprachmodellen verfügbar. Die Dokumentation von OpenAI weist darauf hin, dass die Basis-Transkriptionsmodelle die Sprecherzuordnung nicht von Haus aus unterstützen und die Diarisierung von einem eigenen, diarisierungsfähigen Modell übernommen wird, das sprecherbewusste Transkripte erzeugt. (OpenAI Speech-to-Text-Leitfaden) Mit anderen Worten: Das Modell, das die besten Wörter schreibt, zieht nicht automatisch auch die besten Sprechergrenzen – genau deshalb ist ein Transkriptionsprodukt im Vorteil, das mehrere Modelle vergleicht und gezielt auswählt. Das ist der Ansatz hinter Subananas KI-Transkriptionstool: Das System vergleicht Sprachmodelle laufend und wählt für die Ausgangssprache und die Aufgabe das jeweils beste Modell, statt sich an einen einzigen Anbieter zu binden.

Warum sind Sprecherlabels wichtig?

Ohne Diarisierung wird eine Aufnahme mit mehreren Personen zu einem einzigen Textblock, in dem sich Frage und Antwort nicht mehr auseinanderhalten lassen. Erst die Labels machen das Transkript navigierbar und zitierfähig. Drei Situationen, in denen das den Ausschlag gibt:

Interviews und Journalismus. Die Zuordnung ist der ganze Sinn der Sache. Sie müssen genau wissen, welchen Satz die Quelle gesagt hat und was die interviewende Person vorgegeben hat – und das mit Zeitstempel, damit Sie ein Zitat vor der Veröffentlichung gegen die Tonaufnahme prüfen können.
Meetings und Protokolle. „Wer hat was zugesagt“ funktioniert nur, wenn die Aufgaben an eine Person gebunden sind. Ein diarisiertes Transkript lässt Sie ein Meeting nach Sprecher durchgehen und die Entscheidungen und To-dos jeder beteiligten Person herausziehen.
Qualitative Forschung und UX-Studien. Wer Fokusgruppen oder Nutzerinterviews auswertet, analysiert die Antworten pro Teilnehmer. Die Wortmeldungen sind die Analyseeinheit – ohne sie lässt sich die Rahmung der Moderation nicht von der Reaktion der Teilnehmenden trennen.
Rechts-, Medizin- und Compliance-Unterlagen. Ein Arzt-Patienten-Gespräch oder eine Zeugenaussage ist nur dann als Aufzeichnung brauchbar, wenn jede Äußerung korrekt zugeordnet ist.

In all diesen Fällen entscheidet die Qualität der Diarisierung darüber, wie viel manuelle Nacharbeit anfällt. Gute Labels sparen Stunden; schlechte Labels bedeuten, die Aufnahme erneut anzuhören, um falsch zugeordnete Wortmeldungen zu korrigieren. Deshalb ist die Diarisierung ein zentraler Bestandteil von Subananas Transkript-Modus, der ein sauberes, gut lesbares Transkript mit Sprechererkennung, automatischer Entfernung von Füllwörtern sowie automatischer Zeichensetzung und Absatzgliederung für den Ausgangstext erzeugt.

Was beeinflusst die Genauigkeit der Diarisierung?

Die Diarisierung ist schwieriger als die Transkription und verliert unter bestimmten Bedingungen an Qualität. Die wichtigsten Faktoren:

Faktor	Auswirkung auf die Sprecherlabels	Was hilft
Überlappende Sprache	Wenn Personen durcheinanderreden, verschwimmen die Stimm-Fingerabdrücke	Nacheinander sprechen lassen; bei Übersprechen mit etwas Handarbeit rechnen
Audioqualität	Hintergrundgeräusche und niedrige Bitrate trüben die akustischen Merkmale	Nah am Mikrofon aufnehmen; Umgebungsgeräusche reduzieren
Ähnliche Stimmen	Zwei Sprecher mit ähnlicher Tonhöhe/Klangfarbe können zu einem Label verschmelzen	Mehr Audiomaterial pro Sprecher hilft dem Modell bei der Trennung
Sehr kurze Wortmeldungen	Einsilbige Einwürfe geben dem Modell kaum Material für einen Fingerabdruck	Unvermeidbar; im Editor nachbessern
Unbekannte Sprecherzahl	Das Modell muss raten, wie viele Cluster es bilden soll	Geben Sie die Sprecherzahl an, wenn Sie sie kennen

Der letzte Punkt ist der wirkungsvollste Tipp überhaupt. Die meisten Systeme akzeptieren einen Hinweis auf die Sprecherzahl, und ein solcher Hinweis begrenzt den Clustering-Schritt, sodass er nicht zu fein oder zu grob aufteilt. Bei Google Speech-to-Text müssen Sie die Werte min_speaker_count und max_speaker_count entsprechend der erwarteten Sprecherzahl setzen, und bei AWS können Sie beim Start eines Auftrags einen Wert MaxSpeakerLabels übergeben. (Dokumentation zu Google Cloud · Dokumentation zu AWS Transcribe)

So erhalten Sie präzise Sprecherlabels in Subanana

Der Transkript-Modus von Subanana führt die Diarisierung automatisch aus und gibt Ihnen Kontrolle über die Eingaben, auf die es am meisten ankommt. Der Ablauf:

Schritt	Aktion
1. Hochladen	Audio- oder Videodatei hinzufügen oder eine öffentliche YouTube-, Instagram- oder Facebook-URL einfügen, um sie ohne lokalen Download zu importieren
2. Ausgangssprache festlegen	Die in der Aufnahme gesprochene Sprache wählen, damit das System zum dafür am besten getesteten Modell leitet
3. Sprecherzahl festlegen	Automatische Erkennung wählen oder die Sprecherzahl manuell angeben, falls Sie sie bereits kennen – der manuelle Hinweis liefert meist eine sauberere Trennung
4. Transkribieren	Subanana setzt mehrere Qualitätsebenen ein: das pro Sprache am besten getestete Modell, Halluzinationserkennung mit automatischem Modellwechsel und CPS-Markierungen im Editor
5. Umbenennen und bearbeiten	„Sprecher 1 / Sprecher 2“ im Editor durch echte Namen ersetzen, falsch zugeordnete Wortmeldungen korrigieren und automatische Zeichensetzung und Absatzgliederung anwenden
6. Exportieren	Als TXT, DOCX, XLSX, SRT, VTT oder Markdown herunterladen

Ein paar Dinge sind beim Arbeiten gut zu wissen:

Sie können im Editor direkt Fragen zum Transkript stellen – etwa „Fasse zusammen, was Sprecher 2 vorgeschlagen hat“ – über den integrierten KI-Chat, der auf Ihrem Meeting basiert.
Der KI-gestützte Korrekturdurchlauf markiert wahrscheinlich falsch gehörte Wörter und gleichklingende falsche Schreibweisen zur Bestätigung, sodass der Text, den Sie prüfen, bereits bereinigt ist.

Finden Ihre Meetings in Google Meet oder Microsoft Teams statt, kann der kalendergesteuerte Meeting-Bot sie nach dem Gespräch aufzeichnen und transkribieren und anschließend dieselbe Diarisierungs- und Zusammenfassungspipeline auf die Aufnahme anwenden.

Die Diarisierung gehört zu den Funktionen, die einem erst auffallen, wenn sie nicht stimmen. Das praktische Rezept ist einfach: dem System das sauberste verfügbare Audio geben, ihm die erwartete Sprecherzahl nennen und ein Werkzeug nutzen, das zum stärksten Modell für Ihre Sprache leitet, statt an einen einzigen Anbieter gebunden zu sein. Sie können kostenlos mit dem Transkribieren beginnen und sich die Sprecherlabels an Ihrem eigenen Audio ansehen oder die Tarife auf der Preisseite vergleichen.

Häufig gestellte Fragen

Ist Sprecher-Diarisierung dasselbe wie Sprecheridentifikation? Nein. Die Diarisierung trennt Stimmen und vergibt anonyme Labels (Sprecher 1, Sprecher 2). Die Identifikation verknüpft eine Stimme mit einem bekannten Namen und benötigt dafür meist eine Referenzprobe. Die meisten Transkriptions-Workflows nutzen die Diarisierung und lassen Sie die Labels manuell umbenennen.

Brauche ich für jede Person ein eigenes Mikrofon? Nein – die Diarisierung funktioniert auf einer einzigen gemischten Tonspur, was der Regelfall ist. Wenn Sie doch eine Spur pro Person haben (getrennte Kanäle), handelt es sich um Kanaltrennung, einen anderen und einfacheren Ansatz, wie AWS in seiner Dokumentation festhält. (Dokumentation zu AWS Transcribe)

Warum hat das Transkript zwei Personen zu einem Sprecher zusammengefasst? Meist, weil ihre Stimmen akustisch ähnlich sind, das Audio verrauscht war oder dem System nicht mitgeteilt wurde, wie viele Sprecher zu erwarten sind. Eine angegebene Sprecherzahl und saubereres Audio sind die beiden wirksamsten Abhilfen.

Unterstützt jedes Speech-to-Text-Modell Sprecherlabels? Nein. Manche Basis-Transkriptionsmodelle diarisieren nicht von Haus aus und benötigen ein eigenes, diarisierungsfähiges Modell, wie die Dokumentation von OpenAI zeigt. (OpenAI Speech-to-Text-Leitfaden) Ein Werkzeug, das mehrere Modelle vergleicht und gezielt auswählt, umgeht diese Einschränkung auf ein einzelnes Modell.