Whisper Transkription: Audio mit OpenAI Whisper transkribieren (und wann ein verwaltetes Tool gewinnt)

2026-06-03
KKevin Wong

Um Audio mit OpenAI Whisper zu transkribieren, installieren Sie es mit pip install -U openai-whisper, stellen Sie sicher, dass ffmpeg auf Ihrem System vorhanden ist, und führen Sie dann whisper audio.mp3 --model turbo aus – Whisper schreibt ein Transkript samt Untertiteldateien heraus. Es ist ein universelles Spracherkennungsmodell, das viele Sprachen beherrscht und bei sauberem Audio gute Ergebnisse liefert; und weil es als Open Source unter der MIT-Lizenz steht, betreiben Sie es kostenlos auf Ihrem eigenen Rechner.

Was es nicht erledigt, ist die Feinarbeit rund um das Transkript: Von Haus aus benennt es nicht, wer gesprochen hat, es bereinigt gesprochene Füllwörter nicht zu lesbarem Text, und die Installation (GPU-Treiber, ffmpeg, manchmal Rust) ist ein kleines Projekt für sich. Dieser Leitfaden zeigt die realen Wege, Whisper zu betreiben, und ist anschließend ehrlich darüber, wo das Selbermachen endet und ein verwaltetes Tool sinnvoll wird.

Offenlegung: Ich betreibe Subanana, ein KI-Transkriptionstool. Alles Folgende über Whisper stammt aus OpenAIs veröffentlichter README und den Speech-to-Text-Dokumenten, abgerufen im Juni 2026 – keine erfundenen Benchmarks. Wir nennen bewusst keine Genauigkeitsprozente von Anbietern, weil eine einzelne Zahl mehr in die Irre führt als sie verrät. Whisper ist kostenlos im Betrieb und Subanana hat eine kostenlose Stufe; testen Sie Ihr eigenes Audio.

Whisper Transkription: Audio mit OpenAI Whisper transkribieren (und wann ein verwaltetes Tool gewinnt)

Was ist Whisper, und wie gut ist es?

Whisper ist ein Open-Source-Modell zur Spracherkennung, das OpenAI für die Öffentlichkeit freigegeben hat. Ein einziges Modell übernimmt mehrsprachige Transkription, die Übersetzung von Sprache ins Englische und die Spracherkennung – deshalb wurde es zur Standard-Engine in so vielen Transkriptions-Apps. Es ist stark bei sauberem Audio mit einer Sprecherin oder einem Sprecher in weit verbreiteten Sprachen und merklich schwächer bei starken Akzenten, schnellem Durcheinanderreden, Code-Switching (zwei Sprachen in einem Satz) und verrauschten Aufnahmen – also genau bei den schwierigen Fällen, die jedes Sprachmodell fordern.

Wir setzen bewusst keine Genauigkeitsprozent darauf. Die Wortfehlerraten schwanken stark mit dem Audio, der Sprache und der messenden Stelle, sodass eine einzelne Angabe nach dem Muster „Whisper ist zu X Prozent genau" eher täuscht als informiert. Praktisch heißt das: Bei einer klaren Aufnahme in einer großen Sprache ist Whisper gut; je weiter Ihr Audio davon abweicht, desto mehr Nacharbeit erledigen Sie von Hand.

Wie transkribieren Sie Audio mit Whisper?

Es gibt vier realistische Wege, vom technischsten bis zum bequemsten. Wählen Sie danach, wie wohl Sie sich im Terminal fühlen und ob Sie lokal arbeiten oder eine gehostete API aufrufen möchten.

Weg 1 – pip und Kommandozeile (lokal betreiben, kostenlos)

Das ist der klassische Weg, und er ist kostenlos. Sie brauchen zuerst Python und das Kommandozeilenwerkzeug ffmpeg (brew install ffmpeg unter macOS, sudo apt install ffmpeg unter Debian/Ubuntu oder den Paketmanager Ihrer Plattform).

  1. Whisper installieren: pip install -U openai-whisper. Bricht die Installation am Tokenizer ab, brauchen Sie unter Umständen zusätzlich eine Rust-Toolchain.
  2. Eine Datei mit dem Standardmodell turbo transkribieren: whisper audio.mp3 --model turbo. Whisper gibt den Text aus und legt Transkript- und Untertiteldateien neben Ihrem Audio ab.
  3. Für ein anderes Verhältnis aus Tempo und Genauigkeit wählen Sie mit --model eine andere Modellgröße (mehr zu den Größen weiter unten).
  4. Um nicht-englische Sprache ins Englische zu übersetzen, nutzen Sie ein größeres Modell mit der Übersetzungsaufgabe, etwa whisper interview.wav --model medium --language Japanese --task translate. Beachten Sie: Das turbo-Modell ist für die Transkription gebaut, nicht für die Übersetzung – nehmen Sie zum Übersetzen medium oder large.

Weg 2 – Python (für Skripte und Pipelines)

Wenn Sie die Transkription in eigenen Code einbinden, ist die Python-Schnittstelle drei Zeilen lang:

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Das liefert Ihnen den Text plus Segmente mit Zeitstempeln, die Sie beliebig weiterverarbeiten – genau dafür geht man den Weg über Code.

Weg 3 – die gehostete OpenAI-API (ohne lokale GPU)

Sie möchten keine Modelle installieren und keine GPU besitzen? OpenAI bietet die Transkription als gehostete API an: Sie schicken eine Datei und bekommen Text zurück. Dafür brauchen Sie ein OpenAI-Konto und einen API-Schlüssel, und der Upload ist derzeit auf 25 MB pro Datei begrenzt, längere Aufnahmen müssen also vorher geteilt werden.

from openai import OpenAI

client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
)
print(transcription.text)

Die gehostete API tauscht den Installationsaufwand gegen eine nutzungsabhängige Abrechnung und das genannte Dateilimit. Sie passt gut, wenn Sie ohnehin auf OpenAI aufbauen und nur Text aus kurzen Clips brauchen.

Weg 4 – eine Desktop-GUI auf Whisper-Basis

Wenn Sie das Terminal gar nicht anfassen möchten, packen mehrere Desktop-Apps von Drittanbietern das Whisper-Modell hinter ein Fenster mit Drag-and-Drop. Sie sind der freundlichste Einstieg, aber Sie betreiben weiterhin das nackte Modell – die Lücken weiter unten (keine Sprecherkennzeichnung, keine Bereinigung) bleiben also bestehen, und Sie erben die Modellversionen und Grenzen, welche die jeweilige App mitbringt.

Wo liegen Whispers echte Lücken?

Whisper transkribiert gut. Der ehrliche Aufwand steckt in allem rund um das Transkript – und die Liste ist dieselbe, ob Sie lokal arbeiten oder die API aufrufen.

  • Keine eingebaute Sprecherkennzeichnung. Das Open-Source-Whisper-Modell sagt Ihnen nicht, wer gesprochen hat; es ist absichtlich so gebaut, dass es Sprecherunterschiede beiseite lässt und sich auf die Wörter konzentriert. Für ein Transkript mit „Sprecher 1 / Sprecher 2" hängen Sie eine separate Bibliothek zur Sprecherdiarisierung wie pyannote.audio an und führen die beiden Ausgaben selbst zusammen – echte Entwicklungsarbeit. (OpenAIs gehostete API hat inzwischen ein eigenes Modell mit Diarisierung ergänzt, doch das ist ein anderes, kostenpflichtiges Cloud-Produkt mit eigener Einrichtung.)
  • Keine Aufbereitung der Lesbarkeit. Sie erhalten ein getreues Abbild des Gesprochenen – samt jedem „äh", jedem Versprecher und jedem Bandwurmsatz. Daraus sauberen, lesbaren Text zu machen, ist Handarbeit.
  • Hürden bei Umgebung und Rechenleistung. Das Modell, ffmpeg und mitunter Rust zu installieren, dazu der GPU-Speicher, den die größeren Modelle möchten, ist ein Einrichtungsprojekt für sich. Die gehostete API nimmt Ihnen die Installation ab, fügt aber das 25-MB-Limit und nutzungsabhängige Kosten hinzu.
  • Es ist ein Modell, kein Arbeitsablauf. Whisper reicht Ihnen rohe Ausgabe. Medien per URL importieren, ein Glossar festlegen, damit Markennamen und Fachbegriffe richtig geschrieben herauskommen, Projekte ordnen, in das Format exportieren, das Ihr Team braucht – nichts davon gehört dazu. Das setzen Sie selbst zusammen.

Das sind keine Vorwürfe an Whisper – es ist die Grenze zwischen einem Modell und einem fertigen Werkzeug. Wenn Ihnen das Zusammenbauen Freude macht und Ihr Audio sauber ist, ist das Selbermachen wirklich großartig und kostenlos.

Whisper halluziniert bei Stille und Musik – ein echtes Genauigkeitsrisiko

Es gibt eine Lücke, die nicht den Arbeitsablauf rund um das Transkript betrifft, sondern das Transkript selbst: Whisper kann Wörter notieren, die nie gesprochen wurden. Fachleute nennen das Halluzination, und sie tritt am ehesten an den Stellen einer Aufnahme auf, die keine Sprache enthalten.

Eine wissenschaftliche Studie, Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio, wollte genau diese Halluzinationen gezielt auslösen und stellte fest, dass „es eine Menge von Halluzinationen gibt, die häufig auftreten", sobald das Modell auf Audio ohne Sprache trifft. Mit anderen Worten: Es sind tote Stille und Hintergrundgeräusche – nicht klare Sprache –, die das Modell typischerweise dazu bringen.

Was erfunden wird, ist nicht immer harmloses Füllmaterial. TechCrunchs Bericht zu derselben Forschung hält fest, dass Whisper „von rassistischen Kommentaren bis zu erfundenen medizinischen Behandlungen" alles Mögliche in Transkripte eingeschleust hat. Und es ist nicht allein ein Problem schlechter Aufnahmen: In einer Auswertung öffentlicher Sitzungsmitschnitte berichtete eine Forscherin der University of Michigan, in rund acht von zehn Mitschnitten erfundenen Text gefunden zu haben – selbst bei gut aufgenommenem Audio. (Behandeln Sie Zahlen wie diese als Befund eines Teams an einem Datensatz, nicht als feste Quote – doch die Richtung deckt sich über die Berichte hinweg.)

Ein verwandtes Problem ist die Wiederholung: Das Modell kann sich in einer Schleife verfangen und denselben Satz immer wieder ausgeben. Das ist ein bekannt genug auftretendes Fehlverhalten, dass Whispers eigener Decoder einen Regler dagegen mitbringt – Segmente mit sehr hoher Kompression (ein verräterisches Zeichen für wiederholten Text) werden mit mehr Zufall neu erzeugt, um die Schleife zu durchbrechen –, und eine separate „No-Speech"-Prüfung entscheidet eigens, ob ein Abschnitt bloß Stille ist und übersprungen werden sollte. Diese Schutzmechanismen gibt es gerade deshalb, weil das rohe Modell sich selbst überlassen mitunter Stille bespricht.

Warum das wichtig ist: Audio aus dem echten Leben steckt voller genau jener Bedingungen, die das auslösen – die Pause, bevor jemand antwortet, Musik unter einem Intro, der Raumklang zwischen zwei Sprechern, ein Telefon, das in einem stillen Raum mitläuft. Bei einer sauberen Studioaufnahme sehen Sie womöglich nie eine Halluzination; bei einer echten Besprechung, Vorlesung oder einem Interview vielleicht schon – und die erfundene Zeile liest sich genauso selbstsicher wie die echten. Wenn Sie Whisper selbst betreiben, liegt es an Ihnen, das abzufangen: Entweder justieren Sie diese Schwellenwerte oder Sie lesen gegen das Audio Korrektur.

Genau hier kann sich ein verwalteter Transkriptionsdienst leise bezahlt machen. Statt Ihnen auszuhändigen, was ein einzelnes Modell auf toter Stille ausgegeben hat, kann eine verwaltete Pipeline Qualitätsprüfungen über die Ausgabe laufen lassen und ein Segment, das nach einer Halluzination aussieht, an ein anderes Modell weiterleiten und dessen saubereres Ergebnis verwenden – sodass das Transkript, das Sie lesen, nicht der rohe, ungeprüfte Durchlauf ist. (Es ist der Grund, warum sich Subanana gar nicht erst auf eine einzige Engine festlegt: Es startete einst mit einem einzigen Open-Source-Modell und ging gerade deshalb zum Routing über mehrere Modelle über, weil keinem einzelnen Modell zuzutrauen war, sich bei jeder Art von Audio zu benehmen.)

Wann gewinnt ein verwaltetes Transkriptionstool?

Dann, wenn Sie lieber ein sauberes, nach Sprechern gekennzeichnetes und lesbares Transkript zurückbekommen, ohne die Pipeline selbst zu bauen. Genau diese Lücke füllt Subanana. Statt sich auf ein einziges Sprachmodell festzulegen, vergleicht es laufend Spracherkennungsmodelle und leitet jeden Auftrag an das stärkste Modell für die Ausgangssprache weiter. Im Transkriptionsmodus sind das die Punkte, die direkt auf Whispers Lücken passen:

  • Nichts zu installieren. Laden Sie eine Datei hoch (oder fügen Sie einen öffentlichen Link ein) im Browser und erhalten Sie ein Transkript zurück – kein Python, kein ffmpeg, keine GPU, kein Jonglieren mit Dateigrößen.
  • Sprecherdiarisierung eingebaut. Audio mit mehreren Sprechern kommt automatisch nach Sprechern gekennzeichnet zurück, ohne eine zweite Bibliothek zu verdrahten.
  • Gesprochene Sprache wird zu sauberem geschriebenem Text. Füllwörter und Versprecher werden zu lesbarem Text aufbereitet, sodass Sie einen fertigen Entwurf bearbeiten statt einer rohen Mitschrift.
  • Über 80 Sprachen, stark bei den schwierigen Fällen. Gebaut, um auch bei akzentbehafteter Sprache, Code-switched-Audio und asiatischen Sprachen zu bestehen – neben den großen westlichen Sprachen.
  • Ein Glossar, das Sie festlegen können. Halten Sie Marken-, Produkt- und Fachbegriffe fest, damit sie korrekt transkribiert werden, mit einer Arbeitsbereichsliste plus projektbezogenen Listen und Massenimport.

Sie können es unter plus.subanana.com ausprobieren – laden Sie eine Aufnahme hoch und Sie erhalten ein gekennzeichnetes, bereinigtes Transkript zurück, ganz ohne Installation.

Der Tausch ist der übliche: Whisper ist kostenlos und endlos anpassbar, wenn Sie die Entwicklungsarbeit übernehmen; ein verwaltetes Tool kostet Geld, reicht Ihnen aber das fertige Transkript. Für eine einzelne, saubere Aufnahme, die Sie gern selbst skripten, ist Whisper beim Preis kaum zu schlagen. Bei wiederkehrendem, mehrstimmigem oder unaufgeräumtem Audio aus dem echten Leben, bei dem Sie einfach brauchbaren Text brauchen, rechnet sich der verwaltete Weg meist durch die gesparte Bearbeitungszeit.

Whisper (Selbermachen) vs. ein verwaltetes KI-Transkriptionstool

Whisper (Selbermachen)Verwaltete KI-Transkription (Subanana)
KostenLokal kostenlos (Open Source); gehostete API rechnet pro Nutzung abKostenpflichtig, mit kostenloser Stufe zum Ausprobieren
EinrichtungPython, ffmpeg, manchmal Rust installieren; oder die gehostete API aufrufenKeine – läuft im Browser
SprecherdiarisierungNicht eingebaut (pyannote.audio selbst ergänzen)✅ automatische Sprecherkennzeichnung
Lesbarkeit / Füllwörter bereinigen❌ rohe Sprache, Sie bearbeiten von Hand✅ gesprochene Sprache wird zu geschriebenem Text
SprachenViele, stark bei großen SprachenÜber 80, stark bei akzentbehaftetem Audio und Code-Switching
Dateigröße25-MB-Limit bei der gehosteten API; lokal durch Ihre Hardware begrenztGroße Dateien unterstützt
Am besten fürEntwicklerinnen und Entwickler, die ein kostenloses, anpassbares Modell wollenAlle, die ein sauberes Transkript ohne Bauarbeit wollen

Das Fazit: Whisper ist ein hervorragendes kostenloses Modell, wenn Sie bereit sind, es zu betreiben und die Nacharbeit zu leisten. In dem Moment, in dem Sie Sprecherkennzeichnung, lesbare Ausgabe brauchen oder einfach keine Transkriptions-Pipeline pflegen möchten, verdient sich ein verwaltetes Tool seinen Platz.

Häufig gestellte Fragen

Ist OpenAI Whisper kostenlos nutzbar?

Ja. Das Open-Source-Whisper-Modell und seine Gewichte stehen unter der MIT-Lizenz, Sie betreiben es also kostenlos auf Ihrem eigenen Rechner. OpenAI bietet zusätzlich eine separate gehostete Transkriptions-API, die pro Nutzung abrechnet und Ihnen die Installation erspart, den Upload aber auf 25 MB pro Datei begrenzt.

Wie installiere ich Whisper für die Transkription?

Installieren Sie zuerst Python und ffmpeg, dann führen Sie pip install -U openai-whisper aus. Scheitert die Installation am Tokenizer-Schritt, ergänzen Sie eine Rust-Toolchain und versuchen es erneut. Nach der Installation transkribieren Sie eine Datei mit whisper audio.mp3 --model turbo.

Kann Whisper verschiedene Sprecher unterscheiden?

Das Open-Source-Whisper-Modell kennzeichnet Sprecher nicht von allein – es ist darauf ausgelegt, sich auf die Wörter zu konzentrieren und Sprecherunterschiede außer Acht zu lassen. Für ein nach Sprechern getrenntes Transkript koppeln Sie es mit einer Diarisierungsbibliothek wie pyannote.audio und führen die Ergebnisse zusammen, oder Sie nutzen ein Tool mit eingebauter Sprecherdiarisierung wie Subanana.

Welche Whisper-Modellgröße sollte ich nehmen?

Whisper kommt in mehreren Größen (tiny, base, small, medium, large und das optimierte turbo). Kleinere Modelle sind schneller und genügsamer beim Speicher; größere sind genauer, brauchen aber mehr GPU-Speicher. Das Standardmodell turbo ist ein guter Allround-Start für die Transkription – nehmen Sie aber medium oder large, wenn Sie nicht-englische Sprache ins Englische übersetzen müssen, da turbo nicht für die Übersetzung gebaut ist.

Bereinigt Whisper Füllwörter und Zeichensetzung?

Nein. Whisper liefert ein getreues Abbild des Gesagten, samt Füllwörtern und Versprechern. Daraus sauberen, lesbaren Text zu machen, ist Handarbeit – oder Sie nutzen ein Transkriptionstool, das gesprochene Sprache für Sie zu geschriebenem Text aufbereitet.

Erfindet Whisper bei stillem Audio Dinge?

Das kann vorkommen. Whisper neigt zur Halluzination – es transkribiert Wörter, die nie gesagt wurden – und Studien wie Berichte finden, dass das am ehesten bei Stille, Pausen und Hintergrundmusik geschieht, nicht bei klarer Sprache. Es kann sich außerdem in der Wiederholung eines Satzes verfangen. Bei einer sauberen Aufnahme sehen Sie es vielleicht nie; bei Audio aus dem echten Leben mit stillen Lücken und Umgebungsgeräuschen ist es ein echtes Risiko, sodass es sich lohnt, die rohe Ausgabe gegen das Audio Korrektur zu lesen. Ein verwaltetes Transkriptionstool kann Qualitätsprüfungen durchführen und Segmente, die erfunden wirken, neu weiterleiten, sodass Sie weniger wahrscheinlich erfundenen Text lesen.

Zum Abschluss

Whisper ist eines der besten Dinge, die der offenen Spracherkennung passiert sind: ein leistungsfähiges, mehrsprachiges, MIT-lizenziertes Modell, das Sie kostenlos betreiben. Wenn Sie sich im Terminal wohlfühlen, Ihr Audio sauber ist und Ihnen das Nachbearbeiten von Hand nichts ausmacht, ist das Selbermachen wirklich die richtige Wahl. Doch ein rohes Modell ist kein fertiges Transkript – keine Sprecherkennzeichnung, keine Bereinigung und ein spürbarer Einrichtungsaufwand. Wenn Sie lieber eine Datei hochladen und sauberen, nach Sprechern gekennzeichneten Text in einer von über 80 Sprachen zurückbekommen, ist genau dafür Subanana da.

Steigern Sie Ihre Effizienz mit Subanana

Keine Zahlungsmethode erforderlich
Kostenlose Testversion
Jederzeit kündbar