Transcription avec Whisper : comment transcrire un fichier audio avec OpenAI Whisper (et quand un outil géré l'emporte)

Pour transcrire un fichier audio avec OpenAI Whisper, installez-le avec pip install -U openai-whisper, assurez-vous que ffmpeg est présent sur votre système, puis lancez whisper audio.mp3 --model turbo — Whisper produit une transcription accompagnée de fichiers de sous-titres. C'est un modèle de reconnaissance vocale polyvalent qui gère de nombreuses langues et se révèle solide sur de l'audio propre ; et comme il est open source sous licence MIT, vous pouvez l'exécuter gratuitement sur votre propre machine.

Ce qu'il ne fait pas, c'est le travail de mise au propre autour de la transcription : par défaut, il n'indique pas qui a parlé, il ne transforme pas le langage parlé hésitant en prose lisible, et le faire fonctionner (pilotes GPU, ffmpeg, parfois Rust) constitue un petit chantier à part entière. Ce guide passe en revue les vraies façons d'utiliser Whisper, puis dit franchement où s'arrête la voie « à la main » et où un outil géré commence à avoir du sens.

Transparence : je dirige Subanana, un outil de transcription par IA. Tout ce qui suit au sujet de Whisper provient du README publié par OpenAI et de sa documentation speech-to-text, consultés en juin 2026 — aucun chiffre inventé, et nous ne citons pas de pourcentages de précision fournis par les éditeurs. Whisper s'exécute gratuitement et Subanana propose une offre gratuite : testez sur votre propre audio.

Qu'est-ce que Whisper, et jusqu'où va-t-il ?

Whisper est un modèle de reconnaissance vocale open source qu'OpenAI a rendu public. Un seul modèle assure la transcription multilingue, la traduction de la parole vers l'anglais et l'identification de la langue, ce qui explique qu'il soit devenu le moteur par défaut de tant d'applications de transcription. Il est performant sur de l'audio propre, à un seul locuteur, dans les langues largement parlées, et nettement plus fragile face aux accents marqués, aux échanges rapides qui se chevauchent, à l'alternance de langues (deux langues dans une même phrase) et aux enregistrements bruités — exactement les cas difficiles qui mettent en échec tous les modèles vocaux.

Nous évitons délibérément de lui accoler un pourcentage de précision. Les taux d'erreur varient énormément selon l'audio, la langue et la méthode de mesure : un chiffre unique du type « Whisper est précis à X % » a donc tendance à induire en erreur plus qu'à informer. L'enseignement pratique : sur un enregistrement clair dans une grande langue, Whisper est bon ; plus votre audio s'écarte de ce cas idéal, plus vous aurez de corrections à faire à la main.

Comment transcrire un fichier audio avec Whisper ?

Il existe quatre voies réalistes, de la plus manuelle à la plus simple. Choisissez selon votre aisance avec le terminal et selon que vous préférez tout exécuter en local ou appeler une API hébergée.

Voie 1 — pip et la ligne de commande (en local, gratuit)

C'est la méthode canonique, et elle est gratuite. Il vous faut d'abord Python et l'outil en ligne de commande ffmpeg (brew install ffmpeg sous macOS, sudo apt install ffmpeg sous Debian/Ubuntu, ou le gestionnaire de paquets de votre plateforme).

Installez Whisper : pip install -U openai-whisper. Si l'installation échoue sur le tokeniseur, il se peut que vous ayez aussi besoin d'une chaîne d'outils Rust sur votre machine.
Transcrivez un fichier avec le modèle turbo par défaut : whisper audio.mp3 --model turbo. Whisper affiche le texte et écrit les fichiers de transcription et de sous-titres à côté de votre audio.
Pour un autre compromis vitesse/précision, choisissez une autre taille de modèle avec --model (plus de détails sur les tailles ci-dessous).
Pour traduire de la parole non anglophone vers l'anglais, utilisez un modèle plus volumineux avec la tâche de traduction, par exemple whisper interview.wav --model medium --language Japanese --task translate. Notez que le modèle turbo est conçu pour la transcription, pas pour la traduction — utilisez medium ou large pour traduire.

Voie 2 — Python (pour le scripting et les pipelines)

Si vous intégrez la transcription dans votre propre code, l'API Python tient en trois lignes :

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Vous obtenez le texte ainsi que des segments horodatés que vous pouvez retraiter à votre guise — c'est justement l'intérêt de passer par le code.

Voie 3 — l'API hébergée d'OpenAI (sans GPU local)

Vous ne voulez ni installer de modèles ni posséder de GPU ? OpenAI expose la transcription sous forme d'API hébergée : vous envoyez un fichier et récupérez du texte. Il vous faut un compte OpenAI et une clé d'API ; les envois sont actuellement limités à 25 Mo par fichier, donc les enregistrements plus longs doivent d'abord être découpés.

from openai import OpenAI

client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
)
print(transcription.text)

L'API hébergée échange le casse-tête de l'installation contre une facturation à l'usage et cette limite de taille de fichier. Elle convient bien si vous développez déjà sur OpenAI et avez simplement besoin de récupérer le texte de clips courts.

Voie 4 — une application de bureau (GUI) fondée sur Whisper

Si vous ne voulez jamais toucher à un terminal, plusieurs applications de bureau tierces enveloppent le modèle Whisper dans une fenêtre glisser-déposer. Ce sont les rampes d'accès les plus accueillantes, mais vous exécutez toujours le modèle brut — les limites décrites ci-dessous (pas d'identification des locuteurs, pas de mise au propre) s'appliquent donc toujours, et vous héritez des versions de modèle et des restrictions fournies par l'application.

Quelles sont les vraies limites de Whisper ?

Whisper transcrit bien. Les frictions, en toute honnêteté, se situent dans tout ce qui entoure la transcription — et la liste est la même que vous l'exécutiez en local ou que vous appeliez l'API.

Pas d'identification des locuteurs intégrée. Le modèle Whisper open source ne vous dit pas qui a parlé ; par conception, il met de côté les différences entre locuteurs pour se concentrer sur les mots. Pour obtenir une transcription du type « Locuteur 1 / Locuteur 2 », vous ajoutez une bibliothèque de diarisation distincte comme pyannote.audio et vous fusionnez vous-même les deux sorties — un vrai travail d'ingénierie. (L'API hébergée d'OpenAI propose depuis un modèle distinct capable de diarisation, mais c'est un autre produit cloud, payant, avec sa propre configuration.)
Pas de mise au propre pour la lisibilité. Vous obtenez une transcription fidèle de la parole — y compris chaque « euh », chaque faux départ et chaque phrase à rallonge. En faire une prose claire et lisible relève de l'édition manuelle.
Frictions d'environnement et de calcul. Installer le modèle, ffmpeg et parfois Rust, sans compter la mémoire GPU qu'exigent les modèles les plus volumineux, est un chantier en soi. L'API hébergée supprime l'installation mais ajoute le plafond de 25 Mo par fichier et un coût à l'usage.
C'est un modèle, pas un flux de travail. Whisper vous remet une sortie brute. Importer un média par URL, définir un glossaire pour que les noms de marque et le jargon soient correctement orthographiés, organiser des projets, exporter au format dont votre équipe a besoin — rien de tout cela n'est prévu. Vous l'assemblez vous-même.

Ce ne sont pas des reproches faits à Whisper : c'est la frontière entre un modèle et un outil fini. Si l'assemblage vous plaît et que votre audio est propre, la voie « à la main » est réellement excellente — et gratuite.

Whisper hallucine sur le silence et la musique — un vrai risque de précision

Il existe une limite qui ne concerne pas le travail autour de la transcription, mais la transcription elle-même : Whisper peut coucher sur le papier des mots qui n'ont jamais été prononcés. Les chercheurs parlent d'hallucination, et le phénomène se manifeste surtout sur les passages d'un enregistrement qui ne sont pas de la parole.

Une étude universitaire, Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio, a cherché à les déclencher délibérément et a constaté qu'« il existe un ensemble d'hallucinations qui apparaissent fréquemment » lorsque le modèle rencontre de l'audio sans parole. Les informations rapportées par l'agence Associated Press vont dans le même sens : des développeurs ont observé que les fabrications « ont tendance à survenir lors des pauses, des bruits de fond ou quand de la musique est diffusée ». Autrement dit, ce sont les blancs et le bruit ambiant — et non la parole claire — qui ont tendance à les déclencher.

Ce qui est inventé n'est pas toujours un remplissage anodin. L'article de TechCrunch consacré à ces mêmes travaux note que Whisper a introduit « des commentaires à caractère racial comme des traitements médicaux imaginaires » dans des transcriptions — dans un exemple cité, un médicament qui n'existe pas. Et ce n'est pas seulement un problème de mauvais audio : dans une analyse d'enregistrements de réunions publiques, des chercheurs ont rapporté avoir trouvé du texte fabriqué dans environ huit clips sur dix, même sur de l'audio bien enregistré. (Traitez ce genre de chiffre comme le résultat d'une seule équipe sur un seul jeu de données, et non comme un taux figé — mais la tendance reste cohérente d'un rapport à l'autre.)

Un cousin proche est la répétition : le modèle peut se bloquer en répétant une phrase en boucle. C'est une défaillance suffisamment connue pour que le décodeur de Whisper embarque lui-même un réglage destiné à la repérer — les segments à très forte compression (signe révélateur d'un texte répété) sont régénérés avec davantage d'aléatoire pour briser la boucle — et qu'une vérification « absence de parole » distincte existe précisément pour décider si un fragment n'est que du silence et doit être ignoré. Ces garde-fous existent justement parce que, laissé à lui-même, le modèle brut va parfois commenter le silence.

Pourquoi cela compte : l'audio du monde réel est plein des conditions exactes qui déclenchent le phénomène — la pause avant qu'une personne réponde, la musique sous un générique, le bruit de la pièce entre deux locuteurs, un téléphone laissé en enregistrement dans une pièce silencieuse. Sur un fichier propre, enregistré en studio, vous ne verrez peut-être jamais d'hallucination ; sur une vraie réunion, un cours ou un entretien, c'est possible, et la ligne inventée se lit avec autant d'assurance que les vraies. Si vous exécutez Whisper vous-même, c'est à vous de la repérer — vous devez soit régler ces seuils, soit relire en confrontant à l'audio.

C'est l'un des cas où un service de transcription géré peut discrètement gagner son salaire. Plutôt que de vous remettre ce qu'un modèle unique a produit sur un blanc, un pipeline géré peut effectuer des contrôles qualité sur la sortie et, lorsqu'un segment ressemble à une hallucination, l'orienter vers un autre modèle et conserver le résultat le plus propre — de sorte que la transcription que vous lisez n'est pas la passe brute et non vérifiée. (C'est la raison pour laquelle Subanana ne se fige pas sur un seul moteur dès le départ : il a commencé sur un unique modèle open source, puis est passé à une orientation entre plusieurs modèles, précisément parce qu'aucun modèle seul ne pouvait être tenu pour fiable sur tout type d'audio.)

Quand un outil de transcription géré l'emporte-t-il ?

Lorsque vous préférez récupérer une transcription propre, lisible et déjà attribuée aux locuteurs, sans construire le pipeline vous-même. C'est précisément la lacune que comble Subanana. Plutôt que de se figer sur un seul modèle vocal, il évalue en continu les modèles de reconnaissance vocale et oriente chaque tâche vers le plus performant pour la langue source. En mode transcription, voici les éléments qui répondent directement aux limites de Whisper :

Rien à installer. Téléversez un fichier (ou collez un lien public) dans le navigateur et récupérez une transcription — sans Python, sans ffmpeg, sans GPU, sans jongler avec la taille des fichiers.
Identification des locuteurs intégrée. L'audio à plusieurs locuteurs revient automatiquement attribué locuteur par locuteur, sans seconde bibliothèque à raccorder.
Le langage parlé transformé en texte écrit et propre. Les hésitations et les faux départs sont nettoyés en une prose lisible : vous éditez un brouillon abouti plutôt qu'un déversement brut.
Plus de 80 langues, solide sur les cas difficiles. Conçu pour tenir face aux accents marqués, à l'audio à langues alternées et aux langues asiatiques, aux côtés des grandes langues occidentales.
Un glossaire que vous pouvez paramétrer. Épinglez les noms de marque, les noms de produits et le jargon pour qu'ils soient transcrits correctement, avec une liste à l'échelle de l'espace de travail, des listes par projet et l'import en lot.

Vous pouvez l'essayer sur plus.subanana.com — téléversez un enregistrement et vous récupérerez une transcription attribuée et mise au propre, sans rien installer.

Le compromis est le classique habituel : Whisper est gratuit et infiniment modulable si vous acceptez de faire l'ingénierie ; un outil géré coûte de l'argent mais vous remet la transcription finie. Pour un enregistrement propre et ponctuel que vous êtes à l'aise de scripter, Whisper est difficile à battre côté prix. Pour de l'audio récurrent, à plusieurs locuteurs ou « du monde réel » bien désordonné, où vous avez simplement besoin d'un texte exploitable, la voie gérée est en général rentabilisée par le temps d'édition économisé.

Whisper (à la main) vs un outil de transcription par IA géré

	Whisper (à la main)	Transcription par IA gérée (Subanana)
Coût	Gratuit en local (open source) ; l'API hébergée facture à l'usage	Payant, avec une offre gratuite pour tester
Mise en place	Installer Python, `ffmpeg`, parfois Rust ; ou appeler l'API hébergée	Aucune — fonctionne dans le navigateur
Identification des locuteurs	Non intégrée (ajoutez pyannote.audio vous-même)	✅ attribution automatique des locuteurs
Lisibilité / nettoyage des hésitations	❌ parole brute, vous éditez à la main	✅ langage parlé nettoyé en texte écrit
Langues	Nombreuses, solides sur les grandes langues	Plus de 80, solide sur les accents, l'alternance de langues et l'audio asiatique
Taille de fichier	Plafond de 25 Mo sur l'API hébergée ; en local, limité par votre matériel	Fichiers volumineux pris en charge
Idéal pour	Les développeurs qui veulent un modèle gratuit et modulable	Quiconque veut une transcription propre sans le montage

À retenir : Whisper est un excellent modèle gratuit si vous acceptez de l'exécuter et de faire la mise au propre. Dès que vous avez besoin d'attribuer les locuteurs, d'une sortie lisible, ou simplement de ne pas entretenir un pipeline de transcription, c'est là qu'un outil géré gagne sa place.

Questions fréquentes

OpenAI Whisper est-il gratuit ?

Oui. Le modèle Whisper open source et ses poids sont publiés sous licence MIT : vous pouvez donc l'exécuter gratuitement sur votre propre machine. OpenAI propose par ailleurs une API de transcription hébergée distincte, facturée à l'usage, qui vous épargne l'installation mais plafonne les envois à 25 Mo par fichier.

Comment installer Whisper pour la transcription ?

Installez d'abord Python et ffmpeg, puis lancez pip install -U openai-whisper. Si l'installation échoue à l'étape du tokeniseur, ajoutez une chaîne d'outils Rust et réessayez. Une fois installé, transcrivez un fichier avec whisper audio.mp3 --model turbo.

Whisper peut-il identifier les différents locuteurs ?

Le modèle Whisper open source n'attribue pas les locuteurs de lui-même — il est conçu pour se concentrer sur les mots et mettre de côté les différences entre locuteurs. Pour obtenir une transcription séparée par locuteur, vous l'associez à une bibliothèque de diarisation comme pyannote.audio et vous fusionnez les résultats, ou vous utilisez un outil qui intègre l'identification des locuteurs d'emblée, comme Subanana.

Quelle taille de modèle Whisper choisir ?

Whisper existe en plusieurs tailles (tiny, base, small, medium, large, et la version optimisée turbo). Les modèles plus petits sont plus rapides et plus légers en mémoire ; les plus grands sont plus précis mais réclament davantage de mémoire GPU. Le modèle turbo par défaut est un bon point de départ polyvalent pour la transcription — mais utilisez medium ou large si vous devez traduire de la parole non anglophone vers l'anglais, car turbo n'est pas conçu pour la traduction.

Whisper nettoie-t-il les hésitations et la ponctuation ?

Non. Whisper vous livre une transcription fidèle de ce qui a été dit, hésitations et faux départs compris. En faire une prose claire et lisible relève de l'édition manuelle — ou bien vous utilisez un outil de transcription qui transforme pour vous le langage parlé en texte écrit.

Whisper invente-t-il des choses sur de l'audio silencieux ?

Cela peut arriver. Whisper est sujet à l'hallucination — il transcrit des mots qui n'ont jamais été dits — et les études comme les informations rapportées indiquent que cela survient surtout pendant les silences, les pauses et la musique de fond, plutôt que pendant la parole claire. Il peut aussi se bloquer en répétant une phrase. Sur un enregistrement propre, vous ne le verrez peut-être jamais ; sur de l'audio du monde réel, avec des blancs et du bruit ambiant, c'est un vrai risque, et la sortie brute mérite donc d'être relue en la confrontant à l'audio. Un outil de transcription géré peut effectuer des contrôles qualité et réorienter les segments qui semblent fabriqués, pour réduire le risque que vous lisiez du texte inventé.

Pour conclure

Whisper est l'une des meilleures choses arrivées à la reconnaissance vocale ouverte : un modèle capable, multilingue, sous licence MIT, que vous pouvez exécuter gratuitement. Si vous êtes à l'aise dans un terminal, que votre audio est propre et que cela ne vous dérange pas d'éditer la sortie à la main, la voie « à la main » est réellement le bon choix. Mais un modèle brut n'est pas une transcription finie — pas d'attribution des locuteurs, pas de mise au propre, et une vraie taxe d'installation. Lorsque vous préférez téléverser un fichier et récupérer un texte propre et attribué aux locuteurs dans l'une de plus de 80 langues, c'est précisément à cela que sert Subanana.

Obtenez une transcription propre dans plus de 80 langues — essai gratuit