La diarisation des locuteurs expliquée : comment l'IA étiquette qui parle dans une transcription
La diarisation des locuteurs est le processus qui répond à la question « qui a parlé et quand » dans un enregistrement audio. Lorsque vous transcrivez un entretien ou une réunion, la diarisation est la couche qui découpe le texte continu en tours de parole et étiquette chacun d'eux — Locuteur 1, Locuteur 2, Locuteur 3 — pour que la transcription se lise comme une conversation plutôt que comme un seul bloc de mots indifférencié. C'est ce qui transforme une dictée brute en un compte rendu exploitable d'une discussion.
Cet article détaille ce qu'est réellement la diarisation, comment l'IA attribue les étiquettes en coulisses, pourquoi elle est importante pour les entretiens, les réunions et la recherche, et les étapes concrètes qui rendent ces étiquettes plus précises. Chaque affirmation technique ci-dessous renvoie à une page de documentation officielle d'un service de transcription, afin que vous puissiez vérifier la source vous-même.

Qu'est-ce que la diarisation des locuteurs ?
La diarisation des locuteurs consiste à partitionner un flux audio selon l'identité des intervenants. Le moteur de transcription n'a pas besoin de savoir qui sont les personnes par leur nom — il détermine uniquement combien de voix distinctes sont présentes et quels segments de parole appartiennent à chacune. La documentation de Google Cloud Speech-to-Text décrit la sortie sans détour : chaque mot du résultat de transcription est associé à un numéro attribué à un locuteur, et les mots prononcés par le même locuteur portent le même numéro. (Documentation Google Cloud Speech-to-Text)
Quelques termes méritent d'être distingués, car on les confond souvent :
- La transcription transforme la parole en mots.
- La diarisation regroupe ces mots par locuteur et leur attribue des étiquettes anonymes (Locuteur 1, Locuteur 2…).
- L'identification du locuteur (ou reconnaissance du locuteur) va une étape plus loin et associe une identité connue à une voix — cela exige généralement un échantillon vocal ou un extrait de référence en amont, et la plupart des flux de transcription s'en passent.
Ainsi, « les étiquettes de locuteurs dans une transcription » relèvent de la diarisation, pas de l'identification. Les étiquettes sont des espaces réservés que vous renommez vous-même une fois que vous savez qui est qui.
La diarisation se distingue également de la séparation par canal. Si chaque personne a été enregistrée sur sa propre piste audio — un podcast où chaque invité dispose d'un microphone dédié, ou un enregistrement de centre d'appels avec l'agent sur un canal et le client sur un autre — vous n'avez pas besoin de diarisation du tout. AWS appelle cela l'identification par canal et la traite comme une approche distincte du partitionnement par locuteur. (Documentation AWS Transcribe) La diarisation correspond au cas le plus difficile et le plus courant : plusieurs personnes sur une seule piste mixée.
Comment l'IA attribue-t-elle les étiquettes de locuteurs ?
La diarisation n'est pas réalisée par le même modèle que celui qui écrit les mots. Elle fonctionne comme une couche parallèle à la transcription et, dans les grandes lignes, elle accomplit quatre choses :
- Détection d'activité vocale — repérer les passages qui contiennent de la parole et écarter les silences et le bruit.
- Segmentation — découper la parole en courts segments homogènes, en coupant aux endroits où les caractéristiques de la voix changent (un probable changement de locuteur).
- Création d'empreintes (embeddings) — convertir chaque segment en une empreinte vocale numérique qui capture la hauteur, le timbre et d'autres traits acoustiques, indépendamment des mots réellement prononcés.
- Regroupement (clustering) — rassembler les segments dont les empreintes se ressemblent. Chaque groupe devient une étiquette de locuteur.
Les étiquettes sont ensuite rattachées à la transcription. AWS Transcribe, par exemple, peut différencier jusqu'à 30 locuteurs uniques et étiquette chacun avec une valeur telle que spk_0 à spk_9, en renvoyant une section speaker_labels distincte indiquant le début et la fin de chaque énoncé. (Documentation AWS Transcribe) La sortie de Google fonctionne de la même manière au niveau du mot, en attachant un numéro speakerLabel à chaque mot, un résultat pouvant inclure autant de numéros que Cloud Speech-to-Text parvient à identifier de locuteurs distincts dans l'échantillon audio. (Documentation Google Cloud)
Une nuance importante : la diarisation n'est pas universelle d'un modèle de reconnaissance vocale à l'autre. La documentation d'OpenAI précise que ses modèles de transcription de base ne prennent pas en charge nativement l'étiquetage des locuteurs, et que la diarisation est confiée à un modèle dédié, capable de diarisation, qui produit des transcriptions tenant compte des locuteurs. (Guide OpenAI Speech-to-Text) Autrement dit, le moteur qui écrit le mieux les mots n'est pas automatiquement celui qui trace le mieux les frontières entre locuteurs — c'est précisément pourquoi un produit de transcription qui évalue plusieurs modèles et choisit celui qui convient possède ici un avantage. C'est l'approche derrière l'outil de transcription par IA de Subanana : le système évalue en continu les modèles de reconnaissance vocale et retient le plus performant pour la langue source et la tâche, au lieu de s'enfermer chez un seul fournisseur.
Pourquoi les étiquettes de locuteurs sont-elles importantes ?
Sans diarisation, un enregistrement à plusieurs voix se transcrit en un seul bloc de texte où l'on ne distingue plus une question de sa réponse. Les étiquettes sont ce qui rend la transcription navigable et citable. Quatre contextes où c'est décisif :
- Entretiens et journalisme. L'attribution est l'enjeu même. Vous devez savoir exactement quelle phrase la source a prononcée par rapport à ce que le journaliste a suggéré, et il vous la faut horodatée afin de pouvoir la vérifier contre l'audio avant de publier une citation.
- Réunions et comptes rendus. « Qui s'est engagé à quoi » ne fonctionne que si les actions à mener sont rattachées à une personne. Une transcription diarisée vous permet de parcourir une réunion par locuteur et d'extraire les décisions et les suites à donner de chaque participant.
- Recherche qualitative et études UX. Les chercheurs qui codent des groupes de discussion ou des entretiens utilisateurs analysent les réponses par participant. Les tours de parole sont l'unité d'analyse — sans eux, impossible de séparer le cadrage du modérateur de la réaction du participant.
- Dossiers juridiques, médicaux et de conformité. Une consultation médecin-patient ou une déposition n'a de valeur comme document que si chaque déclaration est correctement attribuée.
Dans chacun de ces cas, la qualité de la diarisation détermine la quantité de nettoyage manuel à effectuer ensuite. De bonnes étiquettes font gagner des heures ; de mauvaises étiquettes obligent à réécouter l'audio pour corriger les tours mal attribués. C'est pourquoi la diarisation est un élément central du mode transcription de Subanana, qui produit une transcription propre et lisible avec identification des locuteurs, suppression automatique des mots de remplissage, ainsi qu'une ponctuation et un découpage en paragraphes automatiques du texte source.
Qu'est-ce qui influe sur la précision de la diarisation ?
La diarisation est plus difficile que la transcription et se dégrade dans des conditions précises. Les principaux facteurs :
| Facteur | Effet sur les étiquettes de locuteurs | Ce qui aide |
|---|---|---|
| Chevauchement de parole | Les personnes qui parlent en même temps brouillent les empreintes vocales | Encourager une prise de parole à tour de rôle ; prévoir quelques corrections manuelles sur les passages en chevauchement |
| Qualité audio | Le bruit de fond et un faible débit binaire troublent les caractéristiques acoustiques | Enregistrer près du micro ; réduire le bruit ambiant |
| Voix similaires | Deux locuteurs à la hauteur et au timbre proches peuvent être fusionnés sous une seule étiquette | Davantage d'audio par locuteur aide le modèle à les séparer |
| Tours de parole très courts | Une interjection d'un seul mot laisse peu de matière à empreinter | Inévitable ; à nettoyer dans l'éditeur |
| Nombre de locuteurs inconnu | Le modèle doit deviner combien de groupes former | Indiquez le nombre d'intervenants si vous le connaissez |
Ce dernier point est le conseil au plus fort effet de levier. La plupart des moteurs acceptent une indication du nombre de locuteurs, et en fournir une contraint l'étape de regroupement pour qu'elle ne sur-découpe ni ne sous-découpe. Google Speech-to-Text demande de définir les valeurs min_speaker_count et max_speaker_count en fonction du nombre de locuteurs attendu, et AWS permet de transmettre une valeur MaxSpeakerLabels au lancement d'une tâche. (Documentation Google Cloud · Documentation AWS Transcribe)
Comment obtenir des étiquettes de locuteurs précises dans Subanana
Le mode transcription de Subanana exécute la diarisation automatiquement, tout en vous laissant la main sur les paramètres qui comptent le plus. Le déroulé :
| Étape | Action |
|---|---|
| 1. Téléverser | Ajoutez votre fichier audio ou vidéo, ou collez une URL publique YouTube, Instagram ou Facebook pour l'importer sans téléchargement local |
| 2. Définir la langue source | Choisissez la langue parlée dans l'enregistrement afin que le système oriente vers le modèle le mieux évalué pour celle-ci |
| 3. Indiquer le nombre de locuteurs | Optez pour la détection automatique, ou définissez le nombre de locuteurs manuellement si vous le connaissez déjà — l'indication manuelle produit généralement une séparation plus nette |
| 4. Transcrire | Subanana applique plusieurs couches de qualité : le modèle le mieux évalué par langue, la détection des hallucinations avec substitution automatique de modèle, et le signalement du débit de caractères par seconde (CPS) dans l'éditeur |
| 5. Renommer et éditer | Remplacez « Locuteur 1 / Locuteur 2 » par les vrais noms dans l'éditeur, corrigez les tours mal attribués, et appliquez la ponctuation et le découpage en paragraphes automatiques |
| 6. Exporter | Téléchargez au format TXT, DOCX, XLSX, SRT, VTT ou Markdown |
Deux choses utiles à savoir pendant que vous travaillez :
- Vous pouvez poser des questions sur la transcription directement dans l'éditeur — « résume ce qu'a proposé le Locuteur 2 », par exemple — grâce au chat IA intégré, ancré dans votre réunion.
- La relecture assistée par IA signale les mots probablement mal entendus et les caractères homophones erronés pour que vous les validiez, de sorte que le texte que vous relisez est déjà nettoyé.
Si vos réunions se déroulent sur Google Meet ou Microsoft Teams, l'assistant de réunion déclenché par l'agenda peut les enregistrer et les transcrire une fois l'appel terminé, puis appliquer à l'enregistrement la même chaîne de diarisation et de synthèse.
La diarisation fait partie de ces fonctionnalités qu'on ne remarque que lorsqu'elles se trompent. La recette concrète est simple : fournissez au moteur l'audio le plus propre possible, indiquez-lui combien de locuteurs attendre, et utilisez un outil qui s'oriente vers le modèle le plus solide pour votre langue plutôt qu'un outil enfermé chez un seul fournisseur.
Vous pouvez commencer à transcrire gratuitement et voir les étiquettes de locuteurs sur votre propre audio, ou comparer les forfaits sur la page des tarifs.
Foire aux questions
La diarisation des locuteurs est-elle la même chose que l'identification du locuteur ? Non. La diarisation sépare les voix et attribue des étiquettes anonymes (Locuteur 1, Locuteur 2). L'identification associe un nom connu à une voix et nécessite généralement un échantillon de référence. La plupart des flux de transcription recourent à la diarisation et vous laissent renommer les étiquettes manuellement.
Faut-il un microphone distinct par personne ? Non — la diarisation fonctionne sur une seule piste mixée, qui est le cas le plus courant. Si vous disposez d'une piste par personne (canaux séparés), il s'agit de séparation par canal, une approche différente et plus simple, comme le note AWS dans sa documentation. (Documentation AWS Transcribe)
Pourquoi la transcription a-t-elle fusionné deux personnes sous un seul locuteur ? Généralement parce que leurs voix sont acoustiquement similaires, que l'audio était bruité, ou que le moteur n'a pas été informé du nombre de locuteurs attendu. Fournir un nombre de locuteurs et utiliser un audio plus propre sont les deux correctifs les plus efficaces.
Tous les modèles de reconnaissance vocale prennent-ils en charge les étiquettes de locuteurs ? Non. Certains modèles de transcription de base ne diarisent pas nativement et nécessitent un modèle distinct, capable de diarisation, comme le montre la documentation d'OpenAI. (Guide OpenAI Speech-to-Text) Un outil qui évalue plusieurs modèles et s'oriente vers le bon évite cette limite du modèle unique.