Comment transcrire un entretien : transcriptions attribuées et citables

Transcrire un entretien revient, au fond, à trois choses : le texte doit être exact, il doit montrer qui a dit quelle ligne, et il doit pouvoir être cité tel quel. Que vous fassiez de la recherche qualitative, des entretiens UX, du journalisme ou que vous rendiez simplement un travail étudiant, vous ne voulez pas d'une approximation grossière : vous voulez un texte que vous pouvez coder ligne par ligne et citer directement dans un article ou un mémoire.

Il existe trois grandes approches : tout taper à la main, les outils de sous-titrage automatique gratuits et la reconnaissance vocale par IA. Ce guide explique les compromis, puis montre comment j'utiliserais le mode transcription de Subanana pour transformer l'enregistrement d'un entretien en une transcription avec identification des intervenants, ponctuation et paragraphes — afin que la relecture manuelle qui suit soit aussi réduite que possible. La version courte d'emblée : la transcription par IA abat environ neuf dixièmes du travail fastidieux, et il vous reste une seule passe de relecture finale.

Quelle est la différence entre une transcription d'entretien et des sous-titres ?

Beaucoup de gens, la première fois qu'ils prennent un outil, traitent « les sous-titres » et « une transcription » comme une seule et même chose — et se retrouvent avec un fichier inexploitable. Ce sont deux livrables différents :

Les sous-titres sont faits pour être lus à l'écran par-dessus une vidéo : découpés en courtes lignes minutées, par convention sans ponctuation, et exportés en SRT ou VTT.
Une transcription est faite pour être lue par une personne : elle a besoin de ponctuation, de paragraphes et de l'identification des intervenants, pour que vous puissiez la lire de haut en bas, l'annoter et en extraire des citations.

Une transcription d'entretien appartient à la seconde catégorie. Donc si vous choisissez le mauvais mode dans un outil — en faisant passer un entretien par un flux de sous-titrage — vous obtenez un mur de fragments courts, horodatés et sans ponctuation, avec lesquels il est en réalité plus difficile de travailler. C'est pourquoi ce guide ne cesse d'insister : choisissez le mode transcription.

Les compromis entre les trois approches

Approche 1 : la transcription manuelle

La méthode la plus traditionnelle, et celle dont le plafond de précision est le plus élevé — vous écoutez et tapez vous-même, ligne par ligne.

Avantage : vous maîtrisez chaque mot. Le ton, les pauses, les prises de parole qui se chevauchent — vous pouvez tout annoter exactement comme votre recherche l'exige.
Limite : c'est extrêmement lent. Une règle empirique répandue dans le métier veut qu'une heure d'audio demande quatre à six heures de saisie, et c'est encore plus lent avec plusieurs intervenants, des accents marqués ou une mauvaise qualité d'enregistrement. Pour un journaliste pressé par un bouclage ou un chercheur qui mène plusieurs entretiens de front, ce coût en temps dépasse souvent le budget disponible.

Approche 2 : les outils de sous-titrage automatique gratuits

De nombreux outils gratuits — les sous-titres automatiques des plateformes vidéo, les sites de transcription en ligne — génèrent du texte rapidement.

Avantage : rapide, gratuit, accessible.
Limite : sur les voix accentuées et les langues moins courantes, le taux d'erreur est nettement plus élevé ; la plupart ne séparent pas les intervenants, si bien que tout l'entretien se mélange et que vous ne pouvez pas savoir qui a dit quelle ligne ; et ils n'ajoutent généralement ni ponctuation ni paragraphes, le texte se lit donc comme un bloc compact. Acceptable pour un court extrait en anglais — mais pour un entretien que vous comptez citer, vous passerez souvent beaucoup de temps à le restructurer ensuite.

Approche 3 : les outils de reconnaissance vocale par IA

Si ce que vous voulez, c'est « une transcription lisible et citable dès que je la reçois », la transcription par IA est aujourd'hui le compromis le plus pratique. L'outil retranscrit l'audio avec un modèle de reconnaissance vocale, ajoute la ponctuation, les paragraphes et l'identification des intervenants, puis vous laisse relire dans un éditeur.

Avantage : bien plus rapide que la saisie à la main ; plus exact que les outils gratuits, et il sépare les intervenants et ajoute ponctuation et paragraphes automatiquement.
Compromis (qu'il faut nommer honnêtement) : la transcription par IA ne remplace pas la relecture finale. Avant de citer quelqu'un mot pour mot, vous devriez toujours faire une passe humaine — vérifier les noms, les noms propres et les chiffres clés. Une précision élevée n'est pas synonyme de zéro erreur, et plus une citation est importante, plus elle mérite d'être vérifiée.

La section suivante montre comment j'emprunterais la troisième voie avec Subanana.

Comment transformer l'audio d'un entretien en transcription avec Subanana ?

Comme je dirige Subanana, je vais l'utiliser pour dérouler tout le processus. Là où il fait ses preuves pour la transcription d'entretiens, c'est sur la précision multilingue, l'identification des intervenants (diarisation), la suppression automatique des mots de remplissage et la ponctuation et la mise en paragraphes automatiques.

La première étape décisive est de choisir le bon mode. Subanana propose un mode sous-titres, un mode transcription et un mode réunion — pour une transcription d'entretien, vous voulez le mode transcription, car c'est lui qui ajoute la ponctuation, découpe le texte en paragraphes par le sens et produit quelque chose de lisible. Le mode sous-titres ne vous donne que de courtes lignes de sous-titres minutées. Le processus comporte quatre étapes :

Importer l'enregistrement. Téléversez le fichier audio ou vidéo de l'entretien (.mp4 / .mov / .webm / .ogg), ou collez un lien public YouTube / Instagram / Facebook pour l'importer directement. Si l'entretien se trouve derrière un lien privé ou à accès restreint, passez plutôt par le téléversement de fichier.
Choisir le mode transcription et définir la langue source. Passez en mode transcription et choisissez la langue de l'enregistrement. Subanana couvre plus de 80 langues, la plupart des enregistrements d'entretien sont donc pris en charge. Réglez le nombre d'intervenants sur la détection automatique (ou saisissez le nombre manuellement) et activez la ponctuation et la mise en paragraphes automatiques.
Relire et nommer les intervenants. Une fois la transcription terminée, vous arrivez dans l'éditeur. Le système répartit les différentes voix en Intervenant 1, Intervenant 2, et ainsi de suite, supprime les mots de remplissage (« euh », « tu vois ») et nettoie le texte. À partir de là, vous pouvez :
- Renommer les intervenants : remplacez Intervenant 1 par « Enquêteur » et Intervenant 2 par « Participant A », et toute la transcription se met à jour en conséquence — pratique pour citer et annoter ligne par ligne ensuite.
- Corriger les mots mal entendus : cliquez sur n'importe quel mot et modifiez-le directement. Pour les mots les plus susceptibles d'être erronés — noms de personnes, noms d'organisations, termes techniques — créez d'abord un glossaire, et le système privilégiera vos orthographes pendant la transcription.
- Discuter avec la transcription : dans l'éditeur, vous pouvez interroger l'IA directement — « où le Participant A mentionne-t-il X ? » ou « ressors les trois arguments principaux » —, ce qui fait gagner beaucoup de temps sur un entretien long.
Exporter. Choisissez le format dont vous avez besoin. Pour les transcriptions, les choix les plus courants sont DOCX (Word, prêt à éditer) ou TXT (à déposer dans Obsidian, Notion ou un autre outil de prise de notes) ; pour la citation, le codage ou l'annotation, XLSX dispose les codes temporels, l'intervenant et le texte sous forme de tableau. VTT, SRT et Markdown sont également pris en charge.

Une fois la relecture et l'export effectués, la transcription d'entretien s'intègre directement dans votre mémoire, votre article ou votre analyse. Pour comprendre comment les modes sont conçus, voir Sous-titrage et transcription par IA et Transcription de réunions par IA.

Transcrivez votre entretien gratuitement

Et si l'entretien est multilingue ou accentué ?

C'est précisément là que les outils vocaux généralistes sont souvent les plus faibles — sur les voix accentuées et les langues qui sortent du petit groupe habituel autour de l'anglais. Deux points méritent d'être vérifiés au moment de choisir un outil :

La précision selon les langues : Subanana évalue en continu les modèles de reconnaissance vocale disponibles et retient le plus performant pour chaque langue source, plutôt que de se verrouiller sur un seul fournisseur. Et si une transcription tourne mal, elle est relancée automatiquement sur un autre modèle — une relance qui ne vous coûte aucune minute supplémentaire.
Traduire la transcription : un entretien peut être enregistré dans une langue alors que vous avez besoin de la transcription dans une autre. Le mode transcription prend en charge une seule langue de traduction cible, vous pouvez donc transcrire dans la langue source et traduire vers une autre langue dans la même passe.

Une limite mérite d'être signalée : l'alternance de langues en milieu de phrase — un intervenant qui passe d'une langue à l'autre au sein d'une même phrase, l'outil détectant le changement en temps réel — relève d'un point fort de la fonction sous-titres en direct de Subanana, pas du mode transcription. Pour la transcription d'entretiens, vous vous appuyez sur la précision multilingue et l'identification des intervenants, pas sur le basculement de langue en cours de phrase en temps réel. Si vous avez besoin de sous-titres en direct lors d'un véritable événement, voir Transcription en temps réel par IA.

FAQ sur la transcription d'entretiens

La formule gratuite peut-elle produire une transcription d'entretien complète ? Vous pouvez traiter un enregistrement et prévisualiser le résultat, mais l'export est une étape payante. La formule gratuite ne permet pas de télécharger les fichiers de sous-titres ou de transcription, et vous ne pouvez pas non plus sélectionner-copier le texte dans l'éditeur — la seule sortie est une vidéo filigranée, limitée aux 5 premières minutes, en 720p, avec un plafond de 3 Go par fichier. Pour exporter des fichiers de transcription exploitables (DOCX / TXT / XLSX), il faut un abonnement payant (qui relève aussi le plafond par fichier à 15 Go / 3 heures). Voir la page tarifs pour le détail.

Peut-il distinguer qui a dit quoi dans un entretien à plusieurs intervenants ? Oui. Le mode transcription prend en charge l'identification des intervenants — il sépare automatiquement Intervenant 1, Intervenant 2, et ainsi de suite, et vous pouvez les renommer selon les rôles réels (Enquêteur, Participant A) dans l'éditeur, toute la transcription se mettant à jour en conséquence.

Puis-je citer directement une transcription produite par IA ? Je ferais d'abord une passe de relecture humaine. La transcription par IA gère l'immense majorité du texte et la mise en paragraphes, mais les endroits où un mot erroné compte vraiment — noms, noms propres, chiffres clés — méritent une vérification ligne par ligne, surtout dans les passages où vous citez un participant mot pour mot. 3 conseils pour la transcription par IA explique comment relire plus efficacement.

Un enregistrement d'entretien long (une à deux heures) fonctionne-t-il ? Oui. Les abonnements payants acceptent jusqu'à 15 Go / 3 heures par fichier, ce qui couvre la plupart des enregistrements d'entretien. Pour un entretien long, j'utiliserais d'abord le chat IA de l'éditeur pour repérer les passages clés, puis je relirais de près les parties que vous comptez citer.

Comment transcrire un entretien : des transcriptions attribuées et citables