Transcrire une vidéo en texte (étape par étape) | Subanana

Pour transcrire une vidéo en texte, vous faites quatre choses : importer la vidéo, la transcrire, corriger le résultat et l'exporter dans le format dont vous avez besoin. L'ensemble prend quelques minutes au lieu des heures qu'il faudrait pour tout taper à la main. L'erreur que la plupart des gens commettent ne se situe à aucune de ces étapes — elle est dans le choix du type de texte qu'ils veulent réellement, car « vidéo en texte » peut désigner une transcription propre et lisible que vous collez dans un document, ou bien un fichier de sous-titres SRT minuté qui s'affiche à l'écran par-dessus la vidéo. Ce sont deux résultats différents, et choisir le mauvais oblige à tout refaire.

Je dirige Subanana, une application de reconnaissance vocale assistée par IA, et je vais m'en servir pour dérouler le processus. Mais les étapes et les décisions restent les mêmes quel que soit l'outil que vous utilisez. En bref : choisissez d'abord le bon résultat, laissez ensuite l'IA abattre le travail de transcription, puis faites une relecture humaine avant de vous fier au texte.

Transcription ou sous-titres : quel type de texte voulez-vous vraiment ?

Avant de transcrire quoi que ce soit, décidez du livrable. Une transcription et un fichier de sous-titres sont conçus pour des usages différents :

Une transcription est un texte fait pour être lu par une personne. Elle a une ponctuation, des sauts de paragraphe et des étiquettes de locuteur, ce qui vous permet de la lire de bout en bout, de la chercher, de l'annoter et d'en extraire des citations. Vous l'exportez en DOCX, TXT ou tableur.
Les sous-titres sont un texte fait pour être lu à l'écran par-dessus une vidéo. Ils sont découpés en courtes lignes minutées synchronisées au son, par convention écrites sans ponctuation (la convention habituelle du sous-titrage, et non un défaut), et exportés en SRT ou VTT pour qu'un lecteur vidéo puisse les afficher.

Voici la différence concrète, côte à côte :

	Transcription	Fichier de sous-titres SRT
Conçu pour	Lire, chercher, citer	Afficher à l'écran par-dessus la vidéo
Ponctuation et paragraphes	Oui	Non (convention de sous-titrage)
Codes temporels	Optionnels (par segment, dans un export tableur)	Oui — chaque ligne est synchronisée au temps
Étiquettes de locuteur	Oui (Locuteur 1, Locuteur 2…)	Non
Export typique	DOCX, TXT, XLSX	SRT, VTT
À utiliser pour	Entretiens, podcasts, cours, comptes rendus de réunion, recyclage en articles	Sous-titres YouTube, vidéos de formation, clips pour les réseaux

Si vous voulez lire ou réutiliser le contenu — transformer un webinaire en article de blog, citer un entretien, étudier un cours —, il vous faut une transcription, et vous devez passer la vidéo en mode transcription. Si vous voulez des sous-titres affichés par-dessus la vidéo, il vous faut des sous-titres, et vous utiliserez plutôt un flux de sous-titrage. Le reste de ce guide porte sur la voie de la transcription, car c'est presque toujours ce que signifie « transcrire une vidéo en texte ».

Une autre distinction à bien avoir en tête : transcrire n'est pas traduire. Transcrire convertit les paroles d'une vidéo en texte dans la même langue que celle parlée. Traduire fait passer ce texte dans une autre langue. Ce sont des étapes distinctes — vous pouvez transcrire une vidéo en japonais vers un texte japonais, puis, si besoin, le traduire en français dans un second passage. Ne partez pas du principe que « transcrire » vous donnera un texte en français si la personne ne parlait pas français.

Comment transcrire une vidéo en texte, étape par étape ?

Voici le processus de bout en bout. Dans Subanana, il se présente ainsi, et la structure est similaire dans la plupart des outils de transcription par IA :

Étape	Ce que vous faites	Ce que vous obtenez
1. Importer	Téléverser le fichier, ou coller un lien de vidéo publique	La vidéo en file d'attente pour transcription
2. Transcrire	Choisir le mode transcription + la langue parlée	Un brouillon de transcription avec locuteurs et ponctuation
3. Corriger	Relire, corriger les noms, nommer les locuteurs	Une transcription propre et exacte
4. Exporter	Choisir votre format texte	Un fichier exploitable (DOCX / TXT / XLSX…)

Étape 1 — Importer la vidéo

Vous avez deux moyens d'entrée :

Téléverser un fichier. Déposez un .mp4, .mov, .webm ou .ogg. Sur une offre payante, les fichiers peuvent atteindre 15 Go ou 3 heures, ce qui couvre la plupart des longs enregistrements — un cours complet, un webinaire, un entretien de deux heures.
Coller un lien public. Au lieu de télécharger d'abord, vous pouvez coller une URL publique YouTube, Instagram ou Facebook, et l'outil récupère la vidéo et la transcrit pour vous. Cela fonctionne aussi bien pour les vidéos classiques que pour les formats courts (YouTube Shorts, Reels Instagram, Reels Facebook). Si le contenu est privé, soumis à une limite d'âge, réservé aux membres ou autrement protégé par une connexion, l'import par lien peut échouer — dans ce cas, téléchargez le fichier et téléversez-le.

Cet import par URL est vraiment pratique lorsque la vidéo est déjà hébergée sur une plateforme : voir l'outil IA « vidéo en texte » pour le flux par lien.

Étape 2 — Choisir le mode transcription et la langue parlée

C'est l'étape qui décide si vous obtenez un texte lisible ou un mur de fragments de sous-titres. Subanana propose un mode sous-titres, un mode transcription et un mode réunion. Pour une transcription lisible, choisissez le mode transcription — il ajoute la ponctuation, découpe le texte en paragraphes selon le sens et lisse la rédaction. (Le mode sous-titres vous donnerait à la place de courtes lignes minutées et sans ponctuation.)

Réglez ensuite :

Langue source — la langue réellement parlée dans la vidéo. Subanana couvre plus de 80 langues, donc la plupart des enregistrements sont pris en charge, et il choisit le modèle de reconnaissance vocale le plus performant pour cette langue précise plutôt que de se cantonner à un seul fournisseur.
Nombre de locuteurs — réglez sur détection automatique, ou saisissez le nombre si vous le connaissez déjà. Cela pilote l'identification des locuteurs (diarisation).
Ponctuation et paragraphes automatiques — activez-les pour un résultat en transcription. C'est la fonction qui rend le résultat réellement lisible.

Étape 3 — Corriger et relire

Quand la transcription est terminée, vous arrivez dans l'éditeur avec un brouillon où les locuteurs sont déjà séparés, les mots de remplissage (« euh », « tu vois ») retirés et la ponctuation en place. Vient maintenant le passage humain :

Nommer les locuteurs. Renommez Locuteur 1 en « Animateur », Locuteur 2 en « Invité », et toute la transcription se met à jour en conséquence — utile pour citer plus tard.
Corriger les mots mal entendus. Cliquez sur n'importe quel mot et modifiez-le. Pour les mots les plus susceptibles de piéger tout modèle vocal — noms de personnes, noms de marques, jargon —, créez d'abord un glossaire (une liste à l'échelle de l'espace de travail ou propre à un projet, avec import en masse depuis XLSX/CSV), et le système privilégiera vos orthographes pendant la transcription.
Discuter avec la transcription. Dans l'éditeur, vous pouvez poser des questions à l'IA sur le contenu — « où parlent-ils des tarifs ? » ou « résume la seconde moitié » —, ce qui fait gagner du temps sur une longue vidéo.

Un mot sur les attentes : la transcription par IA abat l'écrasante majorité du travail, mais elle ne supprime pas la relecture finale. Avant de citer qui que ce soit ou de publier le texte, vérifiez vous-même les noms, les noms propres et les chiffres clés. Une grande exactitude n'est pas l'absence d'erreurs.

Étape 4 — Exporter le texte

Choisissez le format qui correspond à votre prochaine étape :

DOCX — un fichier Word prêt à être édité, mis en forme et transmis.
TXT — du texte brut à déposer dans Obsidian, Notion ou n'importe quel outil de notes.
XLSX — un tableur présentant code temporel, locuteur et texte en colonnes, idéal pour coder des entretiens ou bâtir des archives consultables.
VTT / SRT / Markdown — également disponibles si vous en avez besoin.

Voilà la boucle complète. Pour les détails sur le modèle et l'exactitude qui la sous-tendent, voir comment fonctionne la transcription de Subanana, ou la page dédiée à l'outil de transcription vidéo.

Transcrire votre vidéo en texte gratuitement

Et l'exactitude, les accents et les autres langues ?

C'est là que les outils généralistes sont souvent les plus faibles, alors il vaut la peine de savoir ce qu'il faut regarder :

Exactitude par langue. L'exactitude varie beaucoup selon la langue et selon la propreté du son. Subanana évalue en continu les modèles de reconnaissance vocale disponibles et oriente chaque transcription vers le plus performant pour la langue source concernée, au lieu d'utiliser un seul modèle pour tout. Si une transcription ressort de mauvaise qualité, le système relance automatiquement les portions concernées sur un autre modèle — et cette relance ne vous coûte aucune minute supplémentaire.
Son accentué ou bruité. Aucun outil n'est à l'abri d'un mauvais enregistrement. Plus le son entrant est propre, plus le texte sortant est propre — un micro correct et un faible bruit de fond font davantage pour l'exactitude que n'importe quel réglage.
Plusieurs locuteurs. L'identification des locuteurs sépare les voix automatiquement, mais c'est une étape au mieux ; dans une discussion animée à plusieurs où l'on se coupe la parole, attendez-vous à corriger quelques attributions à la main dans l'éditeur.

Si votre vidéo est une réunion enregistrée plutôt qu'un exposé unique, la transcription de réunion par IA de Subanana ajoute par-dessus un résumé structuré — décisions, tâches, responsables —, ce que l'on attend souvent réellement d'un enregistrement de réunion.

Quand utiliser un fichier de sous-titres SRT plutôt qu'une transcription ?

Optez pour des sous-titres (SRT/VTT), et non une transcription, lorsque le texte doit apparaître sur la vidéo plutôt qu'être lu seul :

Vous publiez la vidéo sur YouTube ou une plateforme de formation et voulez des sous-titres que les spectateurs peuvent activer.
Vous postez des clips au format court sur les réseaux et voulez des sous-titres incrustés pour un visionnage sans son.
Vous avez besoin de lignes minutées et synchronisées qu'un lecteur vidéo peut afficher, pas de paragraphes.

Dans ces cas, vous utiliserez le flux de sous-titrage, qui produit des fichiers SRT ou VTT alignés dans le temps. Et si les sous-titres doivent être dans une langue différente de la parole, il s'agit de transcription plus traduction — transcrire le son, puis ajouter une langue cible de traduction. (À noter que le sous-titrage en temps réel, sur le vif, lors d'un événement en direct est encore une autre fonction — voir la transcription en temps réel par IA — et ne relève pas de la transcription d'un fichier vidéo existant.)

La règle la plus simple : si un humain va lire le texte, faites une transcription ; si un lecteur vidéo va afficher le texte, faites des sous-titres.

Foire aux questions

Transcrire une vidéo, est-ce la même chose que lui ajouter des sous-titres ? Non. Transcrire produit un texte lisible (une transcription) que vous exportez sous forme de document ; ajouter des sous-titres produit des lignes de sous-titres minutées (SRT/VTT) qui s'affichent par-dessus la vidéo. Même source, résultats différents — décidez de ce dont vous avez besoin avant de commencer. Le tableau comparatif plus haut dans ce guide détaille les différences.

L'offre gratuite peut-elle transcrire une vidéo entière et me laisser télécharger le texte ? Vous pouvez lancer une vidéo et prévisualiser le résultat, mais l'export est une étape payante. L'offre gratuite ne prend en charge ni le téléchargement de fichiers de transcription ni celui de sous-titres, et vous ne pouvez pas non plus sélectionner-copier le texte dans l'éditeur — son seul résultat est une vidéo filigranée, les 5 premières minutes seulement, en 720p, avec une limite de 3 Go par fichier. Pour exporter des fichiers texte exploitables (DOCX / TXT / XLSX), il vous faut une offre payante, qui relève aussi la limite à 15 Go / 3 heures par fichier. Voir la page des tarifs pour le détail.

Quels formats et quelles durées de vidéo sont pris en charge ? Vous pouvez téléverser des fichiers .mp4, .mov, .webm et .ogg, ou coller un lien public YouTube / Instagram / Facebook. Sur une offre payante, le plafond est de 15 Go ou 3 heures par fichier, ce qui couvre la plupart des longs enregistrements. Les liens privés ou à accès restreint peuvent ne pas s'importer ; utilisez le téléversement de fichier pour ceux-là.

Va-t-il transcrire une vidéo dans une langue autre que le français ? Oui. Subanana prend en charge plus de 80 langues et transcrit dans la langue réellement parlée. Si vous avez aussi besoin du texte dans une autre langue, c'est une étape de traduction distincte — le mode transcription prend en charge une seule langue cible de traduction à côté de l'original. Des outils comme l'outil de transcription par IA et l'outil IA de reconnaissance vocale partent du même moteur multilingue.

Quelle est l'exactitude de la transcription vidéo par IA ? L'exactitude dépend fortement de la langue et de la qualité audio, et elle est assez élevée pour que l'essentiel du travail soit fait à votre place — mais elle n'est pas parfaite. Faites toujours une relecture des noms, noms propres et chiffres avant de vous fier au texte ou de le publier. Pour un déroulé structuré des étapes de correction, voir comment transcrire un entretien.

Puis-je transcrire une réunion enregistrée et obtenir aussi un résumé ? Oui — c'est le mode réunion plutôt que le simple mode transcription. Il produit la transcription, plus un résumé structuré des décisions et des tâches. Voir le guide de transcription Google Meet pour comprendre comment cela fonctionne de bout en bout.

Commencer à transcrire gratuitement

Transcrire une vidéo en texte : importer, transcrire, corriger, exporter