Transcripción con Whisper: cómo transcribir audio con OpenAI Whisper (y cuándo gana una herramienta gestionada)
Para transcribir audio con OpenAI Whisper, instálalo con pip install -U openai-whisper, asegúrate de tener ffmpeg en tu sistema y luego ejecuta whisper audio.mp3 --model turbo: Whisper escribe una transcripción junto con archivos de subtítulos. Es un modelo de reconocimiento de voz de propósito general que maneja muchos idiomas y rinde bien con audio limpio; y como es de código abierto bajo la licencia MIT, lo ejecutas en tu propia máquina sin coste alguno.
Lo que no hace es el trabajo de afinado alrededor de la transcripción: de fábrica no indica quién dijo qué, no convierte las muletillas del habla en prosa legible, y dejarlo instalado (controladores de GPU, ffmpeg, a veces Rust) es un pequeño proyecto en sí mismo. Esta guía recorre las formas reales de ejecutar Whisper y luego es honesta sobre dónde termina el hacerlo por tu cuenta y dónde empieza a tener sentido una herramienta gestionada.
Aviso: dirijo Subanana, una herramienta de transcripción con IA. Todo lo que sigue sobre Whisper proviene del README publicado por OpenAI y de su documentación de conversión de voz a texto, consultados en junio de 2026: sin benchmarks inventados. A propósito no damos porcentajes de precisión de ningún proveedor, porque una sola cifra confunde más de lo que aclara. Whisper es gratis de ejecutar y Subanana tiene un plan gratuito; prueba con tu propio audio.

¿Qué es Whisper y qué tan bueno es?
Whisper es un modelo de reconocimiento de voz de código abierto que OpenAI liberó al público. Un mismo modelo se encarga de la transcripción multilingüe, la traducción del habla al inglés y la identificación del idioma, y por eso se convirtió en el motor por defecto dentro de tantas apps de transcripción. Es fuerte con audio limpio de un solo hablante en idiomas muy hablados, y notablemente más flojo con acentos marcados, conversaciones rápidas y superpuestas, cambio de código (dos idiomas en una misma frase) y grabaciones ruidosas: justo los casos difíciles que ponen a prueba a cualquier modelo de voz.
A propósito no le ponemos un porcentaje de precisión. Las tasas de error de palabra varían muchísimo según el audio, el idioma y quién hace la medición, así que una sola cifra del tipo «Whisper acierta el X %» tiende a engañar más que a informar. La conclusión práctica: en una grabación clara y en un idioma mayoritario, Whisper es bueno; cuanto más se aleje tu audio de eso, más limpieza tendrás que hacer a mano.
¿Cómo se transcribe audio con Whisper?
Hay cuatro caminos realistas, del más técnico al más cómodo. Elige según lo cómodo que te sientas en la terminal y según si quieres ejecutarlo en local o llamar a una API alojada.
Camino 1 — pip y la línea de comandos (ejecútalo en local, gratis)
Es la forma canónica y es gratis. Primero necesitas Python y la herramienta de línea de comandos ffmpeg (brew install ffmpeg en macOS, sudo apt install ffmpeg en Debian/Ubuntu, o el gestor de paquetes de tu plataforma).
- Instala Whisper:
pip install -U openai-whisper. Si la instalación falla en el tokenizador, puede que también necesites una cadena de herramientas de Rust en tu máquina. - Transcribe un archivo con el modelo
turbopor defecto:whisper audio.mp3 --model turbo. Whisper imprime el texto y deja los archivos de transcripción y subtítulos junto a tu audio. - Para otro equilibrio entre velocidad y precisión, elige otro tamaño de modelo con
--model(más sobre los tamaños abajo). - Para traducir al inglés un habla que no esté en inglés, usa un modelo más grande con la tarea de traducción, por ejemplo
whisper interview.wav --model medium --language Japanese --task translate. Ten en cuenta que el modeloturboestá hecho para transcribir, no para traducir: usamediumolargepara traducir.
Camino 2 — Python (para scripts y pipelines)
Si vas a integrar la transcripción en tu propio código, la interfaz de Python son tres líneas:
import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])
Eso te da el texto más segmentos con marcas de tiempo que puedes postprocesar como quieras, que es justo el sentido de ir por la vía del código.
Camino 3 — la API alojada de OpenAI (sin GPU local)
¿No quieres instalar modelos ni tener una GPU? OpenAI ofrece la transcripción como una API alojada: envías un archivo y recibes el texto de vuelta. Necesitas una cuenta de OpenAI y una clave de API, y por ahora la subida está limitada a 25 MB por archivo, así que las grabaciones más largas hay que dividirlas antes.
from openai import OpenAI
client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
)
print(transcription.text)
La API alojada cambia el dolor de cabeza de la instalación por una facturación por uso y ese límite de tamaño de archivo. Encaja bien si ya estás construyendo sobre OpenAI y solo necesitas el texto de clips cortos.
Camino 4 — una app de escritorio con interfaz basada en Whisper
Si no quieres tocar la terminal en absoluto, varias apps de escritorio de terceros envuelven el modelo Whisper detrás de una ventana con arrastrar y soltar. Son la puerta de entrada más amable, pero sigues ejecutando el modelo a secas, así que los puntos débiles de abajo (sin etiquetas de hablante, sin limpieza) siguen presentes, y heredas las versiones del modelo y los límites que traiga cada app.
¿Cuáles son los puntos débiles reales de Whisper?
Whisper transcribe bien. El esfuerzo honesto está en todo lo que rodea a la transcripción, y la lista es la misma tanto si lo ejecutas en local como si llamas a la API.
- Sin identificación de hablantes integrada. El modelo Whisper de código abierto no te dice quién habló; por diseño deja de lado las diferencias entre hablantes para centrarse en las palabras. Para conseguir una transcripción con «Hablante 1 / Hablante 2» tienes que añadir una biblioteca de diarización aparte, como pyannote.audio, y combinar tú mismo las dos salidas: una tarea de ingeniería real. (La API alojada de OpenAI ha añadido desde entonces un modelo aparte con capacidad de diarización, pero es otro producto en la nube, de pago, con su propia configuración.)
- Sin limpieza de legibilidad. Obtienes una transcripción fiel del habla, incluyendo cada «eh», cada arranque en falso y cada frase interminable. Convertir eso en prosa limpia y legible es edición manual.
- Fricción de entorno y cómputo. Instalar el modelo,
ffmpegy a veces Rust, sumado a la memoria de GPU que piden los modelos más grandes, es un proyecto de configuración en sí mismo. La API alojada te quita la instalación, pero añade el límite de 25 MB y el coste por uso. - Es un modelo, no un flujo de trabajo. Whisper te entrega la salida en bruto. Importar contenido por URL, definir un glosario para que los nombres de marca y la jerga salgan bien escritos, organizar proyectos, exportar al formato que necesita tu equipo: nada de eso está incluido. Lo montas tú.
No son reproches a Whisper: son la línea que separa un modelo de una herramienta terminada. Si disfrutas montándolo y tu audio es limpio, hacerlo por tu cuenta es de verdad estupendo y gratis.
Whisper alucina con el silencio y la música: un riesgo de precisión real
Hay un punto débil que no tiene que ver con el flujo de trabajo alrededor de la transcripción, sino con la transcripción en sí: Whisper puede escribir palabras que nadie llegó a decir. Los investigadores lo llaman alucinación, y aparece sobre todo en las partes de una grabación que no son habla.
Un estudio académico, Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio, se propuso provocar estas alucinaciones a propósito y concluyó que «existe un conjunto de alucinaciones que aparecen con frecuencia» cuando el modelo se topa con audio que no es habla. Es decir: el aire muerto y el ruido ambiente —no el habla clara— son lo que tiende a desencadenarlas.
Lo que se inventa no siempre es relleno inofensivo. El reportaje de TechCrunch sobre esa misma investigación señala que Whisper ha introducido «desde comentarios raciales hasta tratamientos médicos imaginarios» en las transcripciones; en uno de los ejemplos citados, un medicamento que no existe. Y no es solo un problema de audio malo: en un análisis de grabaciones de reuniones públicas, los investigadores afirmaron haber encontrado texto fabricado en aproximadamente ocho de cada diez clips, incluso en audio bien grabado. (Toma cifras así como el hallazgo de un equipo sobre un conjunto de datos, no como una tasa fija; pero la dirección es coherente entre los distintos informes.)
Un pariente cercano es la repetición: el modelo puede quedarse atascado repitiendo una frase en bucle. Es un fallo lo bastante conocido como para que el propio decodificador de Whisper traiga una palanca para detectarlo —los segmentos con una compresión muy alta (una señal delatora de texto repetido) se vuelven a generar con más aleatoriedad para romper el bucle— y existe además una comprobación de «ausencia de habla» pensada específicamente para decidir si un fragmento es solo silencio y debería omitirse. Esas salvaguardas existen precisamente porque, librado a su suerte, el modelo en bruto a veces narrará el silencio.
Por qué importa: el audio del mundo real está lleno de las condiciones exactas que lo provocan —la pausa antes de que alguien responda, la música bajo una introducción, el tono de sala entre hablantes, un teléfono que se quedó grabando en una habitación en silencio—. En un archivo de estudio limpio puede que no veas nunca una alucinación; en una reunión, una clase o una entrevista reales podrías verla, y la línea inventada se lee con la misma seguridad que las reales. Si ejecutas Whisper por tu cuenta, detectar eso queda de tu lado: tienes que ajustar esos umbrales o cotejar la transcripción con el audio.
Aquí es donde un servicio de transcripción gestionado puede ganarse su sitio sin hacer ruido. En vez de entregarte lo que sea que un único modelo soltó sobre el aire muerto, un pipeline gestionado puede ejecutar controles de calidad sobre la salida y, cuando un segmento parece una alucinación, derivarlo a otro modelo y usar el resultado más limpio, de modo que la transcripción que lees no sea la pasada en bruto y sin revisar. (Es la razón por la que Subanana no se ata a un único motor desde el principio: empezó con un solo modelo de código abierto y pasó a enrutar entre varios precisamente porque no se podía confiar en que un único modelo se comportara bien con todo tipo de audio.)
¿Cuándo gana una herramienta de transcripción gestionada?
Cuando prefieres recibir una transcripción limpia, con los hablantes etiquetados y legible, sin construir el pipeline tú mismo. Ese es el hueco que llena Subanana. En lugar de atarse a un único modelo de voz, compara continuamente modelos de reconocimiento de voz y dirige cada trabajo al que mejor rinde para el idioma de origen. En el modo transcripción, estos son los puntos que encajan directamente con los puntos débiles de Whisper:
- Nada que instalar. Sube un archivo (o pega un enlace público) en el navegador y recibe una transcripción de vuelta: sin Python, sin
ffmpeg, sin GPU, sin malabares con el tamaño de los archivos. - Diarización de hablantes integrada. El audio con varios hablantes vuelve etiquetado por hablante de forma automática, sin una segunda biblioteca que conectar.
- El habla convertida en texto escrito y limpio. Las muletillas y los arranques en falso se depuran en prosa legible, de modo que editas un borrador terminado en vez de un volcado en bruto.
- Más de 80 idiomas, fuerte en los casos difíciles. Construido para aguantar con habla acentuada, audio con cambio de código e idiomas asiáticos, junto a los grandes idiomas occidentales.
- Un glosario que puedes definir. Fija nombres de marca, de producto y jerga para que se transcriban correctamente, con una lista de espacio de trabajo más listas por proyecto e importación masiva.
Puedes probarlo en plus.subanana.com: sube una grabación y recibirás una transcripción etiquetada y depurada, sin instalar nada.
El intercambio es el de siempre: Whisper es gratis e infinitamente ajustable si te encargas de la ingeniería; una herramienta gestionada cuesta dinero, pero te entrega la transcripción terminada. Para una grabación limpia y puntual que no te importe programar tú, es difícil ganarle a Whisper en precio. Para audio recurrente, con varios hablantes o desordenado del mundo real, donde solo necesitas un texto utilizable, la vía gestionada suele compensar por el tiempo de edición que ahorra.
Whisper (por tu cuenta) frente a una herramienta de transcripción con IA gestionada
| Whisper (por tu cuenta) | Transcripción con IA gestionada (Subanana) | |
|---|---|---|
| Coste | Gratis en local (código abierto); la API alojada factura por uso | De pago, con un plan gratuito para probar |
| Configuración | Instalar Python, ffmpeg, a veces Rust; o llamar a la API alojada | Ninguna: funciona en el navegador |
| Diarización de hablantes | No integrada (añade tú pyannote.audio) | ✅ etiquetas de hablante automáticas |
| Legibilidad / limpieza de muletillas | ❌ habla en bruto, editas a mano | ✅ el habla se depura en texto escrito |
| Idiomas | Muchos, fuerte en los grandes idiomas | Más de 80, fuerte en audio acentuado y con cambio de código |
| Tamaño de archivo | Límite de 25 MB en la API alojada; en local lo marca tu hardware | Admite archivos grandes |
| Mejor para | Quien quiere un modelo gratuito y ajustable | Quien quiere una transcripción limpia sin montar nada |
La conclusión: Whisper es un modelo gratuito excelente si estás dispuesto a ejecutarlo y a hacer la limpieza. En el momento en que necesitas etiquetas de hablante, una salida legible o simplemente no quieres mantener un pipeline de transcripción, ahí es donde una herramienta gestionada se gana su sitio.
Preguntas frecuentes
¿Es gratis usar OpenAI Whisper?
Sí. El modelo Whisper de código abierto y sus pesos se publican bajo la licencia MIT, así que lo ejecutas en tu propia máquina sin coste. OpenAI también ofrece una API de transcripción alojada aparte que factura por uso y que te ahorra la instalación, pero limita las subidas a 25 MB por archivo.
¿Cómo instalo Whisper para transcribir?
Instala primero Python y ffmpeg, y luego ejecuta pip install -U openai-whisper. Si la instalación falla en el paso del tokenizador, añade una cadena de herramientas de Rust e inténtalo de nuevo. Una vez instalado, transcribe un archivo con whisper audio.mp3 --model turbo.
¿Puede Whisper identificar a distintos hablantes?
El modelo Whisper de código abierto no etiqueta a los hablantes por sí solo: está hecho para centrarse en las palabras y dejar de lado las diferencias entre hablantes. Para una transcripción separada por hablante, lo combinas con una biblioteca de diarización como pyannote.audio y unes los resultados, o usas una herramienta que incluya la diarización de hablantes de fábrica, como Subanana.
¿Qué tamaño de modelo de Whisper debería usar?
Whisper viene en varios tamaños (tiny, base, small, medium, large y el optimizado turbo). Los modelos más pequeños son más rápidos y consumen menos memoria; los más grandes son más precisos, pero piden más memoria de GPU. El modelo turbo por defecto es un buen punto de partida general para transcribir, pero usa medium o large si necesitas traducir al inglés un habla que no esté en inglés, ya que turbo no está hecho para traducir.
¿Whisper limpia las muletillas y la puntuación?
No. Whisper te da una transcripción fiel de lo que se dijo, muletillas y arranques en falso incluidos. Convertir eso en prosa limpia y legible es edición manual, o usas una herramienta de transcripción que depure el habla en texto escrito por ti.
¿Whisper se inventa cosas con audio en silencio?
Puede hacerlo. Whisper es propenso a la alucinación —transcribir palabras que nunca se dijeron— y los estudios y reportajes encuentran que esto ocurre sobre todo durante el silencio, las pausas y la música de fondo, más que durante el habla clara. También puede quedarse atascado repitiendo una frase. En una grabación limpia puede que no la veas nunca; en audio del mundo real, con huecos en silencio y ruido ambiente, es un riesgo real, así que conviene cotejar la salida en bruto con el audio. Una herramienta de transcripción gestionada puede ejecutar controles de calidad y volver a enrutar los segmentos que parezcan fabricados, de modo que sea menos probable que estés leyendo texto inventado.
Para terminar
Whisper es una de las mejores cosas que le han pasado al reconocimiento de voz abierto: un modelo capaz, multilingüe y con licencia MIT que ejecutas gratis. Si te sientes cómodo en la terminal, tu audio es limpio y no te importa editar la salida a mano, hacerlo por tu cuenta es de verdad la decisión correcta. Pero un modelo en bruto no es una transcripción terminada: sin etiquetas de hablante, sin limpieza y con un coste de configuración real. Cuando prefieras subir un archivo y recibir de vuelta texto limpio y etiquetado por hablante en cualquiera de más de 80 idiomas, para eso está Subanana.