Транскрипція Whisper: як транскрибувати аудіо за допомогою OpenAI Whisper (і коли виграє кероване рішення)
Щоб транскрибувати аудіо за допомогою OpenAI Whisper, встановіть його командою pip install -U openai-whisper, переконайтеся, що в системі є ffmpeg, а потім запустіть whisper audio.mp3 --model turbo — Whisper збереже текст транскрипції разом із файлами субтитрів. Це універсальна модель розпізнавання мовлення, яка працює з багатьма мовами і добре справляється з чистим аудіо, а оскільки вона має відкритий код під ліцензією MIT, ви можете запускати її на власному комп'ютері безкоштовно.
Чого вона не зробить — це не наведе лад навколо самого тексту: «з коробки» вона не позначить, хто що сказав, не перетворить розмовні слова-паразити на читабельний текст, а її встановлення (драйвери GPU, ffmpeg, інколи Rust) — окремий невеликий проєкт. Цей посібник проходить реальні способи запуску Whisper, а потім чесно показує, де закінчується самостійний шлях і починає мати сенс кероване рішення.
Розкриття: я керую Subanana — інструментом для AI-транскрипції. Усе нижче про Whisper взято з опублікованих OpenAI README та документації зі STT, отриманих у червні 2026 року — без вигаданих бенчмарків, і ми не цитуємо відсотки точності від виробників. Whisper можна запускати безкоштовно, а в Subanana є безкоштовний тариф; перевіряйте на власному аудіо.

Що таке Whisper і наскільки він хороший?
Whisper — це модель розпізнавання мовлення з відкритим кодом, яку OpenAI оприлюднила для широкого загалу. Одна модель виконує багатомовну транскрипцію, переклад мовлення англійською та визначення мови — саме тому вона стала рушієм за замовчуванням у багатьох застосунках для транскрипції. Вона сильна на чистому аудіо з одним мовцем поширеними мовами і помітно слабша на сильних акцентах, швидкому накладанні реплік, перемиканні між мовами (дві мови в одному реченні) та зашумлених записах — це ті самі складні випадки, що кидають виклик кожній моделі розпізнавання мовлення.
Ми свідомо не ставимо їй відсоток точності. Показники частоти помилок у словах сильно коливаються залежно від аудіо, мови та того, хто вимірює, тож єдина цифра на кшталт «Whisper точний на X%» радше вводить в оману, ніж інформує — ось як ми натомість підходимо до оцінювання моделей. Практичний висновок: на чистому записі поширеною мовою Whisper хороший; що далі ваше аудіо відхиляється від цього, то більше вичитки доведеться робити вручну.
Як транскрибувати аудіо за допомогою Whisper?
Є чотири реалістичні шляхи — від найбільш ручного до найменш. Обирайте за тим, наскільки вам комфортно в терміналі і чи хочете ви запускати модель локально, чи звертатися до хмарного API.
Шлях 1 — pip і командний рядок (локальний запуск, безкоштовно)
Це канонічний спосіб, і він безкоштовний. Спершу вам знадобляться Python та командний інструмент ffmpeg (brew install ffmpeg на macOS, sudo apt install ffmpeg на Debian/Ubuntu або менеджер пакетів вашої платформи).
- Встановіть Whisper:
pip install -U openai-whisper. Якщо встановлення завершиться помилкою на токенізаторі, вам також може знадобитися набір інструментів Rust на комп'ютері. - Транскрибуйте файл моделлю
turboза замовчуванням:whisper audio.mp3 --model turbo. Whisper виведе текст і збереже файли транскрипції та субтитрів поряд із вашим аудіо. - Для іншого компромісу між швидкістю та точністю оберіть інший розмір моделі через
--model(детальніше про розміри — нижче). - Щоб перекласти неанглійське мовлення англійською, скористайтеся більшою моделлю із завданням перекладу, наприклад
whisper interview.wav --model medium --language Japanese --task translate. Зверніть увагу: модельturboстворена для транскрипції, а не для перекладу — для перекладу використовуйтеmediumчиlarge.
Шлях 2 — Python (для скриптів і конвеєрів)
Якщо ви вбудовуєте транскрипцію у власний код, Python-інтерфейс — це три рядки:
import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])
Це дає вам текст разом із сегментами з часовими мітками, які ви можете обробляти далі як заманеться — у цьому й суть програмного шляху.
Шлях 3 — хмарний API від OpenAI (без локального GPU)
Не хочете встановлювати моделі чи мати власний GPU? OpenAI надає транскрипцію як хмарний API: ви надсилаєте файл і отримуєте текст у відповідь. Вам знадобляться обліковий запис OpenAI та ключ API, а завантаження наразі обмежені 25 МБ на файл, тож довші записи доведеться спершу розділяти.
from openai import OpenAI
client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
)
print(transcription.text)
Хмарний API міняє мороку зі встановленням на оплату за використання та обмеження розміру файлу. Він добре пасує, якщо ви вже будуєте на OpenAI і вам просто потрібен текст із коротких фрагментів.
Шлях 4 — десктопний GUI на основі Whisper
Якщо ви взагалі не хочете торкатися термінала, кілька сторонніх десктопних застосунків загортають модель Whisper у вікно з перетягуванням файлів. Це найдружніший спосіб почати, але ви все одно запускаєте «голу» модель — тож прогалини нижче (немає міток мовців, немає вичитки) досі чинні, і ви успадковуєте ті версії моделі та обмеження, які постачає застосунок.
Які реальні прогалини у Whisper?
Whisper транскрибує добре. Чесна складність — в усьому, що навколо тексту, і цей перелік однаковий, чи ви запускаєте модель локально, чи звертаєтеся до API.
- Немає вбудованих міток мовців. Модель Whisper з відкритим кодом не каже вам, хто говорив; за задумом вона лишає відмінності між мовцями осторонь, щоб зосередитися на словах. Щоб отримати транскрипцію з поділом на «Мовець 1 / Мовець 2», ви докручуєте окрему бібліотеку діаризації, як-от pyannote.audio, і самостійно об'єднуєте два результати — це реальна інженерна задача. (Хмарний API від OpenAI відтоді додав окрему модель із підтримкою діаризації, але це інший, платний хмарний продукт зі своїм налаштуванням.)
- Немає вичитки для читабельності. Ви отримуєте достовірний запис мовлення — разом з усіма «е-е», обірваними фразами та невпевненими початками. Перетворення цього на чистий, читабельний текст — ручне редагування.
- Тертя з середовищем і обчисленнями. Встановлення моделі,
ffmpeg, інколи Rust, плюс пам'ять GPU, якої потребують більші моделі, — це окремий проєкт з налаштування. Хмарний API прибирає встановлення, але додає обмеження файлу 25 МБ та оплату за використання. - Це модель, а не робочий процес. Whisper віддає вам сирий результат. Імпорт медіа за посиланням, налаштування глосарія, щоб назви брендів і жаргон виходили написаними правильно, упорядкування проєктів, експорт у потрібний вашій команді формат — нічого з цього не входить у його обсяг. Це ви збираєте самі.
Це не докори Whisper — це межа між моделлю та готовим інструментом. Якщо вам подобається це збирати, а ваше аудіо чисте, самостійний шлях справді чудовий і безкоштовний.
Коли виграє кероване рішення для транскрипції?
Тоді, коли ви радше отримаєте чисту, з мітками мовців, читабельну транскрипцію назад, не будуючи конвеєр самостійно. Саме цю прогалину закриває Subanana. Замість прив'язки до однієї моделі розпізнавання мовлення, він безперервно порівнює моделі STT і скеровує кожне завдання до найсильнішої для мови джерела. У режимі транскрипції ось частини, що прямо лягають на прогалини Whisper:
- Нічого не треба встановлювати. Завантажте файл (або вставте публічне посилання) у браузері й отримайте транскрипцію назад — без Python, без
ffmpeg, без GPU, без жонглювання розміром файлу. - Розділення мовців вбудоване. Аудіо з кількома мовцями повертається автоматично розміченим за мовцями, без другої бібліотеки, яку треба підключати.
- Розмовне мовлення перетворене на чистий письмовий текст. Слова-паразити та обірвані фрази вичищені до читабельного тексту, тож ви редагуєте готовий чернетковий варіант, а не сирий дамп.
- 80+ мов, сильні на складних випадках. Створене так, щоб витримувати акцентоване мовлення, аудіо з перемиканням між мовами та азійські мови, поряд з основними західними мовами.
- Глосарій, який можна налаштувати. Закріпіть назви брендів, продуктів і жаргон, щоб вони транскрибувалися правильно — список на рівні робочого простору плюс списки для окремих проєктів і масовий імпорт.
Спробувати можна на plus.subanana.com — завантажте запис і отримаєте розмічену за мовцями, вичищену транскрипцію назад, нічого не встановлюючи.
Компроміс звичний: Whisper безкоштовний і безмежно налаштовуваний, якщо ви робитимете інженерну роботу; кероване рішення коштує грошей, але віддає вам готову транскрипцію. Для разового чистого запису, який вам комфортно скриптувати, Whisper важко перевершити за ціною. Для регулярного, багатомовцевого чи безладного аудіо з реального світу, де вам просто потрібен придатний текст, кероване рішення зазвичай окуповується зекономленим часом на редагування.
Whisper (самостійно) vs кероване AI-рішення для транскрипції
| Whisper (самостійно) | Кероване AI-рішення (Subanana) | |
|---|---|---|
| Вартість | Безкоштовно локально (відкритий код); хмарний API — оплата за використання | Платно, з безкоштовним тарифом для проби |
| Налаштування | Встановити Python, ffmpeg, інколи Rust; або звертатися до хмарного API | Немає — працює в браузері |
| Розділення мовців | Не вбудоване (підключаєте pyannote.audio самі) | ✅ автоматичні мітки мовців |
| Читабельність / вичистка слів-паразитів | ❌ сире мовлення, редагуєте вручну | ✅ розмовне мовлення вичищене до письмового тексту |
| Мови | Багато, сильні на основних мовах | 80+, сильні на акцентованому аудіо, з перемиканням мов та азійському |
| Розмір файлу | Обмеження 25 МБ на хмарному API; локально — за вашим обладнанням | Підтримуються великі файли |
| Найкраще для | Розробників, які хочуть безкоштовну налаштовувану модель | Усіх, кому потрібна чиста транскрипція без збирання |
Висновок: Whisper — відмінна безкоштовна модель, якщо ви готові її запускати й робити вичитку. Щойно вам потрібні мітки мовців, читабельний результат або ви просто не хочете обслуговувати конвеєр транскрипції — саме там кероване рішення виправдовує своє місце.
Поширені запитання
Whisper від OpenAI безкоштовний?
Так. Модель Whisper з відкритим кодом та її ваги випущені під ліцензією MIT, тож ви можете запускати її на власному комп'ютері безкоштовно. OpenAI також пропонує окремий хмарний API транскрипції з оплатою за використання, який позбавляє вас встановлення, але обмежує завантаження до 25 МБ на файл.
Як встановити Whisper для транскрипції?
Спершу встановіть Python та ffmpeg, потім запустіть pip install -U openai-whisper. Якщо встановлення завершиться помилкою на кроці токенізатора, додайте набір інструментів Rust і спробуйте знову. Після встановлення транскрибуйте файл командою whisper audio.mp3 --model turbo.
Чи може Whisper розрізняти мовців?
Модель Whisper з відкритим кодом не позначає мовців самостійно — вона створена, щоб зосереджуватися на словах і лишати відмінності між мовцями осторонь. Щоб отримати транскрипцію з поділом на мовців, ви поєднуєте її з бібліотекою діаризації, як-от pyannote.audio, і об'єднуєте результати — або користуєтеся інструментом із вбудованим розділенням мовців, як-от Subanana.
Який розмір моделі Whisper обрати?
Whisper постачається в кількох розмірах (tiny, base, small, medium, large та оптимізований turbo). Менші моделі швидші й легші для пам'яті; більші точніші, але потребують більше пам'яті GPU. Стандартний turbo — хороша універсальна відправна точка для транскрипції, але використовуйте medium чи large, якщо потрібно перекласти неанглійське мовлення англійською, адже turbo не створений для перекладу.
Чи вичищає Whisper слова-паразити та пунктуацію?
Ні. Whisper дає вам достовірний запис сказаного, разом зі словами-паразитами та обірваними фразами. Перетворення цього на чистий, читабельний текст — ручне редагування, або ви користуєтеся інструментом транскрипції, який вичищає розмовне мовлення на письмовий текст за вас.
Підсумок
Whisper — одна з найкращих подій для відкритого розпізнавання мовлення: спроможна, багатомовна модель під ліцензією MIT, яку можна запускати безкоштовно. Якщо вам комфортно в терміналі, ваше аудіо чисте, і ви не проти редагувати результат вручну, самостійний шлях справді правильний вибір. Але сира модель — це не готова транскрипція: немає міток мовців, немає вичитки і є реальний податок на налаштування. Коли ви радше завантажите файл і отримаєте чистий, розмічений за мовцями текст назад будь-якою з 80+ мов — саме для цього існує Subanana.