Транскрипція Whisper: як транскрибувати аудіо за допомогою Whisper

Щоб транскрибувати аудіо за допомогою OpenAI Whisper, встановіть його командою pip install -U openai-whisper, переконайтеся, що в системі є ffmpeg, а потім запустіть whisper audio.mp3 --model turbo — Whisper збереже текст транскрипції разом із файлами субтитрів. Це універсальна модель розпізнавання мовлення, яка працює з багатьма мовами і добре справляється з чистим аудіо, а оскільки вона має відкритий код під ліцензією MIT, ви можете запускати її на власному комп'ютері безкоштовно.

Чого вона не зробить — це не наведе лад навколо самого тексту: «з коробки» вона не позначить, хто що сказав, не перетворить розмовні слова-паразити на читабельний текст, а її встановлення (драйвери GPU, ffmpeg, інколи Rust) — окремий невеликий проєкт. Цей посібник проходить реальні способи запуску Whisper, а потім чесно показує, де закінчується самостійний шлях і починає мати сенс кероване рішення.

Розкриття: я керую Subanana — інструментом для AI-транскрипції. Усе нижче про Whisper взято з опублікованих OpenAI README та документації зі STT, отриманих у червні 2026 року — без вигаданих бенчмарків, і ми не цитуємо відсотки точності від виробників. Whisper можна запускати безкоштовно, а в Subanana є безкоштовний тариф; перевіряйте на власному аудіо.

Що таке Whisper і наскільки він хороший?

Whisper — це модель розпізнавання мовлення з відкритим кодом, яку OpenAI оприлюднила для широкого загалу. Одна модель виконує багатомовну транскрипцію, переклад мовлення англійською та визначення мови — саме тому вона стала рушієм за замовчуванням у багатьох застосунках для транскрипції. Вона сильна на чистому аудіо з одним мовцем поширеними мовами і помітно слабша на сильних акцентах, швидкому накладанні реплік, перемиканні між мовами (дві мови в одному реченні) та зашумлених записах — це ті самі складні випадки, що кидають виклик кожній моделі розпізнавання мовлення.

Ми свідомо не ставимо їй відсоток точності. Показники частоти помилок у словах сильно коливаються залежно від аудіо, мови та того, хто вимірює, тож єдина цифра на кшталт «Whisper точний на X%» радше вводить в оману, ніж інформує — ось як ми натомість підходимо до оцінювання моделей. Практичний висновок: на чистому записі поширеною мовою Whisper хороший; що далі ваше аудіо відхиляється від цього, то більше вичитки доведеться робити вручну.

Як транскрибувати аудіо за допомогою Whisper?

Є чотири реалістичні шляхи — від найбільш ручного до найменш. Обирайте за тим, наскільки вам комфортно в терміналі і чи хочете ви запускати модель локально, чи звертатися до хмарного API.

Шлях 1 — pip і командний рядок (локальний запуск, безкоштовно)

Це канонічний спосіб, і він безкоштовний. Спершу вам знадобляться Python та командний інструмент ffmpeg (brew install ffmpeg на macOS, sudo apt install ffmpeg на Debian/Ubuntu або менеджер пакетів вашої платформи).

Встановіть Whisper: pip install -U openai-whisper. Якщо встановлення завершиться помилкою на токенізаторі, вам також може знадобитися набір інструментів Rust на комп'ютері.
Транскрибуйте файл моделлю turbo за замовчуванням: whisper audio.mp3 --model turbo. Whisper виведе текст і збереже файли транскрипції та субтитрів поряд із вашим аудіо.
Для іншого компромісу між швидкістю та точністю оберіть інший розмір моделі через --model (детальніше про розміри — нижче).
Щоб перекласти неанглійське мовлення англійською, скористайтеся більшою моделлю із завданням перекладу, наприклад whisper interview.wav --model medium --language Japanese --task translate. Зверніть увагу: модель turbo створена для транскрипції, а не для перекладу — для перекладу використовуйте medium чи large.

Шлях 2 — Python (для скриптів і конвеєрів)

Якщо ви вбудовуєте транскрипцію у власний код, Python-інтерфейс — це три рядки:

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Це дає вам текст разом із сегментами з часовими мітками, які ви можете обробляти далі як заманеться — у цьому й суть програмного шляху.

Шлях 3 — хмарний API від OpenAI (без локального GPU)

Не хочете встановлювати моделі чи мати власний GPU? OpenAI надає транскрипцію як хмарний API: ви надсилаєте файл і отримуєте текст у відповідь. Вам знадобляться обліковий запис OpenAI та ключ API, а завантаження наразі обмежені 25 МБ на файл, тож довші записи доведеться спершу розділяти.

from openai import OpenAI

client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
)
print(transcription.text)

Хмарний API міняє мороку зі встановленням на оплату за використання та обмеження розміру файлу. Він добре пасує, якщо ви вже будуєте на OpenAI і вам просто потрібен текст із коротких фрагментів.

Шлях 4 — десктопний GUI на основі Whisper

Якщо ви взагалі не хочете торкатися термінала, кілька сторонніх десктопних застосунків загортають модель Whisper у вікно з перетягуванням файлів. Це найдружніший спосіб почати, але ви все одно запускаєте «голу» модель — тож прогалини нижче (немає міток мовців, немає вичитки) досі чинні, і ви успадковуєте ті версії моделі та обмеження, які постачає застосунок.

Які реальні прогалини у Whisper?

Whisper транскрибує добре. Чесна складність — в усьому, що навколо тексту, і цей перелік однаковий, чи ви запускаєте модель локально, чи звертаєтеся до API.

Немає вбудованих міток мовців. Модель Whisper з відкритим кодом не каже вам, хто говорив; за задумом вона лишає відмінності між мовцями осторонь, щоб зосередитися на словах. Щоб отримати транскрипцію з поділом на «Мовець 1 / Мовець 2», ви докручуєте окрему бібліотеку діаризації, як-от pyannote.audio, і самостійно об'єднуєте два результати — це реальна інженерна задача. (Хмарний API від OpenAI відтоді додав окрему модель із підтримкою діаризації, але це інший, платний хмарний продукт зі своїм налаштуванням.)
Немає вичитки для читабельності. Ви отримуєте достовірний запис мовлення — разом з усіма «е-е», обірваними фразами та невпевненими початками. Перетворення цього на чистий, читабельний текст — ручне редагування.
Тертя з середовищем і обчисленнями. Встановлення моделі, ffmpeg, інколи Rust, плюс пам'ять GPU, якої потребують більші моделі, — це окремий проєкт з налаштування. Хмарний API прибирає встановлення, але додає обмеження файлу 25 МБ та оплату за використання.
Це модель, а не робочий процес. Whisper віддає вам сирий результат. Імпорт медіа за посиланням, налаштування глосарія, щоб назви брендів і жаргон виходили написаними правильно, упорядкування проєктів, експорт у потрібний вашій команді формат — нічого з цього не входить у його обсяг. Це ви збираєте самі.

Це не докори Whisper — це межа між моделлю та готовим інструментом. Якщо вам подобається це збирати, а ваше аудіо чисте, самостійний шлях справді чудовий і безкоштовний.

Коли виграє кероване рішення для транскрипції?

Тоді, коли ви радше отримаєте чисту, з мітками мовців, читабельну транскрипцію назад, не будуючи конвеєр самостійно. Саме цю прогалину закриває Subanana. Замість прив'язки до однієї моделі розпізнавання мовлення, він безперервно порівнює моделі STT і скеровує кожне завдання до найсильнішої для мови джерела. У режимі транскрипції ось частини, що прямо лягають на прогалини Whisper:

Нічого не треба встановлювати. Завантажте файл (або вставте публічне посилання) у браузері й отримайте транскрипцію назад — без Python, без ffmpeg, без GPU, без жонглювання розміром файлу.
Розділення мовців вбудоване. Аудіо з кількома мовцями повертається автоматично розміченим за мовцями, без другої бібліотеки, яку треба підключати.
Розмовне мовлення перетворене на чистий письмовий текст. Слова-паразити та обірвані фрази вичищені до читабельного тексту, тож ви редагуєте готовий чернетковий варіант, а не сирий дамп.
80+ мов, сильні на складних випадках. Створене так, щоб витримувати акцентоване мовлення, аудіо з перемиканням між мовами та азійські мови, поряд з основними західними мовами.
Глосарій, який можна налаштувати. Закріпіть назви брендів, продуктів і жаргон, щоб вони транскрибувалися правильно — список на рівні робочого простору плюс списки для окремих проєктів і масовий імпорт.

Спробувати можна на plus.subanana.com — завантажте запис і отримаєте розмічену за мовцями, вичищену транскрипцію назад, нічого не встановлюючи.

Компроміс звичний: Whisper безкоштовний і безмежно налаштовуваний, якщо ви робитимете інженерну роботу; кероване рішення коштує грошей, але віддає вам готову транскрипцію. Для разового чистого запису, який вам комфортно скриптувати, Whisper важко перевершити за ціною. Для регулярного, багатомовцевого чи безладного аудіо з реального світу, де вам просто потрібен придатний текст, кероване рішення зазвичай окуповується зекономленим часом на редагування.

Whisper (самостійно) vs кероване AI-рішення для транскрипції

	Whisper (самостійно)	Кероване AI-рішення (Subanana)
Вартість	Безкоштовно локально (відкритий код); хмарний API — оплата за використання	Платно, з безкоштовним тарифом для проби
Налаштування	Встановити Python, `ffmpeg`, інколи Rust; або звертатися до хмарного API	Немає — працює в браузері
Розділення мовців	Не вбудоване (підключаєте pyannote.audio самі)	✅ автоматичні мітки мовців
Читабельність / вичистка слів-паразитів	❌ сире мовлення, редагуєте вручну	✅ розмовне мовлення вичищене до письмового тексту
Мови	Багато, сильні на основних мовах	80+, сильні на акцентованому аудіо, з перемиканням мов та азійському
Розмір файлу	Обмеження 25 МБ на хмарному API; локально — за вашим обладнанням	Підтримуються великі файли
Найкраще для	Розробників, які хочуть безкоштовну налаштовувану модель	Усіх, кому потрібна чиста транскрипція без збирання

Висновок: Whisper — відмінна безкоштовна модель, якщо ви готові її запускати й робити вичитку. Щойно вам потрібні мітки мовців, читабельний результат або ви просто не хочете обслуговувати конвеєр транскрипції — саме там кероване рішення виправдовує своє місце.

Поширені запитання

Whisper від OpenAI безкоштовний?

Так. Модель Whisper з відкритим кодом та її ваги випущені під ліцензією MIT, тож ви можете запускати її на власному комп'ютері безкоштовно. OpenAI також пропонує окремий хмарний API транскрипції з оплатою за використання, який позбавляє вас встановлення, але обмежує завантаження до 25 МБ на файл.

Як встановити Whisper для транскрипції?

Спершу встановіть Python та ffmpeg, потім запустіть pip install -U openai-whisper. Якщо встановлення завершиться помилкою на кроці токенізатора, додайте набір інструментів Rust і спробуйте знову. Після встановлення транскрибуйте файл командою whisper audio.mp3 --model turbo.

Чи може Whisper розрізняти мовців?

Модель Whisper з відкритим кодом не позначає мовців самостійно — вона створена, щоб зосереджуватися на словах і лишати відмінності між мовцями осторонь. Щоб отримати транскрипцію з поділом на мовців, ви поєднуєте її з бібліотекою діаризації, як-от pyannote.audio, і об'єднуєте результати — або користуєтеся інструментом із вбудованим розділенням мовців, як-от Subanana.

Який розмір моделі Whisper обрати?

Whisper постачається в кількох розмірах (tiny, base, small, medium, large та оптимізований turbo). Менші моделі швидші й легші для пам'яті; більші точніші, але потребують більше пам'яті GPU. Стандартний turbo — хороша універсальна відправна точка для транскрипції, але використовуйте medium чи large, якщо потрібно перекласти неанглійське мовлення англійською, адже turbo не створений для перекладу.

Чи вичищає Whisper слова-паразити та пунктуацію?

Ні. Whisper дає вам достовірний запис сказаного, разом зі словами-паразитами та обірваними фразами. Перетворення цього на чистий, читабельний текст — ручне редагування, або ви користуєтеся інструментом транскрипції, який вичищає розмовне мовлення на письмовий текст за вас.

Підсумок

Whisper — одна з найкращих подій для відкритого розпізнавання мовлення: спроможна, багатомовна модель під ліцензією MIT, яку можна запускати безкоштовно. Якщо вам комфортно в терміналі, ваше аудіо чисте, і ви не проти редагувати результат вручну, самостійний шлях справді правильний вибір. Але сира модель — це не готова транскрипція: немає міток мовців, немає вичитки і є реальний податок на налаштування. Коли ви радше завантажите файл і отримаєте чистий, розмічений за мовцями текст назад будь-якою з 80+ мов — саме для цього існує Subanana.

Отримайте чисту транскрипцію 80+ мовами — безкоштовно спробувати

Транскрипція Whisper: як транскрибувати аудіо за допомогою OpenAI Whisper (і коли виграє кероване рішення)