Транскрипція Whisper: як транскрибувати аудіо за допомогою OpenAI Whisper (і коли виграє кероване рішення)

2026-06-11
KKevin Wong

Щоб транскрибувати аудіо за допомогою OpenAI Whisper, встановіть його командою pip install -U openai-whisper, переконайтеся, що в системі є ffmpeg, а потім запустіть whisper audio.mp3 --model turbo — Whisper збереже текст транскрипції разом із файлами субтитрів. Це універсальна модель розпізнавання мовлення, яка працює з багатьма мовами і добре справляється з чистим аудіо, а оскільки вона має відкритий код під ліцензією MIT, ви можете запускати її на власному комп'ютері безкоштовно.

Чого вона не зробить — це не наведе лад навколо самого тексту: «з коробки» вона не позначить, хто що сказав, не перетворить розмовні слова-паразити на читабельний текст, а її встановлення (драйвери GPU, ffmpeg, інколи Rust) — окремий невеликий проєкт. Цей посібник проходить реальні способи запуску Whisper, а потім чесно показує, де закінчується самостійний шлях і починає мати сенс кероване рішення.

Розкриття: я керую Subanana — інструментом для AI-транскрипції. Усе нижче про Whisper взято з опублікованих OpenAI README та документації зі STT, отриманих у червні 2026 року — без вигаданих бенчмарків, і ми не цитуємо відсотки точності від виробників. Whisper можна запускати безкоштовно, а в Subanana є безкоштовний тариф; перевіряйте на власному аудіо.

Транскрипція Whisper: як транскрибувати аудіо за допомогою OpenAI Whisper

Що таке Whisper і наскільки він хороший?

Whisper — це модель розпізнавання мовлення з відкритим кодом, яку OpenAI оприлюднила для широкого загалу. Одна модель виконує багатомовну транскрипцію, переклад мовлення англійською та визначення мови — саме тому вона стала рушієм за замовчуванням у багатьох застосунках для транскрипції. Вона сильна на чистому аудіо з одним мовцем поширеними мовами і помітно слабша на сильних акцентах, швидкому накладанні реплік, перемиканні між мовами (дві мови в одному реченні) та зашумлених записах — це ті самі складні випадки, що кидають виклик кожній моделі розпізнавання мовлення.

Ми свідомо не ставимо їй відсоток точності. Показники частоти помилок у словах сильно коливаються залежно від аудіо, мови та того, хто вимірює, тож єдина цифра на кшталт «Whisper точний на X%» радше вводить в оману, ніж інформує — ось як ми натомість підходимо до оцінювання моделей. Практичний висновок: на чистому записі поширеною мовою Whisper хороший; що далі ваше аудіо відхиляється від цього, то більше вичитки доведеться робити вручну.

Як транскрибувати аудіо за допомогою Whisper?

Є чотири реалістичні шляхи — від найбільш ручного до найменш. Обирайте за тим, наскільки вам комфортно в терміналі і чи хочете ви запускати модель локально, чи звертатися до хмарного API.

Шлях 1 — pip і командний рядок (локальний запуск, безкоштовно)

Це канонічний спосіб, і він безкоштовний. Спершу вам знадобляться Python та командний інструмент ffmpeg (brew install ffmpeg на macOS, sudo apt install ffmpeg на Debian/Ubuntu або менеджер пакетів вашої платформи).

  1. Встановіть Whisper: pip install -U openai-whisper. Якщо встановлення завершиться помилкою на токенізаторі, вам також може знадобитися набір інструментів Rust на комп'ютері.
  2. Транскрибуйте файл моделлю turbo за замовчуванням: whisper audio.mp3 --model turbo. Whisper виведе текст і збереже файли транскрипції та субтитрів поряд із вашим аудіо.
  3. Для іншого компромісу між швидкістю та точністю оберіть інший розмір моделі через --model (детальніше про розміри — нижче).
  4. Щоб перекласти неанглійське мовлення англійською, скористайтеся більшою моделлю із завданням перекладу, наприклад whisper interview.wav --model medium --language Japanese --task translate. Зверніть увагу: модель turbo створена для транскрипції, а не для перекладу — для перекладу використовуйте medium чи large.

Шлях 2 — Python (для скриптів і конвеєрів)

Якщо ви вбудовуєте транскрипцію у власний код, Python-інтерфейс — це три рядки:

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Це дає вам текст разом із сегментами з часовими мітками, які ви можете обробляти далі як заманеться — у цьому й суть програмного шляху.

Шлях 3 — хмарний API від OpenAI (без локального GPU)

Не хочете встановлювати моделі чи мати власний GPU? OpenAI надає транскрипцію як хмарний API: ви надсилаєте файл і отримуєте текст у відповідь. Вам знадобляться обліковий запис OpenAI та ключ API, а завантаження наразі обмежені 25 МБ на файл, тож довші записи доведеться спершу розділяти.

from openai import OpenAI

client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
)
print(transcription.text)

Хмарний API міняє мороку зі встановленням на оплату за використання та обмеження розміру файлу. Він добре пасує, якщо ви вже будуєте на OpenAI і вам просто потрібен текст із коротких фрагментів.

Шлях 4 — десктопний GUI на основі Whisper

Якщо ви взагалі не хочете торкатися термінала, кілька сторонніх десктопних застосунків загортають модель Whisper у вікно з перетягуванням файлів. Це найдружніший спосіб почати, але ви все одно запускаєте «голу» модель — тож прогалини нижче (немає міток мовців, немає вичитки) досі чинні, і ви успадковуєте ті версії моделі та обмеження, які постачає застосунок.

Які реальні прогалини у Whisper?

Whisper транскрибує добре. Чесна складність — в усьому, що навколо тексту, і цей перелік однаковий, чи ви запускаєте модель локально, чи звертаєтеся до API.

  • Немає вбудованих міток мовців. Модель Whisper з відкритим кодом не каже вам, хто говорив; за задумом вона лишає відмінності між мовцями осторонь, щоб зосередитися на словах. Щоб отримати транскрипцію з поділом на «Мовець 1 / Мовець 2», ви докручуєте окрему бібліотеку діаризації, як-от pyannote.audio, і самостійно об'єднуєте два результати — це реальна інженерна задача. (Хмарний API від OpenAI відтоді додав окрему модель із підтримкою діаризації, але це інший, платний хмарний продукт зі своїм налаштуванням.)
  • Немає вичитки для читабельності. Ви отримуєте достовірний запис мовлення — разом з усіма «е-е», обірваними фразами та невпевненими початками. Перетворення цього на чистий, читабельний текст — ручне редагування.
  • Тертя з середовищем і обчисленнями. Встановлення моделі, ffmpeg, інколи Rust, плюс пам'ять GPU, якої потребують більші моделі, — це окремий проєкт з налаштування. Хмарний API прибирає встановлення, але додає обмеження файлу 25 МБ та оплату за використання.
  • Це модель, а не робочий процес. Whisper віддає вам сирий результат. Імпорт медіа за посиланням, налаштування глосарія, щоб назви брендів і жаргон виходили написаними правильно, упорядкування проєктів, експорт у потрібний вашій команді формат — нічого з цього не входить у його обсяг. Це ви збираєте самі.

Це не докори Whisper — це межа між моделлю та готовим інструментом. Якщо вам подобається це збирати, а ваше аудіо чисте, самостійний шлях справді чудовий і безкоштовний.

Коли виграє кероване рішення для транскрипції?

Тоді, коли ви радше отримаєте чисту, з мітками мовців, читабельну транскрипцію назад, не будуючи конвеєр самостійно. Саме цю прогалину закриває Subanana. Замість прив'язки до однієї моделі розпізнавання мовлення, він безперервно порівнює моделі STT і скеровує кожне завдання до найсильнішої для мови джерела. У режимі транскрипції ось частини, що прямо лягають на прогалини Whisper:

  • Нічого не треба встановлювати. Завантажте файл (або вставте публічне посилання) у браузері й отримайте транскрипцію назад — без Python, без ffmpeg, без GPU, без жонглювання розміром файлу.
  • Розділення мовців вбудоване. Аудіо з кількома мовцями повертається автоматично розміченим за мовцями, без другої бібліотеки, яку треба підключати.
  • Розмовне мовлення перетворене на чистий письмовий текст. Слова-паразити та обірвані фрази вичищені до читабельного тексту, тож ви редагуєте готовий чернетковий варіант, а не сирий дамп.
  • 80+ мов, сильні на складних випадках. Створене так, щоб витримувати акцентоване мовлення, аудіо з перемиканням між мовами та азійські мови, поряд з основними західними мовами.
  • Глосарій, який можна налаштувати. Закріпіть назви брендів, продуктів і жаргон, щоб вони транскрибувалися правильно — список на рівні робочого простору плюс списки для окремих проєктів і масовий імпорт.

Спробувати можна на plus.subanana.com — завантажте запис і отримаєте розмічену за мовцями, вичищену транскрипцію назад, нічого не встановлюючи.

Компроміс звичний: Whisper безкоштовний і безмежно налаштовуваний, якщо ви робитимете інженерну роботу; кероване рішення коштує грошей, але віддає вам готову транскрипцію. Для разового чистого запису, який вам комфортно скриптувати, Whisper важко перевершити за ціною. Для регулярного, багатомовцевого чи безладного аудіо з реального світу, де вам просто потрібен придатний текст, кероване рішення зазвичай окуповується зекономленим часом на редагування.

Whisper (самостійно) vs кероване AI-рішення для транскрипції

Whisper (самостійно)Кероване AI-рішення (Subanana)
ВартістьБезкоштовно локально (відкритий код); хмарний API — оплата за використанняПлатно, з безкоштовним тарифом для проби
НалаштуванняВстановити Python, ffmpeg, інколи Rust; або звертатися до хмарного APIНемає — працює в браузері
Розділення мовцівНе вбудоване (підключаєте pyannote.audio самі)✅ автоматичні мітки мовців
Читабельність / вичистка слів-паразитів❌ сире мовлення, редагуєте вручну✅ розмовне мовлення вичищене до письмового тексту
МовиБагато, сильні на основних мовах80+, сильні на акцентованому аудіо, з перемиканням мов та азійському
Розмір файлуОбмеження 25 МБ на хмарному API; локально — за вашим обладнаннямПідтримуються великі файли
Найкраще дляРозробників, які хочуть безкоштовну налаштовувану модельУсіх, кому потрібна чиста транскрипція без збирання

Висновок: Whisper — відмінна безкоштовна модель, якщо ви готові її запускати й робити вичитку. Щойно вам потрібні мітки мовців, читабельний результат або ви просто не хочете обслуговувати конвеєр транскрипції — саме там кероване рішення виправдовує своє місце.

Поширені запитання

Whisper від OpenAI безкоштовний?

Так. Модель Whisper з відкритим кодом та її ваги випущені під ліцензією MIT, тож ви можете запускати її на власному комп'ютері безкоштовно. OpenAI також пропонує окремий хмарний API транскрипції з оплатою за використання, який позбавляє вас встановлення, але обмежує завантаження до 25 МБ на файл.

Як встановити Whisper для транскрипції?

Спершу встановіть Python та ffmpeg, потім запустіть pip install -U openai-whisper. Якщо встановлення завершиться помилкою на кроці токенізатора, додайте набір інструментів Rust і спробуйте знову. Після встановлення транскрибуйте файл командою whisper audio.mp3 --model turbo.

Чи може Whisper розрізняти мовців?

Модель Whisper з відкритим кодом не позначає мовців самостійно — вона створена, щоб зосереджуватися на словах і лишати відмінності між мовцями осторонь. Щоб отримати транскрипцію з поділом на мовців, ви поєднуєте її з бібліотекою діаризації, як-от pyannote.audio, і об'єднуєте результати — або користуєтеся інструментом із вбудованим розділенням мовців, як-от Subanana.

Який розмір моделі Whisper обрати?

Whisper постачається в кількох розмірах (tiny, base, small, medium, large та оптимізований turbo). Менші моделі швидші й легші для пам'яті; більші точніші, але потребують більше пам'яті GPU. Стандартний turbo — хороша універсальна відправна точка для транскрипції, але використовуйте medium чи large, якщо потрібно перекласти неанглійське мовлення англійською, адже turbo не створений для перекладу.

Чи вичищає Whisper слова-паразити та пунктуацію?

Ні. Whisper дає вам достовірний запис сказаного, разом зі словами-паразитами та обірваними фразами. Перетворення цього на чистий, читабельний текст — ручне редагування, або ви користуєтеся інструментом транскрипції, який вичищає розмовне мовлення на письмовий текст за вас.

Підсумок

Whisper — одна з найкращих подій для відкритого розпізнавання мовлення: спроможна, багатомовна модель під ліцензією MIT, яку можна запускати безкоштовно. Якщо вам комфортно в терміналі, ваше аудіо чисте, і ви не проти редагувати результат вручну, самостійний шлях справді правильний вибір. Але сира модель — це не готова транскрипція: немає міток мовців, немає вичитки і є реальний податок на налаштування. Коли ви радше завантажите файл і отримаєте чистий, розмічений за мовцями текст назад будь-якою з 80+ мов — саме для цього існує Subanana.

Підвищуйте ефективність із Subanana

Платіжний метод не потрібен
Безкоштовна пробна версія
Можна скасувати будь‑коли