Whisper Transkripsiyon: OpenAI Whisper ile Ses Metne Nasıl Dökülür (ve Yönetilen Bir Araç Ne Zaman Kazanır)

2026-06-03
KKevin Wong

OpenAI Whisper ile sesi metne dökmek için onu pip install -U openai-whisper komutuyla kurun, sisteminizde ffmpeg bulunduğundan emin olun ve ardından whisper audio.mp3 --model turbo komutunu çalıştırın — Whisper bir transkript ile birlikte altyazı dosyaları üretir. Bu, birçok dili işleyen ve temiz seste iyi sonuç veren genel amaçlı bir konuşma tanıma modelidir; ve MIT lisansı altında açık kaynak olduğu için onu kendi makinenizde ücretsiz çalıştırabilirsiniz.

Yapmadığı şey ise transkriptin çevresindeki ince işlerdir: kutudan çıktığı haliyle kimin konuştuğunu etiketlemez, konuşmadaki dolgu sözcüklerini okunabilir bir metne dönüştürmez ve kurulumun kendisi (GPU sürücüleri, ffmpeg, bazen Rust) başlı başına küçük bir projedir. Bu rehber, Whisper'ı çalıştırmanın gerçek yollarını gösteriyor; ardından kendin kur yolunun nerede bittiği ve yönetilen bir aracın nerede anlam kazanmaya başladığı konusunda dürüst davranıyor.

Açıklama: Ben bir yapay zekâ transkripsiyon aracı olan Subanana'yı yürütüyorum. Aşağıdaki Whisper'a dair her şey, OpenAI'nin yayımladığı README ve konuşmadan metne dokümanlarından geliyor; Haziran 2026'da alındı — uydurma kıyaslama yok. Tek bir sayı bilgilendirmekten çok yanıltacağı için, sağlayıcıların doğruluk yüzdelerini bilerek anmıyoruz. Whisper'ı çalıştırmak ücretsizdir ve Subanana'nın da ücretsiz bir katmanı vardır; kendi sesinizi deneyin.

Whisper Transkripsiyon: OpenAI Whisper ile Ses Metne Nasıl Dökülür (ve Yönetilen Bir Araç Ne Zaman Kazanır)

Whisper nedir ve ne kadar iyidir?

Whisper, OpenAI'nin herkesin kullanımına açtığı, açık kaynaklı bir konuşma tanıma modelidir. Tek bir model; çok dilli transkripsiyonu, konuşmanın İngilizceye çevrilmesini ve dil tanımlamayı üstlenir — bu da onu pek çok transkripsiyon uygulamasının içindeki varsayılan motor hâline getiren şeydir. Yaygın konuşulan dillerde, temiz ve tek konuşmacılı seste güçlüdür; ağır aksanlarda, hızlı üst üste konuşmada, dil karışımında (bir cümle içinde iki dil) ve gürültülü kayıtlarda ise gözle görülür biçimde daha zayıftır — yani her konuşma modelini zorlayan o zorlu durumların tam olarak kendisinde.

Buna bilerek bir doğruluk yüzdesi koymuyoruz. Kelime hata oranları sese, dile ve ölçen tarafa göre büyük ölçüde değişir; bu yüzden "Whisper yüzde X doğru" kalıbındaki tek bir rakam, bilgilendirmekten çok yanıltma eğilimindedir. Pratikte şu anlama gelir: Büyük bir dilde net bir kayıtta Whisper iyidir; sesiniz bundan ne kadar uzaklaşırsa, o kadar çok düzeltmeyi elinizle yaparsınız.

Whisper ile sesi nasıl metne dökersiniz?

En çok elinizi kirletenden en rahatına doğru, dört gerçekçi yol vardır. Terminalde ne kadar rahat olduğunuza ve yerelde mi çalışmak yoksa barındırılan bir API'yi mi çağırmak istediğinize göre seçin.

Yol 1 — pip ve komut satırı (yerelde çalıştırın, ücretsiz)

Bu, klasik yoldur ve ücretsizdir. Önce Python'a ve komut satırı aracı ffmpeg'e ihtiyacınız olacak (macOS'ta brew install ffmpeg, Debian/Ubuntu'da sudo apt install ffmpeg veya platformunuzun paket yöneticisi).

  1. Whisper'ı kurun: pip install -U openai-whisper. Kurulum tokenizer adımında hata verirse, ek olarak bir Rust araç zincirine ihtiyacınız olabilir.
  2. Bir dosyayı varsayılan turbo modeliyle metne dökün: whisper audio.mp3 --model turbo. Whisper metni ekrana yazar ve sesinizin yanına transkript ile altyazı dosyaları bırakır.
  3. Farklı bir hız/doğruluk dengesi için --model ile başka bir model boyutu seçin (boyutlar hakkında daha fazlası aşağıda).
  4. İngilizce olmayan konuşmayı İngilizceye çevirmek için çeviri göreviyle daha büyük bir model kullanın, örneğin whisper interview.wav --model medium --language Japanese --task translate. Şuna dikkat edin: turbo modeli çeviri için değil, transkripsiyon için yapılmıştır — çeviri için medium veya large kullanın.

Yol 2 — Python (betikler ve veri hatları için)

Transkripsiyonu kendi kodunuza bağlıyorsanız, Python arayüzü üç satırdır:

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Bu size metni, ayrıca dilediğiniz gibi işleyebileceğiniz zaman damgalı bölümleri verir — zaten kod yolundan gitmenin amacı da budur.

Yol 3 — barındırılan OpenAI API'si (yerel GPU olmadan)

Model kurmak ve bir GPU sahibi olmak istemiyor musunuz? OpenAI, transkripsiyonu barındırılan bir API olarak sunar: bir dosya gönderir, karşılığında metin alırsınız. Bunun için bir OpenAI hesabına ve bir API anahtarına ihtiyacınız var; yüklemeler şu anda dosya başına 25 MB ile sınırlıdır, dolayısıyla daha uzun kayıtların önce bölünmesi gerekir.

from openai import OpenAI

client = OpenAI()
audio_file = open("speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
)
print(transcription.text)

Barındırılan API, kurulum derdini kullanım başına faturalandırma ve sözü edilen dosya boyutu sınırıyla takas eder. Zaten OpenAI üzerine bir şey inşa ediyorsanız ve sadece kısa kliplerden metin istiyorsanız iyi oturur.

Yol 4 — Whisper üzerine kurulu bir masaüstü arayüzü

Terminale hiç dokunmak istemiyorsanız, birkaç üçüncü taraf masaüstü uygulaması Whisper modelini sürükle-bırak yapılan bir pencerenin arkasına yerleştirir. En dostane başlangıç noktasıdırlar, ama yine de çıplak modeli çalıştırıyorsunuz — yani aşağıdaki eksikler (konuşmacı etiketi yok, temizlik yok) hâlâ geçerlidir ve ilgili uygulamanın getirdiği model sürümlerini ve sınırları devralırsınız.

Whisper'ın gerçek eksikleri neler?

Whisper iyi metne döker. Dürüst zorluk, transkriptin çevresindeki her şeydedir — ve liste, ister yerelde çalışın ister API'yi çağırın, aynıdır.

  • Yerleşik konuşmacı etiketi yok. Açık kaynaklı Whisper modeli size kimin konuştuğunu söylemez; tasarım gereği konuşmacı farklarını bir kenara bırakıp sözcüklere odaklanır. "Konuşmacı 1 / Konuşmacı 2" biçiminde bir transkript için ayrı bir konuşmacı ayrımı kütüphanesi (örneğin pyannote.audio) ekler ve iki çıktıyı kendiniz birleştirirsiniz — gerçek bir mühendislik işi. (OpenAI'nin barındırılan API'si bu arada konuşmacı ayrımı yapabilen ayrı bir model ekledi, ama o, kendi kurulumu olan, farklı ve ücretli bir bulut ürünüdür.)
  • Okunabilirlik için temizlik yok. Söylenenin sadık bir dökümünü alırsınız — her "ıı", her yarım kalmış başlangıç ve her uzayıp giden cümle dâhil. Bunu temiz, okunabilir bir metne dönüştürmek elle yapılan bir iştir.
  • Ortam ve işlem gücü engelleri. Modeli, ffmpeg'i ve kimi zaman Rust'ı kurmak, üstüne daha büyük modellerin istediği GPU belleği, başlı başına bir kurulum projesidir. Barındırılan API kurulumu üstünüzden alır, ama 25 MB sınırını ve kullanım başına maliyeti ekler.
  • Bu bir model, bir iş akışı değil. Whisper size ham çıktı uzatır. Medyayı URL ile içeri aktarmak, marka adları ve teknik terimler doğru yazılsın diye bir sözlük tanımlamak, projeleri düzenlemek, ekibinizin ihtiyaç duyduğu biçime dışa aktarmak — bunların hiçbiri kapsamında değildir. Bunu kendiniz bir araya getirirsiniz.

Bunlar Whisper'a yöneltilen suçlamalar değil — bir model ile bitmiş bir araç arasındaki sınırdır. Bir araya getirmek size keyif veriyorsa ve sesiniz temizse, kendin kur yolu gerçekten harikadır ve ücretsizdir.

Yönetilen bir transkripsiyon aracı ne zaman kazanır?

Veri hattını kendiniz kurmadan; temiz, konuşmacıya göre etiketlenmiş ve okunabilir bir transkripti geri almayı tercih ettiğiniz zaman. Subanana'nın doldurduğu boşluk tam olarak budur. Tek bir konuşma modeline kilitlenmek yerine, konuşma tanıma modellerini sürekli karşılaştırır ve her işi kaynak dil için en güçlü modele yönlendirir. Transkripsiyon modunda, Whisper'ın eksiklerine doğrudan oturan noktalar şunlardır:

  • Kuracak hiçbir şey yok. Tarayıcıda bir dosya yükleyin (veya herkese açık bir bağlantı yapıştırın) ve geri bir transkript alın — Python yok, ffmpeg yok, GPU yok, dosya boyutuyla uğraşmak yok.
  • Konuşmacı ayrımı yerleşik. Birden fazla konuşmacılı ses, ikinci bir kütüphane bağlamanıza gerek kalmadan, otomatik olarak konuşmacıya göre etiketlenmiş gelir.
  • Konuşulan dil, temiz yazılı metne dönüşür. Dolgu sözcükleri ve yarım kalmış başlangıçlar okunabilir bir metne temizlenir, böylece ham bir döküm yerine bitmiş bir taslağı düzenlersiniz.
  • 80'den fazla dil, zorlu durumlarda güçlü. Aksanlı konuşmada, dil karışımı içeren seste ve Asya dillerinde de ayakta kalacak biçimde kurulmuştur — büyük Batı dillerinin yanı sıra.
  • Tanımlayabileceğiniz bir sözlük. Marka, ürün ve teknik terimleri doğru yazılsınlar diye sabitleyin; bir çalışma alanı listesi, ayrıca projeye özel listeler ve toplu içe aktarma ile.

Onu plus.subanana.com adresinde deneyebilirsiniz — bir kayıt yükleyin, hiçbir şey kurmadan, etiketlenmiş ve temizlenmiş bir transkripti geri alın.

Takas her zamanki gibidir: Mühendislik işini siz üstlenirseniz Whisper ücretsiz ve sonsuz ayarlanabilirdir; yönetilen bir araç para tutar ama size bitmiş transkripti uzatır. Kendiniz betiklemekten memnun olduğunuz tek seferlik, temiz bir kayıt için Whisper'ı fiyatta yenmek zordur. Yalnızca kullanılabilir bir metne ihtiyaç duyduğunuz, tekrar eden, çok konuşmacılı veya gerçek hayatın dağınık sesinde ise yönetilen yol, kazandırdığı düzenleme süresiyle genellikle kendini amorti eder.

Whisper (kendin kur) ile yönetilen bir yapay zekâ transkripsiyon aracı

Whisper (kendin kur)Yönetilen yapay zekâ transkripsiyonu (Subanana)
MaliyetYerelde ücretsiz (açık kaynak); barındırılan API kullanım başına faturalandırırÜcretli, denemek için ücretsiz katman ile
KurulumPython, ffmpeg, bazen Rust kurun; ya da barındırılan API'yi çağırınYok — tarayıcıda çalışır
Konuşmacı ayrımıYerleşik değil (pyannote.audio'yu kendiniz ekleyin)✅ otomatik konuşmacı etiketleri
Okunabilirlik / dolgu temizliği❌ ham konuşma, elle düzenlersiniz✅ konuşulan dil yazılı metne temizlenir
DillerÇok sayıda, büyük dillerde güçlü80'den fazla, aksanlı ve dil karışımı içeren seste güçlü
Dosya boyutuBarındırılan API'de 25 MB sınırı; yerelde donanımınızla sınırlıBüyük dosyalar destekli
En uygun olduğu durumÜcretsiz, ayarlanabilir bir model isteyen geliştiricilerİnşa derdine girmeden temiz bir transkript isteyen herkes

Özetle: Whisper, onu çalıştırmaya ve sonradan düzeltmeyi yapmaya gönüllüyseniz mükemmel ve ücretsiz bir modeldir. Konuşmacı etiketine, okunabilir çıktıya ihtiyaç duyduğunuz ya da bir transkripsiyon veri hattını sürdürmek istemediğiniz anda, yönetilen bir araç yerini hak eder.

Sıkça sorulan sorular

OpenAI Whisper'ın kullanımı ücretsiz mi?

Evet. Açık kaynaklı Whisper modeli ve ağırlıkları MIT lisansı altında yayımlanmıştır, dolayısıyla onu kendi makinenizde ücretsiz çalıştırabilirsiniz. OpenAI ayrıca, kullanım başına faturalandıran, kurulumu sizden alan ama yüklemeleri dosya başına 25 MB ile sınırlayan ayrı, barındırılan bir transkripsiyon API'si de sunar.

Transkripsiyon için Whisper'ı nasıl kurarım?

Önce Python ve ffmpeg'i kurun, ardından pip install -U openai-whisper komutunu çalıştırın. Kurulum tokenizer adımında başarısız olursa, bir Rust araç zinciri ekleyip yeniden deneyin. Kurulduktan sonra bir dosyayı whisper audio.mp3 --model turbo ile metne dökün.

Whisper farklı konuşmacıları ayırt edebilir mi?

Açık kaynaklı Whisper modeli konuşmacıları kendi başına etiketlemez — sözcüklere odaklanıp konuşmacı farklarını bir kenara bırakacak biçimde tasarlanmıştır. Konuşmacıya göre ayrılmış bir transkript için onu pyannote.audio gibi bir konuşmacı ayrımı kütüphanesiyle eşleştirip sonuçları birleştirirsiniz; ya da Subanana gibi konuşmacı ayrımı yerleşik bir araç kullanırsınız.

Hangi Whisper model boyutunu kullanmalıyım?

Whisper birkaç boyutta gelir (tiny, base, small, medium, large ve optimize edilmiş turbo). Daha küçük modeller daha hızlı ve bellekte daha tutumludur; daha büyükleri daha doğrudur ama daha çok GPU belleği ister. Varsayılan turbo, transkripsiyon için iyi bir genel başlangıçtır — ama İngilizce olmayan konuşmayı İngilizceye çevirmeniz gerekiyorsa medium veya large kullanın, çünkü turbo çeviri için yapılmamıştır.

Whisper dolgu sözcüklerini ve noktalama işaretlerini düzeltir mi?

Hayır. Whisper, dolgu sözcükleri ve yarım kalmış başlangıçlar dâhil, söylenenin sadık bir dökümünü verir. Bunu temiz, okunabilir bir metne dönüştürmek elle yapılan bir iştir — ya da konuşulan dili sizin için yazılı metne dönüştüren bir transkripsiyon aracı kullanırsınız.

Son söz

Whisper, açık konuşma tanımanın başına gelen en iyi şeylerden biridir: güçlü, çok dilli, MIT lisanslı ve ücretsiz çalıştırabileceğiniz bir model. Terminalde rahatsanız, sesiniz temizse ve sonradan elle düzeltmek size sorun olmuyorsa, kendin kur yolu gerçekten doğru seçimdir. Ama çıplak bir model, bitmiş bir transkript değildir — konuşmacı etiketi yok, temizlik yok ve hissedilir bir kurulum yükü var. Bir dosya yükleyip 80'den fazla dilden birinde temiz, konuşmacıya göre etiketlenmiş bir metni geri almayı tercih ediyorsanız, Subanana tam da bunun için var.

Subanana ile Verimliliğinizi Artırın

Ödeme yöntemi gerekmez
Ücretsiz Deneme
İstediğiniz Zaman İptal Edin