Text-to-Speech (TTS): Metni Sese Dönüştürme Sanatı

Selam! Bugün Text-to-Speech (TTS) teknolojisini konuşacağız. Siri’nin, Alexa’nın, Google Assistant’ın nasıl konuştuğunu merak ettiniz mi? İşte cevap: TTS!

TTS Nedir?

TTS, yazılı metni konuşmaya dönüştüren teknoloji. Input olarak “Merhaba dünya” veriyorsunuz, output olarak gerçekçi insan sesi alıyorsunuz. Magic? Hayır, bilim!

Modern TTS Pipeline

Günümüz TTS sistemleri genelde üç aşamada çalışır:

Text Analysis: Metin temizlenir, kısaltmalar açılır (“Dr.” → “Doktor”), sayılar okunur hale getirilir (2024 → “iki bin yirmi dört”).

Acoustic Model: Metinden ses özelliklerine dönüşüm. “Bu ses nasıl çıkmalı?” sorusuna cevap. Mel-spectrogram veya phoneme sequence üretir.

Vocoder: Ses özelliklerinden gerçek ses dalgasına dönüşüm. WaveNet, WaveGlow, HiFi-GAN gibi neural vocoder’lar kullanılır.

Basit Kullanım Örnekleri

Python’da Google TTS:

from gtts import gTTS
import pygame

# Create TTS object
tts = gTTS(text='Hello world!', lang='en')

# Save to file
tts.save("output.mp3")

# Play the audio
pygame.mixer.init()
pygame.mixer.music.load("output.mp3")
pygame.mixer.music.play()

Web Speech API:

// Browser TTS - works in modern browsers
const utterance = new SpeechSynthesisUtterance("Hello world!");
utterance.rate = 1.0; // Speed
utterance.pitch = 1.0; // Pitch
utterance.volume = 1.0; // Volume

// Speak!
window.speechSynthesis.speak(utterance);

TTS’in Zorlukları

Prosody: Vurgu, tonlama, duygu katmak zor. “Geliyorum” mu “Geliyorum?” mu?

Context: “1999” bazen “bin dokuz yüz doksan dokuz”, bazen “nineteen ninety-nine” (yıl olarak).

Rare words: İsimler, teknik terimler, yabancı kelimeler problemli.

Emotion: Mutlu, üzgün, heyecanlı tonlamalar henüz perfect değil.

Kullanım Alanları

Accessibility: Görme engelliler için screen reader
Navigation: GPS yönlendirmeleri
Audiobooks: Kitapları dinleme
Virtual assistants: Siri, Alexa, Google Assistant
Language learning: Telaffuz öğrenme
Content creation: YouTube videoları için voiceover

Güncel Trendler

Voice Cloning: 5 dakikalık ses kaydıyla sesinizi klonlama (Eleven Labs, Resemble.ai).

Emotional TTS: Duygu katılmış konuşma (mutlu, üzgün, öfkeli).

Multilingual Models: Tek model, 100+ dil (Google’s Tacotron, Meta’s MMS).

Real-time TTS: Streaming için ultra düşük latency.

Sonuç

TTS teknolojisi son 5 yılda inanılmaz gelişti. Robotik seslerden ayırt edilemez insan seslerine geldik. WaveNet devrimi, Transformer’ların gücü, neural vocoder’lar… Hepsi bir araya gelince ortaya muhteşem sistemler çıktı.

Yakında? Real-time emotion control, perfect voice cloning, zero-shot accent transfer… Ses teknolojisinin altın çağındayız!

Kendi TTS projeleriniz için Coqui TTS, ESPnet, veya OpenAI’s TTS API’yi deneyin. Hepsi farklı use case’ler için harika!