Marin Dubravica
36351445
PVPRM
seminar
Definicija TTS
sintetizatora
Text–to–speech sintetizator (TTS) ili
sintetizator govora je računalni sustav koji bi trebao pročitati naglas bilo
koji tekst. Na samom početku trebalo bi jasno razlikovati ove sustave od Voice Response
sustava, koji samo nižu pojedine riječi ili dijelove rečenica iz baze podataka
i imaju ograničenu primjenu (primjera radi najava vlakova na željezničkim
kolodvorima). U TTS sintetizatorima bilo bi nemoguće unijeti u bazu podataka
sve riječi nekog jezika. Tako TTS sintetizatore definiramo kao one sustave koji
automatski izgovaraju tekst preko grafemsko-fonetske transkripcije.
Čemu služi
Primjene ovakvih sustava su zaista
mnogostruke. Od telekomunikacijskih usluga kod kojih je umjesto operatera dovoljno
imati TTS sintetizator koji bi pretvorio tekst u govor, preko učenja stranih
jezika kod kojih bi to bio snažan alat, pa do pomoći ljudima s posebnim
potrebama
Kako računalo
čita
Slika 1 prikazuje nam funkcionalni dijagram
TTS sintetizatora. Sustav sadrži NLP modul (Natural Language Processing module)
koji pravi fonetsku transkripciju pročitana teksta i DSP modul (Digital Signal
Processing module) koji pretvara tu informaciju u govor. Sustav koristi, u
lingvističkoj praksi uvriježene, formalizme i algoritme koji skraćuju
matematičke operacije potrebne za sintezu govora i može raditi u realnom
vremenu i uz ograničene memorijske resurse
Slika 1
Slika 2 prikazuje nam kostur NLP modula za TTS sustav.
Slika 2
Blok za analizu teksta sastoji se od pretprocesora koji
organizira ulazne rečenice kao listu riječi, modula za morfološku analizu čiji
je zadatak da predloži sve moguće načine izgovora riječi prema zapisu, zatim
još od kontekstualnog modula koji promatra riječi u njihovom kontekstu.
DSP modul je računalni
odgovor na dinamičku kontrolu artikulacijskih mišića i frekvencije vibriranja
glasnice. Kako bi se to dobro učinilo, DSP modul mora uračunati neka artikulacijska
ograničenja, budući da su za razumijevanje govora važnija fonetska prijelazna
stanja od stacionarnih.
Ovo se postiže kreiranjem niza pravila koja govore o međusobnom
djelovanju fonema.
Slika 3
Na slici 3 prikazana je sinteza govora. Niz segmenata prvo je
dobiven iz fonemskog ulaza u bloku označenom kao segment list generation koji ima sučelja prema NLP i DSP modulima. Poslije
prozodijske analize, prozodijski modul daje sve potrebne parametre o svakom elementarnom
glasu. Blok za nizanje segmenata tada preuzima kontrolu nad dinamičkim
povezivanjem segmenata i to tako da ublažava prijelaze. Rezultat svega toga
napokon ide blok za sintezu govora gdje nastaje govor