Definicija TTS sintetizatora

Marin Dubravica

36351445

PVPRM

seminar

Text–to–speech sintetizator (TTS) ili sintetizator govora je računalni sustav koji bi trebao pročitati naglas bilo koji tekst. Na samom početku trebalo bi jasno razlikovati ove sustave od Voice Response sustava, koji samo nižu pojedine riječi ili dijelove rečenica iz baze podataka i imaju ograničenu primjenu (primjera radi najava vlakova na željezničkim kolodvorima). U TTS sintetizatorima bilo bi nemoguće unijeti u bazu podataka sve riječi nekog jezika. Tako TTS sintetizatore definiramo kao one sustave koji automatski izgovaraju tekst preko grafemsko-fonetske transkripcije.

Čemu služi

Primjene ovakvih sustava su zaista mnogostruke. Od telekomunikacijskih usluga kod kojih je umjesto operatera dovoljno imati TTS sintetizator koji bi pretvorio tekst u govor, preko učenja stranih jezika kod kojih bi to bio snažan alat, pa do pomoći ljudima s posebnim potrebama

Kako računalo čita

Slika 1 prikazuje nam funkcionalni dijagram TTS sintetizatora. Sustav sadrži NLP modul (Natural Language Processing module) koji pravi fonetsku transkripciju pročitana teksta i DSP modul (Digital Signal Processing module) koji pretvara tu informaciju u govor. Sustav koristi, u lingvističkoj praksi uvriježene, formalizme i algoritme koji skraćuju matematičke operacije potrebne za sintezu govora i može raditi u realnom vremenu i uz ograničene memorijske resurse

Slika 1

Slika 2 prikazuje nam kostur NLP modula za TTS sustav.

Slika 2

Blok za analizu teksta sastoji se od pretprocesora koji organizira ulazne rečenice kao listu riječi, modula za morfološku analizu čiji je zadatak da predloži sve moguće načine izgovora riječi prema zapisu, zatim još od kontekstualnog modula koji promatra riječi u njihovom kontekstu.

DSP modul je računalni odgovor na dinamičku kontrolu artikulacijskih mišića i frekvencije vibriranja glasnice. Kako bi se to dobro učinilo, DSP modul mora uračunati neka artikulacijska ograničenja, budući da su za razumijevanje govora važnija fonetska prijelazna stanja od stacionarnih.

Ovo se postiže kreiranjem niza pravila koja govore o međusobnom djelovanju fonema.

Slika 3

Na slici 3 prikazana je sinteza govora. Niz segmenata prvo je dobiven iz fonemskog ulaza u bloku označenom kao segment list generation koji ima sučelja prema NLP i DSP modulima. Poslije prozodijske analize, prozodijski modul daje sve potrebne parametre o svakom elementarnom glasu. Blok za nizanje segmenata tada preuzima kontrolu nad dinamičkim povezivanjem segmenata i to tako da ublažava prijelaze. Rezultat svega toga napokon ide blok za sintezu govora gdje nastaje govor