Alati za sintezu govora/Voice synthesis tools
Načini sinteze govora
PREGLED ALATA ZA SINTEZU GOVORA
Text-to-Speech sustavi
Festival
Tablični prikaz svih opisanih alata
Sinteza govora predstavlja operaciju pretvaranja pisanog ulaza u govorni izlaz. Ulaz može biti u obliku grafemske, ortografske ili fonemske skripte, ovisno o izvoru. Jednostavnije rečeno, sinteza govora je umjetno generiranje ljudskog govora.
Sustavi koji se koriste za to koriste nazivaju se sintetizatori govora, a mogu biti implementirani kao softver ili hardver.
Sinteza govora često se kraće naziva Text-to-Speech (TTS), obzirom da upravo i pretvaraju tekst u govor.
Postoji nekoliko algoritama za sintezu govora. Izbor algoritma ovisi o operaciji koju želimo izvršiti. Najjednostavniji način je jednostavno snimiti glas osobe koja govori željene izraze, ali to predstavlja samo ograničen izvor fraza i rečenica. Kvaliteta ovisi o načinu snimanja.
Sofisticiraniji, ali lošije kvalitete su algoritmi koji dijele govor u manje jedinice. Najčešće korištena jedinica je fonem, najmanja lingvistička jedinica. Ovisno o jeziku, postoji oko 35-50 fonema u zapadno-europskim jezicima. Problem je u kombiniranju fonema jer tečan govor zahtjeva tečan prijelaz između elemenata (fonemskih jedinica). Razumljivost je stoga manja, no mala je i zahtjevnost na memoriju.
Rješenje ovog problema je korištenje difona. Umjesto dijeljenja u prijelazima, stanka se radi u sredini fonema, što ostavlja prijelaze netaknute. To daje oko 400 elemenata i kvaliteta raste.
Što su dulje te jedinice, postoji više elemenata, ali uz potrebnu memoriju raste i kvaliteta. Ostale jedinice koje su u širokoj primjeni koriste su poluslogovi, slogovi, riječi ili njihova kombinacija.
Postoje dva glavna načina za generirnje valnih oblika umjetnog govora:
Lančana sinteza se bazira na spajanju (ili nizanju) segmenata snimljenog govora. Općenito, lančana sinteza generira umjetni glas najsličniji prirodnom ljudskom govoru. Ipak, prirodne varijacije u govoru i automatizirane tehnike za segmentaciju valnih oblika ponekad rezultiraju zastajkivanjem izlaza umanjujući prirodnost glasa. Tri su glavna podtipa lančane sinteze: jedinično selektivna sinteza, difona sinteza i područno specifična domena.
Formant sinteza ne koristi uzorke ljudskog glasa, već umjetni glas kreira korištenjem akustičnog modela. Parametri kao što su temeljna frekvencija, zvučnost i razina šuma su varirani tokom vremena da bi stvorili valni oblik umjetnog govora.
Mnogi sustavi temeljeni na formant sintezi generiraju umjetni robotski glas i izlaz nikad ne bi mogao biti zamijenjen s glasom pravog čovjeka. Maksimalna prirodnost nije uvijek cilj tih sustava, stoga formant sinteza ima nekih prednosti u usporedbi s lančanom metodom.
Ostali načini sinteze (manje korišteni):
PREGLED ALATA ZA SINTEZU GOVORA
MBROLA je visoko-kvalitetni, difono bazirani sintetizator govora, besplatno dostupan. Ostvaren je od TCTS laboratorija fakulteta Faculte Polytechnique de Mons (Belgija) s ciljem da osigura set govornih sintetizatora za što je moguće više jezika i svima dostupnima za ne-komercijalnu primjenu.
Temelj MBrola projekta je MBROLA govorni sintetizator baziran na spajanju difona. Uzima listu fonema kao ulaz zajedno s prozodičnim informacijama (trajanje fonema i po dijelovima linearan opis pitch-a) i generira 16-bitne (linearne) uzorke govora na frekvenciji uzorkovanja korištene baze podataka difona à stoga MBrola zapravo NIJE govorni sintetizator jer ne može raditi sa ulazom u obliku pisanog teksta. Baza podataka difona pripojena MBrola formatu potrebna je za rad sintetizatora.
Moguće je poslati vlastitu snimku govora koja će biti spremljena u Mbrola bazu podataka za sintezu. Trenutno postoji baza podataka za sljedeće jezike: američki engleski, brazilski, portugalski, bretonski, britanski engleski, francuski, njemački, grčki, rumunjski, španjolski i švedski.
Festival je najkompletniji besplatan sustav za sintezu uz opsežan priručnik. U cjelini nudi kompletnu pretvorbu teksta u govor uz različite API-e (application programming interface), kao i okruženje za razvoj i istraživanje tehnika sinteze govora.
Sustav je napisan u C++-u s komandnim interpretatorom za generalnu kontrolu baziranom na Scheme programskom jeziku. Višejezičan je, trenutno podržava engleski (američki i britanski) i španjolski.
Na home page stranici mogu se pronaći demo snimke, kompletni priručnik i pristup download stranici. Uključuje kompletan izvor i dokumentaciju (FSF texinfo format), leksikone i govornu bazu podataka za pretvorbu (britanskog) engleskog teksta u govor.
KARAKTERISTIKE:
WinSpeech je text-u-govor aplikacija koja čita tekst i producira govor na audio izlazu. Ima osnovne alate za uređenje teksta, omogućen je govor iz trenutno napisanog rada, podržava DDE server koji omogućava drugim Windows aplikacijama da šalju tekst za izgovor, ima mod rada za učenje koji pruža audio instrukcije za vrijeme rada programa, te alate za uređenje rječnika za proizvoljni odabir izgovora.
WinSpeech je shareware program proizveden od PCWholeWare.
WSPLIB tekst-u-govor DLL je biblioteka govornih funkcija za razvoj.
KARAKTERISTIKE:
BaBel Technologies nudi vrhunsku sintezu govora zahvaljujući Multi Band Resynthesis OverLap Add tehnici (MBrola). Nova tehnologija sinteze je patentirana 1996 g. i nagrađena je s European Information Technology Prize iste godine za svoj inovativni pristup tzv. spajanoj sintezi govora.
Visoko kvalitetna sinteza govora uz malu zahtjevnost CPU-a: nova generacija visoko-kvalitetnih sintetizatora govora više ne ostavlja dojam slušaocu da je zvučnik stroj. Riječi su glatko izgovarane vremenski baziranim difonim spajajućim algoritmom. Ovaj algoritam je prvi koji dozvoljava izglađivanje spektra uz zadržavanje vrlo niskih računalnih troškova. Nije potreban DSP. Standardni Pentium 100 može pokrenuti sintetizator 20 puta brže prema realnom vremenu.
Višejezična sinteza govora: MBrola tehnika koristi baze podataka ovisne o jeziku i govorniku da bi proizvela bilo koju rečenicu na danom jeziku i s datim glasom. MBrola govorni sintetizator je dostupan za engleski, njemački, francuski, nizozemski, brazilski portugalski, španjolski, švedski i rumunjski jezik. Ostali jezici su trenutno u izradi.
Više jezika i glasova na zahtjev: ova usluga uključuje razvoj skrojenih glasova i jezika. Difona baza podataka tipične je veličine do 5Mb i, uz korištenje prednosti MBrola formata, ovo specifično kodiranje kompresira baze podataka u omjeru 7:1.
Infovox Desktop je difono bazirani BaBel Technologies TTS alat razvijen uz pomoć biblioteke unaprijed snimljenih ljudskih izgovorenih difona za što prirodniji sintetizirani glas. Nudi neograničenu primjenu aplikacijskih mogućnosti za razvojne programere softvera koji žele koristiti sintetički govor kao nositelj informacije, i za one koji žele integrirati sintetički govor u svoje proizvode ili usluge.
Trenutno je dostupan za: britanski engleski, finski, islandski, španjolski, danski, francuski, talijanski, nizozemski, švedski, njemački i norveški jezik.
Karakteristike:
Gnuspeech je prilagodljiv TTS paket, baziran na real-time, artikularnoj, upravljivoj sintezi govora. Konvertira tekstovne nizove podataka u foneme podržane rječnikom za izgovor, po pravilima pretvorbe slova u zvuk, ritma i intonacije. Transformira foneme u parametre za nisku razinu pretvorbe artikulacijskog sintetizatora i zatim proizvodi artikulatorni model ljudskog glasa u obliku izlaza pogodnog za standardne audio izlaze. Gnuspeech se još uvijek razvija.
KARAKTERISTIKE:
TTS softver za Windows bazirane operacijske sustave. Čita bilo koji tekst prikazan na ekranu – višenamjenski alat jednostavan za uporabu.
KARAKTERISTIKE ReadPlease 2003:
DODACI ReadPlease Plus 2003 verzije:
VoiceText je vodeći softver za sintetiziranje umjetnog glasa iz teksta. Dostupan je u konfiguraciji za širok raspon ugrađenih uređaja, desktop i mrežnih/serverskih aplikacija, što ga čini vrlo fleksibilnim visoko-kvalitetnim TTS rješenjem na današnjem tržištu.
Dostupan je na US engleskom, korejskom, japanskom i mandarin kineskom.
KARAKTERISTIKE:
Loquendo TTS softvare sintetizira glas vrlo blizak prirodnom za dinamičke podatke, te za serverski bazirane, multimedijalne, PDA, ugrađene i multimodalne glasovne aplikacije. Loquendo „Unit Selection“ lančana tehnika primjenjiva je na vrlo širok raspon glasovnih uzoraka pomoću kojih se mogu stvoriti novi visoko-kvalitetni glasovi. Osigurava Loquendovo tržišno vodstvo u kvaliteti, učinkovitosti, prenosivosti, prirodnoj boji glasa i intonaciji, te točnosti izgovora. Omogućava: čitanje e-maila, real-time vijesti, pristup korporacijskim dokumentima, automotivnu telematiku (informacijska i komunikacijska tehnologija), primjenu na bilo koju ugrađenu aplikaciju
Loquendo TTS baza ekspresivnih glasova i osobnosti iz cijelog svijeta je stalno rastuća. Efikasne razvojne metode garantiraju brzu ponudu novih visoko-kvalitetnih glasova i jezika. Loquendo također podržava izgradnju specifičnih glasova koji se podudaraju sa određenim pojedincem.
Loquendo glasovi su čisti, prirodni i tečni i obogaćeni su sa repertoarom tzv. ekspresivnih znakova: pozdravi i eksklamacije, interjekcije i paralingvistički događaji, koji sugeriraju ekspresivnu namjeru (potvrda, oklijevanje, zahvala, itd.).
Loquendo TTS algoritam je vrlo efikasan, pa su zahtjevi na procesor minimizirani i garantiran je iznimno brzi odgovor. Može suvremeno sintetizirati različite jezike i glasove, te po želji prelaziti s jednog jezika na drugi i za vrijeme rada (Voice switching).
Loquendo TTS Director daje razvojnim programerima potpunu kontrolu nad vlastitim glasovnim aplikacijama da mogu ekstenzivno poboljšati glasovne mogućnosti.
Mixed Language Capability omogućava ispravan izgovor stranih riječi bez potrebe za promjenom trenutnog glasa i jezika. Audio Mixer omogućava potpunu kontrolu audio izvora (glazba ili zvuk, različito samplani i/ili kodirani) à intermiksanje, sinkronizaciju ili repeticiju sa umjetnim (sintetiziranim) govorom. Expressive cues omogućava TTS korisnicima da proizvedu glas vrlo približan vlastitom glasu. Pronunciation lexicon osigurava da bilo koji specijalni vokabularni izraz, kratice, akronimi, čak i razlike u izgovoru narječja, zvuči upravo onako kako je developer to zamislio. Karakteristike svakog glasa (npr. pitch, brzina izgovora, glasnoća) mogu se vrlo fino regulirati i kontrolirati. Specijalni formati kao što su telefonski brojevi, valute i e-mail zaglavlja su ispravno izgovoreni. Ima ugrađeni detektor jezika koji automatski prepoznaje jezik svakog teksta. Dostupan je za: talijanski, španjolski, francuski, njemački, brazilski, portugalski, mandarin kineski, nizozemski, britanski i američki engleski, grčki, meksički, čileanski, američki španjolski, argentinski, švedski i katalanski jezik.
Ukratko - s Loquendo TTS jednostavno je dobiti sintetizirani glas upravo kako ga želite!
KARAKTERISTIKE:
TextAloud je TTS softver koji koristi sintezu govora za pretvorbu ulaznog tekstovnog dokumenta u govor u audio formatu za upotrebu u različite svrhe, npr. slušanje na PC-u, pretvorba u MP3 ili WMA datoteke koje se mogu koristiti na prijenosnim uređajima kao što su iPod, PocketPC ili CD playeri. Omogućit će produktivniji rad na kompjuteru (čitanje e-maila, web stranica, izvješća i dr.) ili jednostavno služiti za zabavu à TextAloud je praktičan i jednostavan čitač teksta.
KARAKTERISTIKE:
TextToSpeech Kit radi neograničenu pretvorbu engleskog teksta u sintetizirani govor u stvarnom vremenu. Dolazi u 2 paketa: Developer kit (razvojni alat) i User Kit (korisnički alat). Developer Kit omogućava stvaranje test aplikacija koje sadrže TTS. User Kit je podskup Developer Kit-a, i također podržava aplikacije koje sadrže TTS.
KARAKTERISTIKE:
ALAT |
TEŽINA KORIŠTENJA |
JEZICI |
CIJENA |
MBrola |
srednje |
višejezičan |
freeware |
Festival |
teško |
engleski, španjolski |
freeware |
WinSpeech |
jednostavno |
engleski |
48$ |
Infovox |
srednje |
višejezičan |
50$ |
GnuSpeech |
srednje |
engleski |
freeware |
ReadPlease 2003 |
jednostavno |
engleski |
freeware |
ReadPlease Plus 2003 |
jednostavno |
višejezičan |
60$ |
VoiceText |
jednostavno |
višejezičan |
25$ |
Loquendo |
teško |
višejezičan |
150€ |
TextAloud |
jednostavno |
višejezičan |
30$ |
TTS Kit |
srednje |
engleski |
User 150$ |