SVEUČILIŠTE U ZAGREBU
FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA
ZAVOD ZA ELEKTRONIČKE SUSTAVE I
OBRADBU INFORMACIJA
Seminarski rad iz kolegija
Podatkovni višemedijski prijenos i
računalne mreže
SPEECH RECOGNITION TOOLS
Joško Rogulj, Joško Rokov, Nino Talian
Zagreb, siječanj 2006.
3.1. Princip rada
3.2. Tipovi raspoznavanja govora
3.3. Primjene
4.4. VR Commander
4.5. Realize® Voice 4.1
4.6. Besplatni alati
5. Zaključak
6. Literatura
U ovom seminarskom radu dati ćemo temeljni opis
tehnologije raspoznavanja govora, objasniti glavne pojmove vezane za temu, podjelu sustava te opis
najkvalitetnijih komercijalnih i besplatnih alata za raspoznavanje govora
trenutno. Poseban naglasak staviti ćemo na
opis alata te njihovu kategorizaciju.
Prepoznavanje govora je proces kojim računalo (ili neki drugi stroj) identificira izgovorene riječi.U osnovi to znači razgovor s računalom u kojem računalo ispravno prepoznaje naše riječi. Poznavanje slijedećih definicija je nužno za razumijevanje tehnologije prepoznavanja govora:
Iskaz
Iskaz je vokalizacija (izgovor) jedne riječi ili više riječi koji predstavlja neko jedinstveno značenje računalu. Iskaz može biti jedna riječ, nekoliko riječi, rečenica ili čak nekoliko rečenica.
Ovisnost o govorniku
Sustavi ovisni o govorniku su dizajnirani tako da se prilagođavaju određenom govorniku. Općenito su mnogo točniji za tog određenog govornika, ali zato puno manje precizni za ostale govornike. Pretpostavljaju da govornik govori istim tonom i tempom. Sustavi neovisni o govorniku su dizajnirani za veći broj raznovrsnih govornika. Prilagodivi sustavi obično počinju s radom kao sustavi neovisni o govorniku da bi kasnije tehnikama treniranja postali prilagođeni korisniku u svrhu povećanja preciznosti samog sustava.
Rječnici
Riječnici su liste riječi ili iskazi koji mogu biti prepoznati od strane sustava za prepoznavanje govora. Općenito, manji rječnici su lakši računalu za prepoznavanje, dok su veći rječnici teži. Za razliku od normalnih rječnika svaki ulaz ne mora nužno biti jedna riječ. Pojedini zapis u rječniku može biti u obliku jedne ili čak dvije rečenice. Manji rječnici mogu imati malo prepoznatih iskaza dok veoma veliki rječnici mogu imati do stotine tisuća i više!
Točnost
Sposobnost sustava za raspoznavanje može biti ispitana mjerenjem točnoszi – odnosno kako dobro sustav prepoznaje iskaze. To uključuje ne samo točno prepoznate iskaze već i identificirane iskaza koji nisu sadržani u rječniku. Dobar sustav za raspoznavanje govora može imati točnost u iznosu od 98% i više! Prihvatljiva razina točnosti ustvari ovisi o specifičnoj primjeni sustava.
Neki sustavi za raspoznavanje govora imaju mogućnost prilagodbe govorniku. Ako sustav ima tu mogućnost tada nastupa treniranje. Sustav za raspoznavanje govora se trenira tako što traži od govornika da standardne izraze ili fraze čime podešava svoje algoritme usporedbe da što više odgovaraju aktivnom govorniku. Treniranje obično povećava točnost sustava. Treniranje se također može iskoristiti za govornike koji imaju problema s općenito govorom ili izgovorom nekih određenih riječi. Dokle god govornik može konzistentno ponavljati iskaze, sustav za raspoznavanje govora bi se trebao prilagođavati.
Sustavi za raspoznavanje govora mogu biti u dvije glavne skupine:
Sustavi za raspoznavanje uzoraka uspoređuju ulazne uzorke s ugrađenim/naučenim uzorcima te nastoje pronaći odgovarajući par.
Zvučni fonetski sustavi koriste znanje o čovjekovoj građi (prirodna sinteza govora i sluh) pri usporedbi karakteristika govora (fonema i glasova).
Većina modernih sustava bazira se na pristupu baziranom na raspoznavanju uzoraka jer je on prilagođen modernim tehnikama procesiranja i teži ka većoj točnosti.
Većina SRG-a može se rasčlaniti na slijedeće korake:
Iako se svaki korak čini jednostavnim, svaki može sadržavati više različitih (ponekad i potpuno različitih) metoda.
(1) Snimanje govora i detekcija iskaza: može biti postignuto na više načina. Početne točke moguće je odrediti usporedbom razine zvuka ambijenta (zvučne enrgije u nekim slučajevima) i tek snimljenog zapisa. Detekcija završne točke je teža jer govornik uglavnom ostavi artefakte koji uključuju disanje, škrgutanje zubiju i jeku.
(2) Predfiltriranje: se postiže na razne načine ovisno o ostalim značajkama SRG-a. Najčešća metoda je «Bank-of-Filters» metoda koja koristi cijeli niz audio filtara za pripremu zapisa, te metodu linearne predikcije koja računa razliku (pogrešku) predviđanja. Različiti oblici spektralne analize se također koriste (npr. kepstar).
(3) Uokviravanje: uključuje odvajanje uzorkovanih podataka u određenu veličinu. To se često ubraja pod korake 2 ili 4. Ovaj korak također uključuje pripremu granica za analizu (odvajanje rubnih pojava, itd.).
(4) Filtriranje: nije uvijek prisutno. To je posljednja priprema za svaki okvir prije usporedbe i slaganja. Često se ovaj korak sastoji od poredavanja u vremenu i normalizacije.
(5) Usporedba: Postoji niz raznih tehnika usporedbe. Većina koristi usporedbu trenutnog okvira s poznatim uzorcima. Postoje metode koje koriste skrivene Markovljeve lance, frekvencijsku analizu, diferencijalnu analizu, tehnike linearne algebre, metode distorzije u spektralnoj i vremenskoj domeni. Sve ove metode koriste se za generiranje parova po vjerojatnosti i točnosti.
(6) Djelovanje: može biti bilo koja akcija koju razvojni programer zamisli.
Sustavi za raspoznavanje govora mogu se podijeliti u nekoliko različitih klasa obzirom na tipove iskaza koje imaju mogućnost raspoznati. Ove klase su bazirane na činjenici da je jedan od problema SRG-a sposobnost određivanja trenutaka početka i kraja govornikova iskaza. Većina paketa može pripadati više nego jednoj klasi ovisno o načinu rada koji se koristi.
Izolirane riječi
Sustavi bazirani na izoliranim riječima obično zahtijevaju da svaki iskaz ima tišinu (izostanak audio signala) s OBJE strane okvira uzorka. To neznači da prihvaća isključivo riječi nego zahtijeva da iskaze idu jedan za drugim.Često ovi sustavi imaju «Slušanje/Neslušanje» stanja s kojima zahtijevaju od govornika da pričeka između izgovaranja dvaju uzastopnih iskaza
(obično sustav radi procesiranje upravo za vrijeme pauze). Prikladniji naziv za ovu klasu bi ustvari bio izolirani iskazi.
Povezane riječi
Sustav baziran na povezanim riječima (ili točnije: povezanim iskazima) je sličan prethodno navedenom ali s razlikom da dozvoljava da se različiti iskazi procesiraju zajedno uz minimalnu pauzu između njih.
Kontinuirani govor
Kontinuirani govor je slijedeći korak. Sustav tih mogućnosti je najteže stvoriti jer mora koristiti specijalne metode određivanja granica iskaza. Sustavi bazirani na kontinuiranom govoru dozvoljavaju korisnicima korištenje prirodnog govora dok računalo određuje sadržaj. Načelno to je diktiranje računalu.
Spontani govor
Izgleda da postoji više definicija za spontani govor. Na osnovnoj razini to može biti govor s prirodnim zvukom i neuvježban. SRG baziran na spontanom govoru morao bi imati mogućnost prepoznavanja značajki spontanog govora kao što su spojene riječi , «um», «am» i čak lagana zamuckivanja (zastajkivanja).
Provjeravanje i identifikacija
govora
Neki
sustavi za raspoznavanje govora imaju mogućnost prepoznavanja određenih
korisnika što može biti korisno za sigurnosne svrhe ali još uvijek nedovoljno
pouzdano.
Iako mnogi zadatci koji koriste sučelje s računalom mogu potencijalno koristit SRG slijedeće primjene su najčešće trenutno:
Diktiranje
Diktiranje je danas najčešća upotreba sustava za raspoznavanje govora. Ono uključuje liječničke recepte, poslovne diktate, kao i općenitu obradu riječi. U nekim slučajevima koriste se specijalni rječnici u svrhu povećanja točnosti sustava.
Naređivanje i kontrola
Sustavi za raspoznavanje govora koji su dizajnirani da izvode funkcije na sustavu definirani su kao «Sustavi za naredbe i kontrolu». Iskazi kao «Open Mozzila» i «Pokreni terminal» će učiniti upravo to.
Telefonija
Neki PBX ili sustavi za glasovnu poštu omogućavaju korisnicima izgovaranje naredbi umjesto pritiskanja tipki za slanje određenih tonova.
Prijenosnici
Zbog ograničenih ulaznih dodataka za prijenosne uređaje (PDA, mobiteli) govor je otvorena mogućnost.
Medicinski (nedostatci)
Mnogi ljudi imaju problem s tipkanjem zbog određenih fizičkih ograničenja kao što su: učestale ozljede naprezanja, mišićna distrofija i mnoge druge. Uzmimo za primjer ljude s slušnim problemima kojima je znatna pomoć sustav koji njihov dolazni telefonski signal pretvara u tekst.
Ugrađeni sustavi
Većina novijih mobilnih telefona ima mogućnost C&C raspoznavanja govora koje dopušta iskaze tipa «Zovi doma».
A sutra bi možda mogli glasovnim naredbama upravljati nekim kućanskim aparatima ili svim elektroničkim uređajima!
Neki od komercijalnih alata dostupnih na tržištu su:
1) Dragon Naturally speaking (Nuance) -- http://www.nuance.com/naturallyspeaking
2) IBM ViaVoice -- http://www.scansoft.co.uk/viavoice/
3) SpeakToText (CoolSoft) -- http://www.coolsoftllc.com
4) VR Commander (Interactive Voice Technologies) -- http://www.vrcommander.com/
5) Audiomatic (Wise Riddles Software) -- http://www.wiseriddles.com/Audiomatic
6) e-Speaking (e-speaking) -- http://www.e-speaking.com/
7) Realize Voice Lite (Realize Software) -- http://www.realizesoftware.com
8) Voice Studio (Ultimate Interactive Desktops) -- http://www.voicestudio.us
9) Abbot (Softsound) -- http://www.softsound.com
10) Dictation Buddy (High Criteria) -- http://www.highcriteria.com
11) MacSpeech iListen -- http://www.macspeech.com/
Programi za prepoznavanje govora relativno su slični po svojim funkcijama. Gotovo svi imaju svojstvo upravljanja glasom unutar osnovnih aplikacija i većina ih ima mogućnost diktiranja teksta u razne tekst editore. Za ozbiljnu upotrebu i kvalitetan rad dva su daleko najbolja programa na tržištu i oni će u daljnjem tekstu biti podrobnije opisani. To su Dragon Naturally Speaking i Via Voice.
Glavne značajke
Instalacija
Program je jednostavan za instalaciju na sustavima sa Windows 98 ili novijim OS. Ovisno o brzini računala instalacija traje do 20 min. Kod nadograđivanja, primjerice, verzije 7 na 8, instalacija briše prethodnu verziju i, ukoliko postoje veliki sačuvani korisnički profili, proces može potrajati i do 30 min. Verzija 8 zahtjeva online aktivaciju.
Vježbanje i potrebno vrijeme
Program zahtjeva vježbanje prije upotrebe, da bi točno prepoznavao korisnikov govor. Vježba se sastoji od toga da korisnik pročita jedan ili dva teksta računalu da bi ono analiziralo korisnikov glas. Prije vježbe, program radi optimalnog rada vrši samopodešavajuće testove za mikrofon i zvučni sustav koji traju oko 20 sekundi. Korisniku se pruža mogućnost ponavljanja dijela teksta kojim program nije zadovoljan, radi stvaranja boljeg glasovnog modela. Za korisnike koji imaju poteškoća sa čitanjem postoje lakše skripte za vježbu, a postoje i skripte za djecu. Iako je font zadebljan i lak za čitanje, ne postoji mogućnost njegove promjene.
Lakoća korištenja
Najčešće se softver za prepoznavanje govora koristi za pisanje teksta neke vrste. U tu svrhu ovaj je program relativno lako koristiti nakon dobrog uvježbavanja. Neke glasovne naredbe manje su formalne nego kod drugih sličnih programa. Umjesto "move to end of line", može se reći "go to end of line" itd.
Točnost prepoznavanja govora
Program pruža visoku točnost
prepoznavanja govora nakon dobrog treninga, ali uz dobar i ujednačen izgovor
engleskog jezika (>98%). Stranicu teksta
moguće je tako izdiktirati za nekoliko minuta, a što se više koristi, program
točnije razumije korisnikov tekst.
Integracija s ostalim
aplikacijama
Dragon je kompatibilan s većinom Microsoft programa, te je u njih tako moguće, primjerice, diktirati. Najbolje funkcionira sa MS Word-om, dok više poteškoća ima s Excel-om ili Acess-om, budući da oni koriste znatno više resursa računala. To, dakle nije do softvera za prepoznavanje govora. Preporuča se izgovaranje u sam Dragon Naturally Speaking,
to jest u za to predviđeni Dragon pad, ta da se potom tekst
kopira u željeni tekst editor. Što je jači računalni sustav, to se manje
pojavljuje ovaj problem.
Program omogućuje diktiranje,
ispravljanje, formatiranje, navigiranje i u drugim Windows aplikacijama, no
često prije korištenja u nekim aplikacijama treba podesiti glasovne komande u
programu za prepoznavanje. Inače može doći do aktiviranja neželjenih akcija
unutar aplikacije. Moguće je zadati da se isključivo diktira, da ne bi program
shvatio dio teksta kao neku naredbu.
Zahtjevi za računalo i kompatibilnost s ostalim
hardverom
Za
dobar rad računalo treba imati brz procesor i novije verzije softvera (verzija
suvremena verziji programa za prepoznavanje). Vrlo je važna kvaliteta zvučne
kartice i, naravno, mikrofona , a ukoliko postoji mnogo buke i smetnji unutar
kućišta računala, preporuča se korištenje USB mikrofona koji ima sustav za
obradu signala izvan kućišta računala pa mu ono ne smeta.
Glavne značajke
Instalacija
Program je jednostavan za instalaciju na sustavima sa Linux, Mac OS X, Windows 98 ili novijim OS. Ovisno o brzini računala instalacija traje do 20 min.
Vježbanje i potrebno vrijeme
Program zahtjeva vježbanje prije upotrebe, da bi točno prepoznavao korisnikov govor. Vježba se sastoji od toga da korisnik pročita jedan ili dva teksta računalu da bi ono analiziralo korisnikov glas. Prije vježbe, program radi optimalnog rada vrši samopodešavajuće testove za mikrofon i zvučni sustav koji traju oko 20 sekundi. Najveći nedostatak vježbe je u tome što se ne mogu preskakati riječi, tj. Ako program ne shvati riječ, korisnik ju mora ponavljati sve dok ne shvati. Za korisnike koji imaju poteškoća sa čitanjem postoje lakše skripte za vježbu. Font teksta za vježbu može se mijenjati. Općenito, da bi se postigao visok stupanj točnosti, potrebno je dodatno vježbanje i uhodavanje programa nego kod Dragon Naturally Speaking.
Lakoća korištenja
Najčešće se softver za prepoznavanje
govora koristi za pisanje teksta neke vrste. U tu svrhu ovaj je program
relativno lako koristiti nakon dobrog uvježbavanja. U odnosu na
Dragon, neke komande moraju biti izrečene formalnije.
Točnost prepoznavanja govora
Program pruža visoku točnost
prepoznavanja govora nakon dobrog treninga, ali uz dobar i ujednačen izgovor
engleskog jezika (>96%). Stranicu teksta
moguće je tako izdiktirati za nekoliko minuta, a što se više koristi, program
točnije razumije korisnikov tekst.
Integracija s ostalim
aplikacijama
Via Voice je kompatibilan s većinom Microsoft programa, te
je u njih tako moguće, primjerice, diktirati. Najbolje funkcionira sa MS
Word-om, dok više poteškoća ima s Excel-om ili Acess-om, budući da oni koriste
znatno više resursa računala. To, dakle nije do softvera za prepoznavanje govora. Preporuča se
izgovaranje u samVia Voice, to jest u za to predviđeni Speak pad, ta da se
potom tekst kopira u željeni tekst editor. Što je jači računalni sustav, to se
manje pojavljuje ovaj problem.
Zahtjevi za računalo i
kompatibilnost s ostalim hardverom
Za dobar rad računalo treba imati brz procesor i novije verzije softvera (verzija suvremena verziji programa za prepoznavanje).
Vrlo je važna kvaliteta zvučne kartice i, naravno, mikrofona ,
a ukoliko postoji mnogo buke i smetnji unutar kućišta računala, preporuča se
korištenje USB mikrofona koji ima sustav za obradu signala izvan kućišta
računala pa mu ono ne smeta.
U slijedećoj (opsežnoj) tablici navodimo razlike ovih dvaju, na tržištu najkvalitetnijih paketa:
|
||||
|
|
|
|
|
|
|
|
||
FEATURE |
Dragon
Naturally Speaking 8 PROFESSIONAL |
Dragon
Naturally Speaking 8 PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
Microphone included |
Yes |
Yes |
Yes |
Yes |
Short set-up and user
enrollment |
Yes |
Yes |
Yes (But not as fast as
Dragon) |
Yes (But not as fast as
Dragon) |
Dictate into most
Microsoft® Windows®-based applications |
Yes |
Yes |
Yes |
Yes |
Control menus and dialog
boxes in most Microsoft® Windows® XP & Windows® 2000-based applications
by voice |
Yes |
Yes |
No (only MS Word &
Internet Explorer) |
Yes |
Simultaneous dictation and
command modes |
Yes |
Yes |
Yes |
Yes |
Format and edit by voice |
Yes |
Yes |
Yes |
Yes |
Mouse control by voice |
Yes |
Yes |
No |
Yes |
Nothing But Speech (NBS)™ |
Yes |
Yes |
No |
No |
USB audio support |
Yes |
Yes |
Yes |
Yes |
Performance Optimizer |
Yes |
Yes |
Yes |
Yes |
Natural Punctuation |
Yes |
Yes |
No |
No |
Say Web and browser links
by voice |
Yes |
Yes |
No |
Yes |
Award-Winning RealSpeak™ 2
Text-to-Speech |
Yes |
Yes |
No |
No |
Dictation Playback |
Yes |
Yes |
Yes |
Yes |
Use with handheld digital
recorder |
Yes |
Yes |
No |
Yes |
Dictate into Pocket PC or
Palm Tungsten |
Yes |
Yes |
No |
No |
Support for cordless or
array microphones |
Yes |
No |
No |
No |
Save audio with text
dictation |
Yes |
No |
Yes |
Yes |
Third-Party Correction |
Yes |
No |
No |
No |
Roaming User |
Yes |
No |
No |
No |
Smart Formatting |
Yes |
No |
No |
No |
Smart Commands |
Yes |
No |
No |
No |
Create multiple custom
vocabularies |
Yes |
No |
No |
Yes |
|
||||
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
Text and Graphics Dictation
shortcuts |
Yes |
Yes |
No |
Yes |
Complex macro support |
Yes |
No |
No |
No |
Macro recorder |
Yes |
No |
No |
No |
Basic scripting commands |
Yes |
No |
No |
No |
Advanced Microsoft®
VBA-compatible scripting |
Yes |
No |
No |
No |
|
|
|
||
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
Internet Explorer 5, 6 |
Yes |
Yes |
Yes |
Yes |
AOL® 6, 7, 8 |
Yes |
Yes |
Yes |
Yes |
Word 2000, XP, 2003 |
Yes |
Yes |
Yes |
Yes |
WordPerfect® 11 (Service
Pack 1 & 2), 12 |
Yes |
Yes |
Limited |
Limited |
Outlook® Express 5, 6 |
Yes |
Yes |
Yes |
Yes |
Excel 2000, XP, 2003 |
Yes |
Yes |
Yes |
Yes |
Outlook® 2000, XP, 2003 |
Yes |
No |
Yes |
Yes |
PowerPoint® 2000, XP, 2003 |
Yes |
No |
Yes |
Yes |
Lotus Notes® 5, 6 |
Yes |
No |
Yes |
Yes |
InfoPath® |
Yes |
No |
No |
No |
|
||||
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
MSI Installer |
Yes |
Yes |
No |
No |
Import/export user files |
Yes |
Yes |
Yes |
Yes |
Roaming User |
Yes |
No |
No |
No |
Import/export macros |
Yes |
No |
No |
No |
Import/export vocabularies |
Yes |
No |
No |
Yes |
Specialized vocabularies
available for purchase |
Yes |
No |
No |
Yes |
Network tools for
centralized vocabulary management |
Yes |
No |
No |
No |
Section 508 Certified (US
ACCESSIBILITY LAW) |
Yes |
No |
No |
No |
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
Text and Graphics Dictation
shortcuts |
Yes |
Yes |
No |
Yes |
Complex macro support |
Yes |
No |
No |
No |
Macro recorder |
Yes |
No |
No |
No |
Basic scripting commands |
Yes |
No |
No |
No |
Advanced Microsoft®
VBA-compatible scripting |
Yes |
No |
No |
No |
|
|
|
||
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
Internet Explorer 5, 6 |
Yes |
Yes |
Yes |
Yes |
AOL® 6, 7, 8 |
Yes |
Yes |
Yes |
Yes |
Word 2000, XP, 2003 |
Yes |
Yes |
Yes |
Yes |
WordPerfect® 11 (Service
Pack 1 & 2), 12 |
Yes |
Yes |
Limited |
Limited |
Outlook® Express 5, 6 |
Yes |
Yes |
Yes |
Yes |
Excel 2000, XP, 2003 |
Yes |
Yes |
Yes |
Yes |
Outlook® 2000, XP, 2003 |
Yes |
No |
Yes |
Yes |
PowerPoint® 2000, XP, 2003 |
Yes |
No |
Yes |
Yes |
Lotus Notes® 5, 6 |
Yes |
No |
Yes |
Yes |
InfoPath® |
Yes |
No |
No |
No |
|
|
|
||
|
||||
FEATURE |
PROFESSIONAL |
PREFERRED |
IBM
Via Voice Standard V10 |
IBM
Via Voice Professional USB V10 |
|
|
|
|
|
MSI Installer |
Yes |
Yes |
No |
No |
Import/export user files |
Yes |
Yes |
Yes |
Yes |
Roaming User |
Yes |
No |
No |
No |
Import/export macros |
Yes |
No |
No |
No |
Import/export vocabularies |
Yes |
No |
No |
Yes |
Specialized vocabularies
available for purchase |
Yes |
No |
No |
Yes |
Network tools for
centralized vocabulary management |
Yes |
No |
No |
No |
Section 508 Certified (US
ACCESSIBILITY LAW) |
Yes |
No |
No |
No |
Glavne značajke
Instalacija
Program
je vrlo jednostavan za instalaciju na Windows sustavima. Ovisno o konfiguraciji
računala instalacija ne traje više od 30 min. Sama instalacija zauzima 58 MB
koja se može Sama instalacija zauzima 58 MB koja se može preuzeti na službenoj stranici proizvođača uz cijenu od $39.95,
ili se može naručiti i CD za $15 više. Uz kupnju softwarea, dostupan je i
besplatni upgrade.
Vježbanje i potrebno vrijeme
Kao i sa svakim drugim alatom,
potrebno je neko vrijeme da se upozna sa svim mogućnostima koje alat posjeduje.
Dok se u potpunosti ne upoznamo sa njima, programeri su integrirali opciju
izlistavanja svih naredbi koje alat može prepoznati, a pozivaju se jednostavnim
izgovorom “What Can I Say?”.
Točnost prepoznavanja govora
Alat vrlo dobro prepoznaje korisnikov govor uz pravilno izgovaranje engleskih riječi. Treba se napomenuti da postoji i opcija snimanja , a kasnije i prepoznavanja, osobnih stavki na jeziku koji korisnik želi ili pak riječi koje su samo njemu poznate.
Time su korisniku otvorene i puno veće mogućnosti pri automatiziranju svoga operacijskog sustava. Napomenimo da SpeakToText dolazi integriran sa Microsoftovim mehanizmom za prepoznavanje govora SAPI 5.1, koji se pokazao vrlo dobro.
Integracija s ostalim
aplikacijama
Što se tiče integracije s ostalim aplikacijama, ovaj alat pruža mnoštvo mogućnosti. Ugrađena su sučelja za programe koji su namjenjeni razgovaranje preko Interneta, kao što su MSN Messenger, AIM Instant Messenger, Yahoo Messenger, ICQ i PalTalk. Sposoban je, kao i većina alata iste namjene, ispisivati diktirani tekst u Word ili neki drugi tekstualni editor, kopirati izrečeni tekst u clipboard itd. Proizvođač navodi da u tzv. naprednom načinu rada sposoban pisati i slati elektronsku poštu u Outlook-u, Outlook Express-u and Netscape-u. Na slici 2. se vidi izgled glavnog prozora SpeachToText alata.
Slika 2. Izgled glavnog prozora SpeakToText alata
Zahtjevi za računalo i
kompatibilnost s ostalim hardverom
Gledajući prosjek, nije potrebno
previše moćno računalo za pokretanje i normalan rad ovog alata. Proizvođač
zahtjeva instaliranu verziju Windows XP Home/Professionala ili Windows-a 2000,
te preporuča 500MHz ili jači procesor, 256 megabajta RAM
memorije, 100 megabajta slobodnog prostora na disku. Što se tiče perifernih
jedinica, kvalitetan mikrofon ne bi bio na odmet.
Glavne značajke
Instalacija
Instalacija programa je vrlo intuitivna i za nju je potrebno samo nekoliko minuta jer minimalna instalacija zauzima do 4 MB, što i nije puno obzirom na današnju cijenu tvrdih diskova velikih kapaciteta.
Vježbanje i potrebno vrijeme
VR Commander je
koncipiran na način “instaliraj i koristi”(eng. load and go). Sučelje je vrlo
jednostavno i intuitivno što odmah u startu daje veliku prednosti korisnicima
kojima je čitanje upustava za korištenje iziskuje napor. Vrlo brzo reagira
na izrečene naredbe. Kako se navodi u specifikacijama alata, odmah nakon
izgovorenog poslijednjeg sloga riječi, VR Commander reagira. Slušanje i brzo
prepoznavanje riječi prilikom kontinuiranog govora daje ovaj program nalazi
primjenu u raznim igricama, simulatorima, te naravno, svim ostalim aplikacijama. Uz jednostavno
korištenje predložaka definiranih u interakciji sa korisnikom, svako otvaranje
audio ili tekstualnog dokumenta, ili otvranje i
rukavanje nekom aplikacijom postaje vrlo jednostavno. Svakim
predloškom može biti definirana jedna ili više naredbi, što ovisi o željama
korisnika koliko stvari želi kontrolirati samo jednom izrečenom naredbom. Definirane
naredbe se mogu dijeliti sa drugim korisnicima istog računala ili ih poslati
elektronskom poštom prijatelju.
Točnost prepoznavanja govora
Ukoliko je korisnik vrlo dobar poznavatelj engleskog jezika, ne treba prolaziti fazu treninga pravilnog izričaja engleskih riječi. Većina alata iste i sličen namjene danas na tržištu zahtjeva i nalaže da se prije korištenja prođe trening, ali u ovom slučaju to nije potrebno upravo zbog visokog stupnja prepoznavanja korisnikovog, ponekad i ne potpuno točnog, izričaja. Alat posjeduje tehnologiju kontinuiranog prepoznavanja izrečenih riječi, oslanjajući se na novi mehanizam(eng. engine) prepoznavanja. Prije su se riječi morale izgovarati sa kratima pauzama između, što više nije slučaj. To svojstvo omogućava korisniku korištenje ovog alata u realnom vremenu, te govoreći srednje brzim tempom, vrlo brzi odziv alata na izrečene riječi. Bilo da se radi o ispisivanju teksta u neki tekstualni editor ili zadavanje naredbi računalu.
Integracija
s ostalim aplikacijama
VR Commander je kompatibilan s većinom Microsoft programa poput
tekstualnih editora(Word, Excel...), mail klijenata(Outlook, Outlook Express...)
i mnogih drugih. Ovaj se alat najviše razlikuje od svojih
klonova po tome što ima mogućnosti korištenja u igricama i raznim simulatorima
letenja i vožnje. Također se preporučuje zaljubljenicima u igrice u
kojima sudjeluje veći broj igrača spojenih preko Interneta. Naime, VR Commander ima integrirano sučelje za
njihovo međusobno razgovaranje. Naravno, svaki igrač mora imati instaliranu
verziju ovog alata.
Zahtjevi za računalo i kompatibilnost s ostalim hardverom
Nije potrebno previše moćno računalo za pokretanje i normalan rad ovog alata. Proizvođač zahtjeva instaliranu verziju Windows XP Home/Professionala ili Windows-a 2000, te preporuča 450MHz ili jači Pentium 2 procesor, minimalno 128 megabajta RAM memorije i barem 4 megabajta slobodnog prostora na disku. Što se tiče perifernih jedinica, kvalitetan mikrofon koji poništava šum bi bio najoptimalniji izbor. Također je potrebna i tzv. “full duplex” zvučna kartica. Ovaj tip kartice podržava slanje i primanje zvučnih signala istovremeno. Ukoliko to nije slučaj, od korisnika se zahtjeva da instalira mikrofon koji je spojen na USB priključak.
Realize® Voice 4.1 je nešto jednostavnija verzija alata koja omogućava kontrolu nad računalom koristeći korisnikove glasovne naredbe. Ovaj Microsoftov proizvod sjedinjuje posljednja saznanja na području prepoznavanja govora i reproduciranja govora. Reklamiraju ga naglašavajući da onu potpunosti zamjenjuje tipkovnicu i miša, što je i dijelom točno, ali ne u tolikom obujmu kao što to čine Dragon Naturally speaking i IBM-ov ViaVoice.
Glavne značajke
Alat ima mogućnost programiranja glasovnih naredbi za većinu poslova za što nam je inače potrebna tikovnica i miš. Uz to, već u instaliranoj verziji alata postoji set naredbi koje su na engleskom jeziku. Ovim programom je moguće kontrolirati sučelje Windows operativnog sustava ali i definirati posebnu listu naredbi koji se odnose samo na određenu aplikaciju.
Na korisniku je da odluči hoće li koristiti ovu «ne baš svakidašnju» i «ne toliko korisnu» mogućnost ovog alata. Korištenjem ovog alata se komunicira sa računalom davajući mu razne naredbe uvijek drugačijim redoslijedom. Uključivanjem ove opcije računalu se pokušava dati osobnost na način da ono svaki put na drugi način odgovori na korisnikovu naredbu. Npr. kada mu se kaže «Hvala», on jednom odgovori sa «Molim!», drugi put sa «Nema problema!».
Iako je beskorisnost ove opcije očita ipak daje ovom alatu dozu spontanosti, ma koju ne nailazimo baš često.
Program se može iskortistit za navigaciju kroz internet preglednike Internet Explorer, Mozillu Firefox i mnoge druge. Alat se također može intergrirati u mnoštvo drugih aplikacija, te ih učiniti mnogo lakšim za korištenje.
Kao i većina sličnih alata, ovaj program je sposoban prepoznati izrečene korisnikove riječi te ih simultano upisivati u odabrani tekstualni editor, radeći nad njima željene transformacije kao : mijenjanje fonta, zakošavanje i podebljavanje teksta, riječi ili samo pojedinih slova.
Ovaj način rada omogućava unos teksta slovo po slovo, koristeći fonetičku abecedu. Npr. za upis slova «A» se koristi izraz Alpha, sloba «B» Bravo itd.
Ovo svojstvo omogućava glasovno biranje brojeva ili pozivanje već postojećeg kontakta iz instaliranog adresara. Također se mogu mijenjati sve stavke vezane za taj kontakt, kao odlazak na njihovu web stranicu, dohvaćanje opisa puta koje vodi do njegovog mjesta stanovanja, i mnoštvo drugih opcija vezanih za elektronski adresar.
Moguće je otvoriti bilo koju web stranicu, program, audio ili tekstualnu datoteku preko izgovora jedne riječi kojoj se definira željena akcija.
Opcija “Tekst u govor” omogućava korisniku da čuje izdiktirani tekst od strane računala. Otvorena je mogućnost da korisnik sam bira što će računalo “izgovoriti” za svaku riječ posebno. Mijenjanje tog parametra daje osjećaj velike konfigurabilnosti ovog alata.
Pragramje vrlo lako instalirati, bilo preko naručenog CD ili plaćene verzije koja se preuzela na službeneoj stranici Realize Softwarea. Preporučljivo je proći čarobnjak za testiranje i konfiguraciju mikrofona, te glasovne vježbe preko čarobnjaka(“wizard”) koji bi trebao pri korištenju alata uštedjeti mnogo vremena pri provjeravanju načina kako se koja riječ izgovara a da je alat prepozna kao takvu.
Besplatni alati za
raspoznavanje govora
Uz komercijalne, naravno, postoje i besplatne verzije alata za prepoznavanje govora. Komunikacija sa računalom, pri čemu se misli na govornu komunikaciju, dugo je bila tema koja se nerijetko svrstavala među znanstvenu fantastiku. Kroz posljednih desetak godina tehnologija koja omogućava prepoznavanje govora je izuzetno napredovala. Mnoštvo takvih alata se proizvelo ne samo za windows, već i za druge operacijske sustave. Onima koji ti programi osiguravaju egzistenciju, poput ljudi sa posebnim potrebama, ili pak ljudima koji su dobro novčano potkovani na tržištu postoji cijela paleta proizvoda koji se međusobno razlikuju cijenom, kao i mogućnostima. No, postoji i uvijek prisutno ali. Naime, određene skupine programera su razvile alate koji po mogućnostima puno ne zaostaju za poviše spomenutim alatima ali se razlikuju u jednom bitnom faktoru : cijenom. Oni su besplatni. Od nekoliko desetaka besplatnih proizvoda, spomenuti ćemo one najbolje :
Ø Xvoice -- http://xvoice.sourceforge.net/
Ø Open Mind Speech -- http://freespeach.sourceforge.net/
Ø CMU Sphinx -- http://cmusphinx.org
Ø NICO toolkit -- http://nico.sourceforge.net/
U slijedećem tekstu ćemo opisati najpraktičnijega, XVoice, jer je on jedini u potpunosti razvijen za krajnjeg korisnika tj.
sadrži mehanizam prepoznavanja govora i odgovarajuće sučelje. Svrha ostalih besplatnih alata je pomoć pri usavršavanju samog mehanizma za prepoznavanje govora. Krajnji korisnici od ovih alata nemaju baš nikakve koristi ukoliko ih to područje ne zanima, dok za one zainteresirane postoje otvoreni kodovi za proučavanje i daljnji razvoj.
Xvoice
Ovaj alat omogućava kontinuirano izricanje napisanog teksta te obavljanje
naredbi koje su zadane govorom korisnika za većinu X aplikacija. Za prevođenje
korisnikovog govora koristi se IBM-ov ViaVoice
mehanizam za prepoznavanje govora koji se distribuira odvojeno od samog XVoice-a. IBM nudi ViaVoice u Americi i Kanadi za oko 40 dolara, što uključuje
naglavne slušalice, no poštarina nije uključena u cijenu. Jeftinije se može
proći ako se program plati te se zatim preuzme datoteka sa IBM-ove web
stranice. Besplatna verzija XVoice-a
se može preuzeti sa stranice xvoice.sourceforge.net.
Slika 4. XVoice korisničko sučelje
XVoice
posjeduje četiri načina rada. Dok je naredbovnom načinu rada, alat povezuje
govor sa već predefiniranim naredbama ili skupom naredbi. Na primjer,
definrajmo riječ «list» koja označava izdavanje naredbe konzoli «ls -l». Kada
korisnik u mikrofon kaže «list», naredba «ls -l» se šalje na konzolu kao da je
otipkana. Kad je postavljen za diktiranje alat ispisuje samo ono što je uspio
prepoznati od izgovorenih riječi, gdje se pritom eventualno izgovorene naredbe
ne izvršavaju. U «idle» načinu rada se samo glavne predefinirane naredbe
prepoznavaju i izvršavaju. Četvrti način rada je kombinacija prva dva, alat sluša
i ispisuje sve prepoznate riječi ali i uzima u obzir prepoznate naredbe te ih
izvršava. Prilikom prvog fokusiranja na određenu aplikaciju, alat se automatski
postavlja u naredbovni način rada.
"Microphone off" – gasi mikrofon; Za ponovno uključivanje
potrebno je pritisnuti "Push To
Talk" tipku
"Command mode" –
uključuje naredbovni način rada za fokusiranu aplikaciju, te učitava niz
definiranih naredbi koji se odnose samo na tu aplikaciju
"Stop command" – isključuje predefinirane naredbe za fokusiranu aplikaciju
"Dictate mode" – uključuje funkciju diktiranja (napomena
: prepoznate narerdbe se ne
izvršavaju.
"Stop dictation" – isključuje funkciju diktiranja
"Idle mode" – isto kao "stop dictation" zajedno sa "stop command"
"Correction" – u fazi diktiranja briše najčešće spomenutu riječ
"Build grammar files" – ponovno učitavanje predefiniranih naredbi
Neke aplikacije, poput onih kojima je miš nužan
za navigaciju (Netscape) je teško kontrolirati pomoću govora. Alati poput
ovoga, općenito, rade odlično za prepoznavanje naredbi dok za prepoznavanje
običnog teksta nisu baš toliko praktični. Za ovo potonje razlog je ili mala
greška u izricanju riječi ili pak sitne mutacije u glasu koje program ne može
prepoznati. Iako XVoice i ViaVoice omogućavaju mnogo toga, nije
moguće kontrolirati cijeli Linux desktop u potpunosti. Slaba karika u lancu je
IBM. Iako je uloženo dosta novca, unaprijeđivanje alata koji omogućavaju
govorno upravljanje za Linux
aplikacije nema svjetlu budućnost, iako su izašle neke poboljšane verzije ViaVoice-a ali za Windows operativne
sustave.
U ovom seminarskom radu dan je temeljni opis tehnologije raspoznavanja govora, objašnjeni su glavni pojmovi vezani za temu,
podjela sustava te opis
najkvalitetnijih komercijalnih i besplatnih alata za raspoznavanje govora
trenutno.
1. http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/
2. http://cslu.cse.ogi.edu/HLTsurvey/ch1node4.html
3. http://www.ewh.ieee.org/r10/bombay/news6/AutoSpeechRecog/ASR.htm
4. http://www.nuance.com/naturallyspeaking
5. http://www.io.com/~hcexres/tcm1603/acchtml/recomx7c.html
6.
http://www.scansoft.co.uk/viavoice/
...
Word verzija: seminar.doc
PDF verzija: seminar.pdf
Prezentacija: seminar.ppt