Introduction to MPEG Video and Audio

MPEG

MPEG je skraèenica za Moving Picture Experts Group , odnosno grupu struènjaka koji se bave pokretnim slikama ali je zapravo postala sinonim za grupu meðunarodnih standarda koji opisuju kodiranje audio-vizuelnih informacija u komprimirani format. U ovu grupu standarda spadaju MPEG-1 (ISO/IEC-11172), MPEG-2 (ISO/IEC-13818) i MPEG-4 (ISO/IEC-14496). Razvoj MPEG-3 standarda je prekinut jer je razvoj tehnologije omoguæio da se njegove performanse mogu ostvariti sa MPEG-1 i MPEG-2 standardima.

MPEG grupu struènjaka osnovao je 1988 godine Leonardo Chiariglione i za svoja dostignuæa u razvoju MPEG i JPEG standarda dobio je Emmy nagradu za 1995/1996 godinu.

Osnovna ideja MPEG kompresije je transformacija niza uzoraka slike i zvuka u niz tokena koji zauzimaju manje resursa sustava, a koji daju doživljaj skoro jednak originalnom signalu. To se postiže tako da se uzimaju u obzir nelinearne karakteristake ljudskog vida i sluha. Buduæi da se umjesto originalnog signala prenose tokeni koji ga opisuju bilo je potrebno definirati sintaksu. Signali slike i zvuka se sinkroniziraju i multipleksiraju u zajednièki serijski niz bitova pomoæu MPEG System Layer-a.

MPEG-1 je dizajniran za kodiranje pokretnih slika sa zvukom i pohranu na digitalne medije uz maksimalni bir-rate od 1.5Mbps.

MPEG-1 je definiran u 5 dijelova:
Dio 1: System opisuje sintaksu za prijenos paketa, sinkronizaciju i multipleksiranje video i audio podataka
Dio 2: Video opisuje kompresiju non-interlaced video signala
Dio 3: Audio opisuje kopresiju audio signala
Dio 4: Conformance Testing opisuje naèine provjere karakteristika kodiranog niza bitova, dekodiranja i testiranja zahtijeva navedenih u prethodna 3 dijela.
Dio 5: Software Simulation sadrži primjer software-skog enkodera i dekodera napisanog po ANSI C standardu

MPEG-2: Standard za kodiranje video i audio signala za prijenos brzinom izmeðu 4 i 9 Mbps. Kvalitet TV slike. Ima veæi broj audio kanala.

MPEG-3: Standard razvijan za HDTV aplikacije maksimalne dimenzije 1920 x 1080 x 30 Hz i brzine prijenosa izmeðu 20 i 40 Mbps. Naknadno je ustanovljeno da se uz odreðena fina podešavanja za te aplikacije mogu iskoristiti i MPEG-1 i MPEG-2 tako da je MPEG-3 napušten.

MPEG-4: Standard razvijen za aplikacije koje zahtijevaju malu brzinu prijenosa (videotelefonija). Maksimalne dimenzije su 176 x 144 x 10 Hz, a brzine prijenosa izmeðu 4.8 i 64 Kbps. Video i audio signal se opisuje audiovisualnimn objektima (prirodni i komjuterski generirani) i vezama meðu njima.

MPEG-7: Omoguæiti æe standardiziran opis razlièitih tipova multimedijskih informacija. Opis æe biti povezan sa sadržajem da bi se omoguæilo brzo i efikasno pretraživanje.

Video kompresija

Osnovna zamisao u kompresiji videa je predviðanje kretanja objekta na slici. Zbog toga se koriste 3 vrste okvira (frame): “I”, “B” i “P”.
“I” okvir (Intra Frame) je okvir kodiran u cijelosti. To je poèetni okvir i na osnovu njega se kodiraju slijedeæi okviri.
“P” okvir (Predicted Frame) je okvir kodiran na osnovu zadnjeg “I” ili “P” okvira. Ako je promjena u slici dovoljno mala, samo se ona kodira, a ako je promjena znaèajna, slika se kodira u cijelosti.
“B” okvir (Bidirectional Frame) je okvir kodiran na osnovu najbliža 2 “I” ili “P” okvira od kojih je jedan u “prošlosti”, a jedan u “buduènosti”. Slika može biti kodirana kao razlika u odnosu na prethodni okvir, slijedeci okvir ili srednju vrijednost ta dva okvire, veæ prema tome što daje najbolji rezultat.

Redoslijed ovih okvira odreðen je empirijski i obièno izgleda ovako:
IBBPBBPBBPBBIBBPBBPB...
Razmak izmeðu 2 “I” okvira odreðena je uz empirijski uvjet da zbog sinkronizacije njihov razmak ne smije biti veæi od 0.4s.

Za ostvarivanje bolje kompresije koristi se i èinjenica da je karakteristika ljudskog oka nelinearna, tako da se male promjene svjetline u dijelu slike koji je svijetao ne primjeæuju. Zbog toga je moguæ zapis svjetline sa grubljom rezolucijom. Takoðer se koristi i èinjenica da je veæina slika jako korelirana, odnosno imaju velike površine sa jednakom svjetlinom. Zbog toga se nakon DCT transformacije dobiva veæina frekvencijskih komponenti u uskom podruèju blizu ishodišta. Zanemarivanjem viših frekvencijskih komponenti kvalitet slike se neæe znaèajno narušiti, a slika se kodira sa puno manje bita.
Prije kodirajna slika se pretvara u YUV oblik, odnosno u zapis svjetline i 2 komponente boje. Buduæi da je ljudsko oko puno osjetljivije na svjetlinu nego na boju, boja se kodira sa manjom rezolucijom.

Audio kompresija

Buduæi da su karakteristike ljudskog vida i sluha veoma razlièite, za kompresiju zvuka se koriste potpuno drugaèiji algoritmi kompresije. Uho ima puno veæi dinamièki opseg i rezoluciju ali je "sporije".
MPEG je preporuèio 3 naèina kompresije nezvana: Layer-1, Layer-2 i Layer-3. Svaki slijedeæi layer je kompatibilan s svim nižim i zahtijeva složeniji koder ali daje bolje performanse (kvalitet zvuka prema potrebnoj brzini prijenosa).

Za svaki layer standard definira format niza bitova i dekoder, a ne definira koder sto omoguæava stalna poboljšanja u njegovoj realizaciji. Ipak, standard daje primjer dekodera za svaki layer.

Zajednièka karakteristika sva 3 layera je da koriste istu osnovnu strukturu koja se može opisati kao "perceptual noise shaping".
Koder analizira spektralne komponente audio signala pomoæu transformacije i primjenjuje ih na psihoakustièki model ljudskog sluha kako bi procijenio nivo kvantizacijskog suma koji je tek primjetan i u skladu s tim odredio potreban broj bita za prijenos te frekvencije.

Svi layeri koriste jednaku frekvencijsku podjelu na 32 dijela, a layer-3 dodatno koristi MDCT transformaciju kako bi povecao frekvencijsku rezoluciju.
Svi layeri koriste strukturu niza bitova koja ima dio koji je osjetljiviji na greške u prijenosu("header", "bit allocation", "scalefactors","side information") i dio koji je manje osjetljiv (podaci o frekvencijskim komponentama). Poèetni dio ("header") je jednak za sva 3 layer-a kako bi se podrzala hijararhijska struktura standarda.
Svi mogu koristiti frekvencije otipkavanja 32,44.1 ili 48KHz i svi mogu koristiti sliène brzine prijenosa:
Layer-1: od 32 kbps do 448kbps
Layer-2: od 32 kbps do 384 kbps
Layer-3: od 32 kbps do 320 kbps

Za zvuk CD kvalitete potrebno je uzimati uzorke frekvencijom od 44.1KHz (Nyquist+nesavršen filter) i kvantizirati ih sa 16 bita da bi se dobio SNR od 90dB koliki je dinamicki opseg uha (Za svaki bit dobije se SNR bolji za 6dB). Ako bi se koristio manji broj bita šum bi bio istaknut.
Medjutim, ljudski sluh ima izražen "maskirajuæi efekt": Ako je uz jak ton frekvencije npr. 1KHz prisutan i ton frekvencije 1.1KHz èiji nivo je 18dB manji, taj drugi ton jednostavno èovjek ne èuje. Ukoliko je ovaj drugi ton frekvencije 2KHz, neèemo ga èuti ako mu je razina 45dB manja od prvog tona. Sto su frekvencije razmaknutije, maskirajuci efekt je manje izražen.

Praktièno to znaci da se u okolini jakih tonova može dozvoliti veæi nivo suma, odnosno može se izvršiti kodiranje s manjim brojem bita sto znaci kompresiju.

Frekvencijski spektar (20Hz - 20KHz) dijeli se kod Layer-2 na 32 dijela i za svaki dio se proraèunava maskirajuæi efekt. Npr. ako je u jednom dijelu spektra prisutan ton nivoa 60dB i proraèunat je maskirajuæi efekt za sve tonove koji su za 35dB niži od njega prihvatljivi SNR biti æe 60dB-35dB=25dB koji je zadovoljen za 5-bitnu rezoluciju.
Takoðer, koder uzima u obzir i amplitudno-frekvencijsku karakteristiku uha koja nije konstantna. Uho je najosjetljivije za frekvencije izmeðu 2KHz i 4KHz, odnosno za frekvencije govora.
Layer-3 dijeli audio frekvencijski spektar na 18*32 dijela koristeæi MDCT transformaciju i to je razlog njegovih boljih performansi.

Osim u frekvencijskoj domeni, maskirajuæi efekt je izražen i u vremenskoj domeni. Tako snažan zvuk ima maskirajuæi efekt na 30-40 dB slabiji zvuk koji je nastao 2-5ms prije i do 100ms nakon njega (pre-pasking and post-masking).

Kod Layer-2 maskirajuæi efekt proraèunava se na vremenskom otvoru od 24 ms zvuka (1152 uzorka pri fs=48KHz). Ovaj vremenski otvor može stvarati probleme ako se u njemu desavaju velike promjene nivoa zvuka, pa su niži nivoi utopljeni u šum. To se èuje kao šumni eho. Layer-3 rješava ovaj problem tako sto koristi uzi vremenski otvor od 4ms ako koder registrira prethodnu situaciju.

MPEG-1 omoguèava prijenos 2 audio kanala. To mogu biti 1 ili 2 mono signala, stereo ili zajednièki stereo (joint stereo).
Kod obiènog (l/r) stereo signala jedan kanal prenosi lijevi, a drugi kanal desni kanal.
Joint stereo može biti intensity stereo ili m/s stereo.
Intensity stereo omoguæavaju layer-2 i layer-3, a realizira se tako da komponente lijevog i desnog kanala frekvencije veæe od 2KHz kombiniraju u jadan signal, a prenosi se i boèna ovojnica.
M/s stereo omoguæava samo layer-3, a realiziran je tako da jedan kanal prenosi sumu l+r, a drugi razliku signala l-r.

MPEG-2 omoguæava prijenos vrlo malim brzinama (od 8Kbps) uz frekvencije otipkavanja 16, 22.05 ili 24 KHz. Takoðer omoguæava i prijenos do 5 glavnih audio kanala (lijevi, središnji, desni, lijevi surround, desni surround) i 1 dodatni niskofrekfencijski (LFE-Low Frequency Enhacement) za subwoofer. Višejezièno proširenje omoguæava prijenos do 7 dodatnih audio kanala.

Povratak na poèetak