MPEG je skraèenica za Moving Picture Experts Group , odnosno grupu struènjaka koji se bave pokretnim slikama ali je zapravo postala sinonim za grupu meðunarodnih standarda koji opisuju kodiranje audio-vizuelnih informacija u komprimirani format. U ovu grupu standarda spadaju MPEG-1 (ISO/IEC-11172), MPEG-2 (ISO/IEC-13818) i MPEG-4 (ISO/IEC-14496). Razvoj MPEG-3 standarda je prekinut jer je razvoj tehnologije omoguæio da se njegove performanse mogu ostvariti sa MPEG-1 i MPEG-2 standardima.
MPEG grupu struènjaka osnovao je 1988 godine Leonardo Chiariglione i za svoja dostignuæa u razvoju MPEG i JPEG standarda dobio je Emmy nagradu za 1995/1996 godinu.
Osnovna ideja MPEG kompresije je transformacija niza uzoraka slike i zvuka u niz tokena koji zauzimaju manje resursa sustava, a koji daju doživljaj skoro jednak originalnom signalu. To se postiže tako da se uzimaju u obzir nelinearne karakteristake ljudskog vida i sluha. Buduæi da se umjesto originalnog signala prenose tokeni koji ga opisuju bilo je potrebno definirati sintaksu. Signali slike i zvuka se sinkroniziraju i multipleksiraju u zajednièki serijski niz bitova pomoæu MPEG System Layer-a.
MPEG-1 je dizajniran za kodiranje pokretnih slika sa zvukom i pohranu na digitalne medije uz maksimalni bir-rate od 1.5Mbps.
MPEG-1 je definiran u 5 dijelova:
Dio 1: System opisuje sintaksu za prijenos paketa,
sinkronizaciju i multipleksiranje video i audio podataka
Dio 2: Video opisuje kompresiju non-interlaced
video signala
Dio 3: Audio opisuje kopresiju audio signala
Dio 4: Conformance Testing opisuje naèine
provjere karakteristika kodiranog niza bitova, dekodiranja i testiranja
zahtijeva navedenih u prethodna 3 dijela.
Dio 5: Software Simulation sadrži primjer
software-skog enkodera i dekodera napisanog po ANSI C standardu
MPEG-2: Standard za kodiranje video i audio signala za prijenos brzinom izmeðu 4 i 9 Mbps. Kvalitet TV slike. Ima veæi broj audio kanala.
MPEG-3: Standard razvijan za HDTV aplikacije maksimalne dimenzije 1920 x 1080 x 30 Hz i brzine prijenosa izmeðu 20 i 40 Mbps. Naknadno je ustanovljeno da se uz odreðena fina podešavanja za te aplikacije mogu iskoristiti i MPEG-1 i MPEG-2 tako da je MPEG-3 napušten.
MPEG-4: Standard razvijen za aplikacije koje zahtijevaju malu brzinu prijenosa (videotelefonija). Maksimalne dimenzije su 176 x 144 x 10 Hz, a brzine prijenosa izmeðu 4.8 i 64 Kbps. Video i audio signal se opisuje audiovisualnimn objektima (prirodni i komjuterski generirani) i vezama meðu njima.
MPEG-7: Omoguæiti æe standardiziran opis razlièitih tipova multimedijskih informacija. Opis æe biti povezan sa sadržajem da bi se omoguæilo brzo i efikasno pretraživanje.
Osnovna zamisao u kompresiji videa je predviðanje
kretanja objekta na slici. Zbog toga se koriste 3 vrste okvira (frame):
“I”, “B” i “P”.
“I” okvir (Intra Frame) je okvir kodiran u cijelosti.
To je poèetni okvir i na osnovu njega se kodiraju slijedeæi
okviri.
“P” okvir (Predicted Frame) je okvir kodiran
na osnovu zadnjeg “I” ili “P” okvira. Ako je promjena u slici dovoljno
mala, samo se ona kodira, a ako je promjena znaèajna, slika se kodira
u cijelosti.
“B” okvir (Bidirectional Frame) je okvir kodiran
na osnovu najbliža 2 “I” ili “P” okvira od kojih je jedan u “prošlosti”,
a jedan u “buduènosti”. Slika može biti kodirana kao razlika u odnosu
na prethodni okvir, slijedeci okvir ili srednju vrijednost ta dva okvire,
veæ prema tome što daje najbolji rezultat.
Redoslijed ovih okvira odreðen je empirijski
i obièno izgleda ovako:
IBBPBBPBBPBBIBBPBBPB...
Razmak izmeðu 2 “I” okvira odreðena je
uz empirijski uvjet da zbog sinkronizacije njihov razmak ne smije biti
veæi od 0.4s.
Za ostvarivanje bolje kompresije koristi se i
èinjenica da je karakteristika ljudskog oka nelinearna, tako da
se male promjene svjetline u dijelu slike koji je svijetao ne primjeæuju.
Zbog toga je moguæ zapis svjetline sa grubljom rezolucijom. Takoðer
se koristi i èinjenica da je veæina slika jako korelirana,
odnosno imaju velike površine sa jednakom svjetlinom. Zbog toga se nakon
DCT transformacije dobiva veæina frekvencijskih komponenti u uskom
podruèju blizu ishodišta. Zanemarivanjem viših frekvencijskih komponenti
kvalitet slike se neæe znaèajno narušiti, a slika se kodira
sa puno manje bita.
Prije kodirajna slika se pretvara u YUV oblik,
odnosno u zapis svjetline i 2 komponente boje. Buduæi da je ljudsko
oko puno osjetljivije na svjetlinu nego na boju, boja se kodira sa manjom
rezolucijom.
Buduæi da su karakteristike ljudskog vida
i sluha veoma razlièite, za kompresiju zvuka se koriste potpuno
drugaèiji algoritmi kompresije. Uho ima puno veæi dinamièki
opseg i rezoluciju ali je "sporije".
MPEG je preporuèio 3 naèina kompresije
nezvana: Layer-1, Layer-2 i Layer-3. Svaki slijedeæi layer
je kompatibilan s svim nižim i zahtijeva složeniji koder ali daje bolje
performanse (kvalitet zvuka prema potrebnoj brzini prijenosa).
Za svaki layer standard definira format niza bitova i dekoder, a ne definira koder sto omoguæava stalna poboljšanja u njegovoj realizaciji. Ipak, standard daje primjer dekodera za svaki layer.
Zajednièka karakteristika sva 3 layera
je da koriste istu osnovnu strukturu koja se može opisati kao "perceptual
noise shaping".
Koder analizira spektralne komponente audio signala
pomoæu transformacije i primjenjuje ih na psihoakustièki model
ljudskog sluha kako bi procijenio nivo kvantizacijskog suma koji je tek
primjetan i u skladu s tim odredio potreban broj bita za prijenos te frekvencije.
Svi layeri koriste jednaku frekvencijsku podjelu
na 32 dijela, a layer-3 dodatno koristi MDCT transformaciju kako bi povecao
frekvencijsku rezoluciju.
Svi layeri koriste strukturu niza bitova koja
ima dio koji je osjetljiviji na greške u prijenosu("header", "bit allocation",
"scalefactors","side information") i dio koji je manje osjetljiv (podaci
o frekvencijskim komponentama). Poèetni dio ("header") je jednak
za sva 3 layer-a kako bi se podrzala hijararhijska struktura standarda.
Svi mogu koristiti frekvencije otipkavanja 32,44.1
ili 48KHz i svi mogu koristiti sliène brzine prijenosa:
Layer-1: od 32 kbps do 448kbps
Layer-2: od 32 kbps do 384 kbps
Layer-3: od 32 kbps do 320 kbps
Za zvuk CD kvalitete potrebno je uzimati uzorke
frekvencijom od 44.1KHz (Nyquist+nesavršen filter) i kvantizirati ih sa
16 bita da bi se dobio SNR od 90dB koliki je dinamicki opseg uha (Za svaki
bit dobije se SNR bolji za 6dB). Ako bi se koristio manji broj bita šum
bi bio istaknut.
Medjutim, ljudski sluh ima izražen "maskirajuæi
efekt": Ako je uz jak ton frekvencije npr. 1KHz prisutan i ton frekvencije
1.1KHz èiji nivo je 18dB manji, taj drugi ton jednostavno èovjek
ne èuje. Ukoliko je ovaj drugi ton frekvencije 2KHz, neèemo
ga èuti ako mu je razina 45dB manja od prvog tona. Sto su frekvencije
razmaknutije, maskirajuci efekt je manje izražen.
Praktièno to znaci da se u okolini jakih tonova može dozvoliti veæi nivo suma, odnosno može se izvršiti kodiranje s manjim brojem bita sto znaci kompresiju.
Frekvencijski spektar (20Hz - 20KHz) dijeli se
kod Layer-2 na 32 dijela i za svaki dio se proraèunava maskirajuæi
efekt. Npr. ako je u jednom dijelu spektra prisutan ton nivoa 60dB i proraèunat
je maskirajuæi efekt za sve tonove koji su za 35dB niži od njega
prihvatljivi SNR biti æe 60dB-35dB=25dB koji je zadovoljen za 5-bitnu
rezoluciju.
Takoðer, koder uzima u obzir i amplitudno-frekvencijsku
karakteristiku uha koja nije konstantna. Uho je najosjetljivije za frekvencije
izmeðu 2KHz i 4KHz, odnosno za frekvencije govora.
Layer-3 dijeli audio frekvencijski spektar na
18*32 dijela koristeæi MDCT transformaciju i to je razlog njegovih
boljih performansi.
Osim u frekvencijskoj domeni, maskirajuæi efekt je izražen i u vremenskoj domeni. Tako snažan zvuk ima maskirajuæi efekt na 30-40 dB slabiji zvuk koji je nastao 2-5ms prije i do 100ms nakon njega (pre-pasking and post-masking).
Kod Layer-2 maskirajuæi efekt proraèunava se na vremenskom otvoru od 24 ms zvuka (1152 uzorka pri fs=48KHz). Ovaj vremenski otvor može stvarati probleme ako se u njemu desavaju velike promjene nivoa zvuka, pa su niži nivoi utopljeni u šum. To se èuje kao šumni eho. Layer-3 rješava ovaj problem tako sto koristi uzi vremenski otvor od 4ms ako koder registrira prethodnu situaciju.
MPEG-1 omoguèava prijenos 2 audio kanala.
To mogu biti 1 ili 2 mono signala, stereo ili zajednièki stereo
(joint stereo).
Kod obiènog (l/r) stereo signala jedan
kanal prenosi lijevi, a drugi kanal desni kanal.
Joint stereo može biti intensity stereo ili m/s
stereo.
Intensity stereo omoguæavaju layer-2 i
layer-3, a realizira se tako da komponente lijevog i desnog kanala frekvencije
veæe od 2KHz kombiniraju u jadan signal, a prenosi se i boèna
ovojnica.
M/s stereo omoguæava samo layer-3, a realiziran
je tako da jedan kanal prenosi sumu l+r, a drugi razliku signala l-r.
MPEG-2 omoguæava prijenos vrlo malim brzinama (od 8Kbps) uz frekvencije otipkavanja 16, 22.05 ili 24 KHz. Takoðer omoguæava i prijenos do 5 glavnih audio kanala (lijevi, središnji, desni, lijevi surround, desni surround) i 1 dodatni niskofrekfencijski (LFE-Low Frequency Enhacement) za subwoofer. Višejezièno proširenje omoguæava prijenos do 7 dodatnih audio kanala.