Diplomová práca - Stránka projektu

http://auditory.localhost.sk


Názov : Návrh perceptuálneho a čiastočne štrukturálneho kódera a dekódera audio signálov pomocou predikcií .

Školiteľ : Doc. Ing. Gregor Rozinaj, PhD


Ciele :

Globálnym cieľom je navrhnúť a implementovať stratovo kompresný kóder a dekóder audio signálov ktorý bude pre zvýšenie kompresného pomeru používať techniky ako : 1) Predikovanie segmentu z časového okna do minulosti . 2) Signál z šumovej povahy aproximovať generovaným šumom ( teda nekódovať ho ) , čo je metóda zahrňujúca aj prekrývanie šumom ( noise shaping ) .

Realizovanie sa dá rozdeliť na dve základné úlohy : a) Navrhnúť “ psycho-akustický model “ zohľadňujúci 2) . b) Navrhnúť efektívny spôsob kódovania ( prihliadajúc na požiadavky uplatnenia ) .

Ďalšími cieľmi je dosiahnutie určitých výhod vzhľadom ku konvenčným kompresným formátom . Možné sú napríklad :

1. Nezávislosť kódu od frekvencie vzoriek pôvodného PCM signálu . To znamená že ak zakódujeme signál pochádzajúci z CD ( 44.1 kHz ) alebo z DVD ( 48 kHz ) , v oboch prípadoch budeme môcť signál dekódovať na 44.1 kHz , a aj na 48 kHz ( aj na 22.05 ; 24.0 ; 96.0 ; 192 kHz ) . Samozrejme čím vyššia vzorkovacia frekvencia PCM , tým širšie frekvenčne spektrum . Toto platí rovnako o zdroji signálu ako aj o dekódovaní .

2. Vypustené : Možnosť zlučovať a rozdeľovať kvalitatívne vrstvy kódovaného signálu . ..Niekedy vzniká potreba archivovať ten istý signál dva razy , pričom jeden krát vo vyššej a druhý v nižšej kvalite . Príkladom môže byť download skladieb z www ( napríklad v kvalitách 128 kbit/sec a 32 kbit/sec ) . Riešením tohto by bolo archivovať súbor v nižšej kvalite a druhý len ako akýsi doplnok do kvality vyššej . Takýchto vrstiev by mohlo byt vo všeobecnosti viac a malo by byť umožnené ich zlúčiť do jedného súboru ( multiplex-ovanie ) . Analogicky by malo byť možné vrstvy vytvárať ( demultiplex-ovanie ) .

3. Principiálne bude možné , ale nebude implementované : Možnosť bezstratových konverzii medzi kódovaniami z využitím a bez využitia časového kontextu . Využívanie predikcii pomocou časového okna spôsobuje že konkrétny segment je možné dekódovať až po dekódovaní obsahu tohto okna . Je to analógia z archivovaním videa kde nie všetky snímky sú kľúčové , a teda nieje možné začať video korektne dekódovať od ľubovoľného snímku ( len od kľúčového ) . Pri audiu môže vzniknúť potreba náhodného prístupu ( napr. pri stream-ovaní ) a môže prísť vhodné prekódovanie do archivácie bez predikcií . Analogicky ak je potreba rýchlo archivovať nejaký signál môže byť vhodné ho až neskôr ( keď bude k dispozícii viac výpočtového času ) prekódovať do archívu s predikciami .


Plán ( dokončovacích ) prác :

21.3 – 22.3 ( 23.3. ) : Pridanie metódy do kantizátora nahradzujúcej metódu krátkych a dlhých blokov v konvenčných kóderoch . Dokončené 26.3.

27.3 .. 30.3. : Opätovné pridanie log kvantizácie ale na inémiesto . Upravebie bezstratového kódovania / dekódovania vnútorných dát do definitívnej podoby . ( pakovanie už existujúcich výstupov (napr. z 0,32 sekundy signálu) do jedného binarneho paketu v pipeline procese . Dokončené .

31.3. .. cca 1.4. : Urobiť prvotné ukladanie / čítanie komprimovaných dát do / z súboru ( Triedy pre manipuláciu s týmito súbormi , Koder + Dekóder ako dva objekty encapsulujúce vsetky doterajšie vrátane ich konkrétneho pipelinového zapojenia , Súbor má byť postupnosť paketov zo značkami pre náhodný prístup vrátane ). Dokoncene.

4.4. .. Hlavne písanie ...

neustále : prispôsobovanie a upravovanie do konečnej podoby všetkého na čo narazím.

PROGNÓZA : audio môže znieť „veľmi“ dobre pri 90 - 110 Kbits/sec , a to prekvapivo „ostro“. :-)

V najbližšom období : - Urobiť modul fázového sterea . - Urobiť modul PNS a PNS-1 . - Urobiť predikčný modul . , - Umožniť voľbu profilov . , - User command-line interface .


Preštudované :

Tu budem uverejňovať odkaz na literatúru , linky na články a dokumenty ktoré sa týkajú problematiky a ktoré mi boli inšpiráciou . Hoci som už niečo preštudoval , boli to hlavne dokumenty ktoré som stiahol z www a momentálne už neviem odkade . Každopádne sa ešte pokúsim niektoré z nich znovu vyhľadať , a ďalšie už sem vypisovať .

Video and Audio Compression - http://www.cs.sfu.ca/CourseCentral/365/li/material/notes/Chap4/Chap4.html

Porovnanie AAC , MP3 a VQF - http://www.firstpr.com.au/audiocomp/aac-mp3-vq.html

Čo je SBR ? - http://www.esat.kuleuven.ac.be/~spch/mpca/papers/ekstrand:mpca02.pdf

Čo je HE AAC ( HE je to iste ako „pro“ pri mp3 ) http://www.telos-systems.com/techtalk/hosted/m4-in-30100%20(M4IF_HE_AAC_paper).pdf

Schéma kodéra AAC - http://www.lim.dico.unimi.it/didatt/materiali/mp4-aac_infoMusicale.pdf

OGG Vorbis - http://www.xiph.org/ogg/vorbis/docs.html

.. a daľšie .


Uverejnené :

Prehľadová kapitola : prehlad.pdf

Plánovaný obsah ( textu ) diplomovej práce : ObsahDiplPrace.pdf


Implementované :

http://auditory.localhost.sk/x21/ - experimentálna kompresia audio signálu na bitrate 21 kbit/sec .

http://auditory.localhost.sk/x91/ - experimentálna kompresia audio signálu zo „zachovaním“ kvality .


Kontakt :

Jozef Parák , Študent Fakulty Matematiky, Fyziky a Informatiky Univerzity Komenského v Bratislave .

e-pošta: jozef.parak zavináč nextra.sk ; auditory zavináč localhost.sk .