2008-01-06

Absolutní zlo komprese dynamiky

Karlova Zpověď vinylového fetišisty evidentně po všech stránkách zabodovala, protože kromě pozitivních ohlasů přinesla přes fórum MS (konkrétně Pavla Parikrupu) taky link na článek The Death of High Fidelity a audio/videoukázku komprese dynamiky.

Nedozvěděl jsem se tam sice skoro nic nového, ale je to opravdu docela pěkná ukázka. Místy až moc pěkná. Článek a hlavně ta videoukázka totiž pomocí dobře vybraných příkladů vytvářejí dojem, že existuje nějaký dokonalý zvuk nahrávek, který vedení gramofirem pomocí dynamické komprese zlovolně a bezdůvodně (přesněji řečeno jen kvůli dosažení vyšší průměrné hlasitosti) degraduje. Ale jak už to tak bývá, tak skutečnost je trochu složitější a připadá mi, že některé věci v článku trochu zanikly (asi vlivem komprese dynamiky textu =).

Komprese se totiž nezačala používat jen tak pro nic za nic - správně použitá komprese totiž může naopak celkovou kvalitu přehrávaného záznamu zvýšit. Je to ovšem něco za něco a je to poněkud složitější...

Jakýkoliv reprodukční řetězec (gramofon/CD, zesilovač, reproduktory) by měl samozřejmě přehrávat hudbu přesně v té podobě, jak ji hudebníci ve studiu zaznamenali, ale to je prakticky nemožné a naráží to na spoustu technických omezení, se kterými je třeba se nějak poprat. Nejdůležitější je samozřejmě záznamové médium.

Pokud na počátku máme teoreticky ideální záznam neomezeného dynamického rozsahu (od absolutního ticha po zvuk atomového výbuchu poslouchaný v jeho epicentru), tak na každém záznamovém médiu máme k dispozici v podstatě velmi omezenou stupnici, do kterého ten ideální záznam musíme nějak vtěsnat. U CD je to šestnáctibitová digitální stupnice (tedy můžeme používat čísla od -32767 po 32767), u gramofonu je to tenounká (přesné rozměry se mi nechce hledat) dvourozměrná (tedy pokud je to stereo) drážka v gramofonové desce. Matematicky je řešení jednoduché - celá funkce (totiž záznam zvuku) se tranformuje (tedy pravděpodobně zmenší) tak, abychom využili na maximum dynamický rozsah, který máme k dispozici. Na CD tedy bude mít ticho logicky hodnotu 0, zatímco nejhlasitější místo původního ideálního záznamu (výbuch bomby nebo v hudbě spíše místa, kde jsou údery bubnů nebo činelů) hodnotu 32767 a všechno ostatní budou hodnoty mezi tím. To všechno by pak měl zesilovač zesílit a reproduktory reprodukovat v hlasitosti, jakou se jako jako posluchači zvolíme.

Tedy tak by to bylo v ideálním světě reálných čísel, jenomže žádná z těch záznamových stupnic není nekonečně jemná. U digitálního záznamu na CD nemáme k dispozici reálná čísla, ale jen celá a u gramofonu je přesnost dána tím, na jak malé výchylky drážky je ještě schopná jehla a přenoska reagovat. U jakéhokoliv reálného záznamu tedy vždy v nějaké formě dochází ke ztrátě kvality.

Každé zaokrouhlední při převodu záznamu se projevuje jako malá náhodná odchylka od ideálního zvuku. Pokud je taková odchylka ojedinělá, lidské ucho to vnímá jako lupnutí, pokud je takových náhodných odchylek v záznamu hodně za sebou, ucho to vnímá jako šum. A jak už jsme si řekli, tak při jakémkoliv převodu záznamu vždy k nějakým drobným odchylkám dochází a tím pádem se do záznamu vždy nějaký šum dostane. A tím to nekončí, protože k dalším převodům signálu dochází během reprodukce. Skutečný DA převodník v CD nemůže být nikdy úplně přesný, stejně tak jehla gramofonu nekopíruje drážku naprosto přesně (nemluvě o mp3 kompresi dat, kde je zkreslení ještě výraznější!), takže se do záznamu přimíchá další šum. A teprve tento zkreslený zvuk se i s už přidaným šumem zesiluje (samozřejmě za cenu přidání ještě dalšího, ale většinou méně podstatného šumu) na požadovanou hlasitost - zesiluje se tedy i nežádoucí šum.

My ale naštěstí můžeme ovlivnit, kde a jak velká ztráta kvality ve výsledku bude.

Množství šumu při ukládání a zpětném čtení záznamu zvuku je totiž z principu konstantní a nezávisí na zaznamenáváném zvuku. Čím lépe tedy využijeme možný dynamický rozsah záznamového média (tj. zjednodušeně čím hlasitější záznam bude), tím menší v něm po požadovaném zesílení bude podíl šumu a tím přesněji budou slyšet i slabé zvuky.

K tomu je ovšem bohužel třeba nějak se vypořádat se "špičkami", které překračují hlasitost záznamu ve svém okolí a po dalším zesílení by se nám do naší záznamové stupnice už nevešly. Buď je můžeme oříznout (tj. nahradit maximální hodnotou, kterou na stupnici máme, a tvářit se jakoby nic - fuj!) nebo je a jejich okolí při zesilování vynechat - což je v podstatě princip komprese dynamiky. Celý záznam se tím v průměru zesílí, ale nejhlasitější místa jsou pak všechna "stejně hlasitá".

Komprese dynamiky je tedy vždycky kompromis - po jejím použití je při přehrávání slyšet méně šumu a více tichých pasáží, ale hlasité pasáže znějí všechny stejně a v nich se tišší zvuky (přesněji řečeno spíše tišší frekvence) naopak ztrácejí, protože tam nebyly zesíleny na stejnou úroveň, jako ve zbytku záznamu. Záleží tedy na tom, o jaký záznam se jedná, kolik a jakých (tedy jak širokých) je v něm špiček, jak velkou hodnotu komprese použijete a neposlední řadě i to, jaké přehrávací vybavení používáte, což je v podstatě pointa toho anglického článku.

Šum a komprese dynamiky
Srovnání šumu u zesíleného záznamu bez komprese (4) a záznamu s kompresí bez zesílení (6)

Vhodně použitá komprese totiž vlastně trochu zvyšuje průměrnou kvalitu přehrávání na méně kvalitních zařízeních, ale tím snižuje kvalitu u hi-fi přehrávačů, kde by hladina šumu byla i bez komprese tak nízká, že by nestálo za pozornost se jí vůbec zabývat.

"Loudness war", kdy se postupně rok od roku zvyšuje komprese nových nahrávek, aby na stejném (nekvalitním) zařízení zněly co nejhlasitěji, tedy skutečně zuří, ale právě proto, že většině posluchačů spíše pomáhá a přináší jim (v mezích jejich vybavení) kvalitnější poslech, se asi nedá čekat, že by se měl vývoj posledních let obrátit.

A mimochodem ta válka zuří i u nás! Co přesně mi vlastně chybělo na posledních deskách Tata bojs?

Vývoj hlasitosti na deskách Tata bojs
Vývoj hlasitosti na deskách Tata bojs. RMS (root mean square = kvadratický průměr) charaterizuje průměrnou hlasitost nahrávky.

Jedinou šancí pro audiofily asi bude, že se pro ně začnou některé desky vydávat ve speciálních verzích bez nebo jen s minimálně nutnou kompresí dynamiky. Už si živě představuju, jak se vedle nápisů "Kopírování zabíjí hudbu" objeví i nápis "Compression Free". =) Možná, že zatím se to firmám nevyplatí, protože neexistuje dost audiofilů, kteří by si za to chtěli připlatit, ale pokud podíl mp3 pirátství dále poroste a tím pádem bude prodej komprimovaných nahrávek na CD dále klesat, tak se firmy ještě rády obrátí k audiofilům a těch nápisů se dočkáme... Nebo už se to na SACD píše? =)

(Původně jsem chtěl přihodit ještě ukázky, jak se projevuje digitalizace a úpravy dynamiky u zpracování obrazu, kde se řeší v principu velice podobné problémy, ale všeho s mírou... =)