HD Audio wäre eine klare Sache. Aber die Indus­trie hat Mühe mit einer sinn­vollen Definition.

High Resolu­tion, High Defi­ni­tion, Stan­dard Defi­ni­tion: Offen­sicht­lich genervt über diese Begriffs­viel­falt und Begriffs­ver­wir­rung, bat ein frus­trierter Leser diesen Knoten zu ent­wirren. Auch die Adobe Audi­tion Bilder mit den Spek­tral­ana­lysen sind schwierig zu ver­stehen, wenn man nicht von der tech­ni­schen Seite her kommt. Ich ver­suche heute hier Licht ins Dunkel zu bringen und einige Grund­ele­mente zum Ver­ständnis der Materie zu erklären.

Die Audio­in­dus­trie ist leider nicht in der Lage eine ein­heit­liche Defi­ni­tion und Bezeich­nung für hoch­auf­lö­sende Audio­for­mate zu schaffen. Wir müssen mit meh­reren Auf­fas­sungen und Logos für hoch­auf­lö­sende Musik leben.

hd-logo-bar

Bild 1: Mit Hi-Res Music hat die Musik­in­dus­trie ein wei­teres Logo zum Thema kre­iert (Grösser = auf Bild klicken).

Die Her­lei­tung für eine klare HD Definition

Wie sieht nun eine fun­dierte Defi­ni­tion für High Defi­ni­tion Audio aus? Ich bleibe nun kon­se­quent beim mir am sinn­vollsten erschei­nenden Begriff HD Audio. Die Musik­in­dus­trie und Teile der Gerä­te­in­dus­trie ver­su­chen mit einem sub­jek­tiven Ansatz alle mög­li­chen Arten von Auf­nahmen als HD zu ver­markten, egal ob die tech­ni­schen Para­meter für HD Audio erfüllt werden oder nicht. Grund­sätz­lich muss HD Audio den Frequenz- und Dyna­mik­um­fang der auf­zu­zeich­nenden Musik voll­um­fäng­lich erfassen, spei­chern und repro­du­zieren können. Der mensch­liche Hör­be­reich muss voll­ständig abge­deckt sein. Dies auch in Bezug auf die zeit­lich genaue, pha­sen­sta­bile Repro­duk­tion des Klang­ge­sche­hens. Die Linea­rität muss hoch sein, die Ver­zer­rungs­kom­po­nenten mög­lichst gering. Dieser tech­ni­sche Ansatz kann und sollte mit sub­jek­tiven Hör­aspekten, d.h. Hör­psy­cho­logie als Wech­sel­be­zie­hung betrachtet werden.

adobe-chart-explain-mein

Bild 2: Fre­quenz und Dyna­mik­um­fang der Instru­mente und der mensch­liche Hör­be­reich sind der Mass­stab für die Defi­ni­tion von HD-Audio. Das Ober­ton­spek­trum der Instru­mente reicht deut­lich über den mensch­li­chen Hör­be­reich hinaus. Aller­dings sind diese Fre­quenz­an­teile von der Energie her (Laut­heit) extrem schwach. Dies ver­deut­licht das stark abfal­lende Fre­quenz­spek­trum ober­halb von 20kHz (blaue Kurve) (Grösser = auf Bild klicken).

Stellen wir nun diese Anfor­de­rungen (tech­ni­sche Eck­werte) den Mög­lich­keiten der ver­schie­denen Audio­tech­no­lo­gien gegenüber.

A) Analog Audio: Ent­wick­lung von der Edison Walze von 1877 bis zu der aus­ge­feilten Technik heu­tiger Vinyl Ton­trä­ger­sys­teme. Dies schliesst auch die ana­loge Band­technik ein. Es geht um rein ana­loge Audiotechnik.

B) CD Format 16/44.1. Das Grund­kon­zept der digi­talen Audio­technik aus den frühen 80er Jahren. Der Red Book Stan­dard defi­niert einer­seits die lange gül­tigen Auf­zeich­nungs­pa­ra­meter und ander­seits die CD als phy­si­schen Träger mit opti­scher Abtas­tung als Distributionsformat.

C) Digi­tale Audio­for­mate, welche einen höheren Dynamik- und Fre­quenz­um­fang als die bis­he­rigen unter A und B defi­nierten For­mate haben und die Kri­te­rien „mensch­li­cher Hör­be­reich“ und „Ton­um­fang der Instru­mente“ erfüllen oder übertreffen.

adobe-chart-pcm-audio11

Bild 3: Das PCM Format 24Bit/96kHz erfüllt die oben genannten Kri­te­rien voll­um­fäng­lich. 24/192 deckt einen Bereich ab, indem nichts vor­handen ist. Den­noch wird dieses Format als noch besser als 24/96 ver­marktet. Es gibt nur ganz schwache Argu­mente die 24/192 recht­fer­tigen. Diese drehen sich um den Aspekt des zeit­li­chen Auf­lö­sungs­ver­mö­gens eines Sys­tems und um Filt­er­ei­gen­schaften (Grösser = auf Bild klicken).

Ver­gleich von ana­logen und digi­talen Technologien

Die Indus­trie bringt nun lau­fend Remas­ters und Über­spie­lungen von ana­logen Bän­dern oder gar Schall­platten als HD Alben auf den Markt. Erfüllen diese als Down­load erhält­li­chen Neu­auf­lagen bekannter Alben die HD Kri­te­rien? Erfüllt bereits die CD HD Kriterien?

adobe-chart-pcm-analog12

Bild 4: Wir sehen, die ana­loge Audio­technik erfüllt die Kri­te­rien Mensch/Instrument nicht ganz. Auch nicht in den Aspekten zeit­li­ches Auf­lö­sungs­ver­mögen, Linea­rität, Ver­zer­rungen und Kanal­tren­nung. Den­noch können mit ana­loger Technik her­vor­ra­gende Auf­nahme gemacht werden. Nur erfüllen diese die Anfor­de­rungen für HD Audio nicht. Die CD punktet mit hoher Dynamik, Kanal­tren­nung und Linea­rität, kann aber in Bezug auf das repro­du­zier­bare Fre­quenz­spek­trum die Anfor­de­rungen nicht erfüllen.

Wie gesagt, mit ana­logen Tech­no­lo­gien lassen sich durchaus über­zeu­gende Auf­nahmen rea­li­sieren. Werden nun solche per Defi­ni­tion als Stan­dard Auf­lö­sung ein­ge­ord­neten Auf­nahmen in einen HD Hülle (Con­tainer) gepackt, haben wir trotzdem nur eine Klang­treue (Fide­lity) auf SD Niveau. 1 Kilo Zucker in einem 2 Kilo Sack erzeugt auf der Waage trotzdem nur 1 Kilo auf der Anzeige.

Aber: „Analog hat im Gegen­satz zu digital Audio eine unend­liche Auf­lö­sung – die Infor­ma­tion zwi­schen den Abtast­werten sind bei digital ver­loren“. Diese Aus­sage hört man oft. Nur stimmt sie nicht. > Link Digital Basics. Die rele­vanten Para­meter sind Dynamik und Fre­quenz­um­fang – egal ob digital oder analog Technik.

Somit fol­gern wir, dass für echtes HD Audio die Kette (Auf­nahme, Spei­che­rung, Wie­der­gabe)  durch­gängig min­des­tens im Format 24Bit/88.2kHz (Dynamik)/(Frequenzumfang) arbeiten muss. Oder vom CD-Niveau her betrachtet: HD muss mehr als 16Bit Wort­länge UND 44.1kHz Sam­pling­fre­quenz haben.

Hier die Defi­ni­tion der Japan Audio Society aus dem Jahre 2014 für HD Audio. Die erste grif­fige tech­ni­sche Defi­ni­tion, die mit dem Hi-Res Logo ver­knüpft ist. Leider klebt das Hi-Res Logo auf Alben und auch auf Geräten (hier aller­dings sehr selten), welche die HD Kri­te­rien nicht erfüllen.

jas-definition

Ana­lyse Werk­zeuge helfen eine Auf­nahme nach mess­baren Kri­te­rien zu beurteilen

Mit Hilfe von Pro­grammen, wie Adobe Audi­tion, lassen sich Musik­auf­nahmen ana­ly­sieren und von der tech­ni­schen Seite her beur­teilen. Wir haben diese Bilder schon oft  in unserem Blog publi­ziert. Wie muss man diese nun lesen?

Vorweg muss man sich kurz mit der Physik eines Klanges beschäf­tigen. Jeder Ton den ein Instru­ment erzeugt (auch Gesang), besteht aus Grund- und Ober­tönen. Diese Grund- und Ober­töne sind immer sinus­förmig und stehen in einem mathe­ma­ti­schen Ver­hältnis zum Grundton. Die ein­zelnen Sinus­schwin­gungen addieren und sub­tra­hieren sich zu einer Hüll­kurve. Der Grundton bestimmt die Ton­höhe, die Ober­töne den Klang­cha­rakter, also ob wir eine Trom­pete oder eine Gitarre hören.

time-vs-fft

Bild 5: Ein Klang ent­steht durch Grund und Ober­tönen. Diese ergeben die Hüll­kurve. Obere Bild­hälfte: Grundton = rote Sinus­schwin­gung = Ton­höhe. Ober­töne: 1 Har­mo­ni­sche = blaue Sinus­schwin­gung, 2. Har­mo­ni­sche = grüne Sinus­schwin­gung. Hüll­kurve = vio­lette Schwin­gung (nicht mehr sinus­förmig). Sie sehen, wie das ver­ein­fachte Grund­prinzip in der oberen Bild­hälfte  mit den Adobe Audi­tion Bil­dern korrespondiert.

Hier noch­mals das gleich Prinzip mit einer Grund­schwin­gung und zwei Ober­tönen als Audi­tion Grafik:

triple-sinus

Bild 6: Die Aus­sage von Bild 5 mit Audi­tion rea­li­siert. Man sieht deut­lich die mit zuneh­mender Fre­quenz abneh­mende Energie der Schwin­gungen. Der 1kHz Ton ist kräftig orange, der 10kHz Ton schwach vio­lett. Die grüne Hüll­kurve zeigt die sich über­la­gernden Fre­quenzen (die obere Zeit­achse ist stark gedehnt im Ver­hältnis zur Spek­tral­an­zeige unten). Die ein­zelnen Töne setzen zeit­ver­setzt ein.

Hier die aus dem vor­letzten Blog bekannte Grafik  der Ber­lioz Sym­phonie fan­tas­tique, die Sie nun besser inter­pre­tieren können:

berlioz-sf-spektrumt

Bild 7: Der  grosse Dynamik- und Fre­quenz­um­fang dieser Ber­lioz HD Auf­nahme (24/96) lässt sich nicht voll­um­fäng­lich auf einem Träger im SD Format (CD/Tape/Vinyl) speichern.

Knack­nuss zeit­li­ches Auf­lö­sungs­ver­mögen – wirklich?

Das zeit­liche Auf­lö­sungs­ver­mögen des mensch­li­chen Hörens wurde in letzter Zeit ver­mehrt dis­ku­tiert. Rich­tungs­ori­en­tiertes Hören ent­steht dadurch, dass Schall­wellen von rechts zuerst am rechten Ohr ein­treffen und zeit­ver­setzt am linken Ohr. Aus der kleinen Zeit­dif­fe­renz errechnet unser Hirn die Rich­tung aus der der Ton oder das Geräusch kommt. Das zeit­liche Auf­lö­sungs­ver­mögen des Men­schen ist weit grösser als die Fähig­keit unter­schied­liche Ton­höhen genau zu erkennen. Auf die Audio­technik über­tragen bedeutet dies, dass bei einem Audio­gerät Pha­sen­fehler (zeit­li­cher Ver­satz des Signals) respek­tive Jitter in digi­talen Sys­temen einen viel grös­seren Ein­fluss auf das Hör­emp­finden haben als Fre­quenz­gang­fehler. Es erstaunt daher auch nicht, dass die Bowers & Wil­kins Inge­nieure mehr Wert auf Pha­sen­treue als auf eine extrem gerade Linie im Fre­quenz­dia­gramm legen.

Das zeit­liche Auf­lö­sungs­ver­mögen der CD wird aus Unkenntnis über die Funk­ti­ons­weise der digi­talen Signal­ver­ar­bei­tung sehr oft falsch inter­pre­tiert. Es herrscht die irrige Mei­nung vor, die Infor­ma­tion zwi­schen den Abtast­punkten sei ver­loren. Auch ein Zeit­ver­satz der kleiner als das Abtast­in­ter­vall ist, wird bei der Wie­der­gabe zeit­richtig rekon­stru­iert.  Eine höhere Abtast­fre­quenz (Sam­ple­rate) erfasst nicht mehr Infor­ma­tionen im Fre­quenz­be­reich der bereits von einer tie­feren Abtast­rate erfasst wurde. Die Erhö­hung von 44.1 kHz auf 96 kHz erwei­tert den mög­li­chen Über­tra­gungs­be­reich von 22.05 kHz auf 48kHz.

Fazit: HD Audio kann tech­nisch genau defi­niert werden. Die Mar­ke­ting­ab­tei­lungen ver­su­chen auch SD For­mate als HD Audio zu ver­kaufen. Mit Aus­sagen wie „Mas­ter­band Qua­lität“ „und „so wie es die Künstler im Studio hören“ werden SD Auf­nahmen ab Band oder CD Master in HD Con­tainer ver­packt und ange­boten. Aber auch auf der anderen Seite der HD Line wird kräftig mit hohen und immer höheren Sam­pling­raten ver­sucht ver­meint­lich bes­sere Qua­lität zu lie­fern. Ausser Nullen auf der Fest­platte und einem leicht lee­reren Geld­beutel pas­siert aber gehör­mässig nichts. Als Grund für Sam­pling­raten grösser als 96kHz werden Vor­teile im Zeit- und Fil­ter­be­reich genannt. Nur bis jetzt fehlt der schlüs­sige Beweis für diese Argumente.