96kHz …ein Essay zwischen Engstirnigkeit und blinden Gehorsam

Welcher Teufel reitet mich jetzt schon wieder über ein Thema zu schreiben das üblicherweise zu zwei möglichen Reaktionen führt. Beide haben in der Regel den gleichen Ursprung, entweder den Glauben daran, dass 48kHz genug sind um das unzulänglich beschränkte menschliche Gehör mit maximaler Audiophilität zu versorgen, oder den Glauben an genau das Gegenteil, dass kein noch so hochauflösendes Signal in der Lage ist den “Original Klang” zu reproduzieren bzw. neutrale Infrastruktur zu sein. Diskussionsrunden zu diesem Thema enden meist nach fünf Minuten wenn die Teilnehmer ihre Angehörigkeit zu einem der beiden Lager offenbart haben. Entweder sind 96kHz Quatsch weil wir keine 25kHz hören können oder 48kHz sind nicht genug weil 96kHz irgendwie besser klingt. Das erste Lager ist meist besser ausgestattet was die allgemein akzeptierten Argumente angeht denn die Schulbücher sind voll damit. Zwei Dinge möchte ich direkt klarstellen. Ich stelle weder die theoretischen Grundlagen in Frage, noch bin ich in der Lage 25kHz zu hören. Auf der anderen Seite fühlt sich mein Gehör mit einer voll digitalen Signalkette in 96kHz wohler als mit der gleichen Hardware in 48kHz oder einer voll analogen Signalkette. Die voll analoge Variante hat wiederum irgendwas das in 48kHz nicht so gut darstellbar ist. Ich könnte es mir einfach machen und diesen Umstand als subjektive Marotte bei der Psychologie eine große Rolle spielt abhaken. Dummerweise bekomme ich regelmäßig, von Leuten die weder wissen was ich da so machen noch ein geschultes Gehör haben, Fragen gestellt wie: „warum klingt das so gut?“, „das klingt irgendwie besser als letztes Mal, es ist doch alles gleich, wieso ist das so?“. oder einfach „was sind das für außerordentlich gut klingende Zuspielungen?“ Audio und Gehör sind ja generell ein sehr subjektiver Bereich beim Bild hingegen stellt keiner in Frage das höhere Auflösungen generell besser sind. Man kauft wie selbstverständlich 4k auch wenn die Framerate noch nicht hinterherkommt. Aber wehe ein gestandener Tontechniker möchte sich den neuen HD Player für unterwegs kaufen der 96kHz Dateien abspielt. Hier ist nicht nur das Gerät völlig überflüssig, nein auch der Käufer ist direkt ein Idiot! Was ist denn an hochwertigem Werkzeug so falsch? Wenn ich mir den Kofferraum mit Hilti, Makita und Festo fülle fragt doch auch keiner ob ich noch alle Latten am Zaun habe. OK das Thema ist also neu und die Qualität ist nicht in der breiten Masse akzeptiert. Fortschritt und Evolution basieren ebenso auf neuen Möglichkeiten wie auf kritischer Hinterfragung. Vor 10 Jahren waren sich die gleichen Leute einig, dass man mit 320kbps MP3 keinen Unterschied zur CD in 44.1kHz/16Bit wav hört. Wer damit glücklich ist gehört zu den gesegneten die Ihr Geld besser in den 4K Fernseher investieren. Ich meine das tot Ernst …seid froh, ihr spart ne Menge Zeit und Geld! Ihr seid auch keine schlechteren Tonleute weil ihr kein 96k braucht. Die Frage ist einfach: warum gefällt mir 96kHz besser?

Meine Erkenntnisreise beginnt bei der Haltung: „48kHz sind genug und höhere Auflösungen sind Ressourcen Verschwendung, es sei denn es geht um Teufel komm raus um Latenz dann machen 96kHz halt Sinn“. Mein Studiorechner ist zwar durchaus halbwegs aktuell aber normalerweise fahre ich ihn in 44.1k so an die Wand das ich über 96k gar nicht nachdenken muss. Meine Plattensammlung besteht fast ausschließlich aus Vinyl und ich liebe den begrenzten und typischen Sound. Meine Abhöre habe ich mir von einem begnadeten Genie so bauen lassen wie ich es brauche. Der Studioraum ist nur rudimentär optimiert und hat ein paar durchaus ernste Probleme die ich kenne und akzeptiere weil der Verzicht auf eine Küche und der Durchgang zum Garten nicht verhandelbar sind. Zurück zur Musik …ich höre lieber solche die ich mag als high-end-audiophile Meisterwerke die mir nicht gefallen. Dennoch war ich seit der Inbetriebnahme der neuen Abhöre auf der Suche nach technisch besseren Formaten und Aufnahmen die mir gefallen um mal was anderes zu hören das maximalen Klang liefert und musikalisch ertragbar ist. Alles was ich bis dato fand waren HD Orgel- und Klassik Werke die mich so langweilten, dass ich lieber umgeschaltet habe auf meine Lieblingsschallplatten. Die Stores hatten einfach nichts anderes im Katalog als für mich langweilige wie die GEMA es nennt „Ernste Musik“. Da fand ich auf einmal den amerikanischen Online Händler hdtracks.com. Der Katalog ist im Vergleich zu den europäischen Alternativen etwas runder. Top Label mit erstklassigen Künstlern und Produktionen. Ich war skeptisch und dachte, OK …die konvertieren die CD Master einfach hoch und verkaufen den Kram als HD einfach erneut. In den Beschreibungen findet man allerdings immer Informationen über die Quelle wie z.B. Original Masterband unter hochwertigsten Bedingungen abgetastet, oder neu remastered von XY speziell für das Format in dem Store, oder Original Mehrspurbänder neu gemischt. unter den besten Bedingungen von den besten Leuten ….blablablub. Ich dachte mir, wenn ich XY bin würde ich eine Lüge an dieser Stelle nicht erlauben. Da saß ich nun mit meiner skeptischen Haltung und einem lieben Freund und Kollegen bei einer unserer Philosophiestunden im Studio und zeigte ihm den Store. Er sagte „komm das probieren wir jetzt mal aus, kauf mal das Köln Konzert von Keith Jarrett in 96kHz/24Bit“ Ist jetzt nicht so meins aber OK gesagt getan. Kauf, Download, Play …20min später stellen wir fest, dass wir völlig fokussiert zuhören und aufgehört haben zu diskutieren …was nicht selbstverständlich ist bei uns 😉 Als Tagesergebnis nahm ich an, dass halt die Quelle besser ist und es nicht unbedingt an 96kHz liegt. Folglich habe ich die Dateien mal runterkonvertiert auf 48kHz und MP3 in 320kbps. Das Ergebnis hat mir nicht so gut gefallen wie das Original, das kann aber auch der Qualität Sampleratekonvertierung geschuldet sein. Schließlich ist der OSX onboard Algorithmus nicht mit einem Weiss SFC2 vergleichbar der dummerweise nicht in der Ecke herumsteht. So nun hab ich also schöne Musik in hochwertiger Qualität zum Souncheck aber was mach ich nun mit der Signalkette bei Veranstaltungen?

Status Quo Anfang 2011 als meine Reise Richtung HD Audio begann sah das für mich zu 70% ungefähr so aus:

analog Muco -> digital Pult -> analog Muco -> digital Controller/Amp

Generell waren auf Herstellerseite A/D Wandler günstiger zu implementieren als digital Eingänge und Sampleratekonverter, was die Lage nicht unbedingt begünstigte. Auf der Verkabelungsseite hingegen waren 50% der Mulitore nicht in 110 Ohm ausgeführt und die Evolutionsstufe AES/EBU wurde im Prinzip übersprungen. Die Vorteile der Digitaltechnik überwogen, aber eine vollständig analoge Kette klang einfach noch besser. …aber wer wollte das schon noch so machen 😉 Das Returncore hatte ich wann immer es geht schon in Dante ausgeführt und blieb bis in die Amps digital. Dieser Schritt brachte klanglich bereits deutliche Vorteile insbesondere in 96kHz ausgeführt von PM5D per Dante in PLMs. Aber woran liegt das? Multiple Wandlung vs. einmalige Wandlung? Qualität der Wandler an sich?, Clock?, Jitter?, SRC?, Tiefpassfilter in den Wandlern?, interne Signalverarbeitung und Summierung?, Berechnung von Filtern nahe der Nyquist Frequenz? Unzählige Parameter ohne forensische A/B Vergleiche unmöglich zu adressieren. Eines ist jedoch auffällig, dass fachfremde Personen ohne Informationen Fragen bezüglich der „guten“ Tonqualität stellten, insbesondere bei wiederkehrenden Jobs wo alle anderen Parameter bezüglich Ort, Material und Personal gleich blieben. So blieb mir nur das Wissen um die Signaltheorie und erhellende Diskussionen mit gleichgesinnten Kollegen zum Zwecke der Lokalisation der Ursachen. Ich bin immer noch skeptisch was die Grundsatzfrage „ist 96kHz generell besser als 48kHz?“ angeht aber Tatsache ist einfach, dass mit dem Stand der Technik 2014 bessere Ergebnisse rauskommen. Eine durchgängig digitale Signalkette in 96kHz klingt für mich einfach mehr nach „Masterband im Studio“ als das gleiche Setup in 48kHz. Daran sind viele Faktoren beteiligt und eindeutige Schuldige noch nicht benannt. Natürlich weiß ich auch, dass 80% der menschlichen Sinneswahrnehmung auf psychologischen Effekten beruhen und ich mich im Grunde ständig selbst verarsche. Auf der anderen Seite bin ich nicht bereit es bei den üblichen 48kHz zu belassen, einfach aufzugeben und mich Lager 1 anzuschließen. Signaltheorie ist eine Sache, praktische Konstruktion von Hardware im preisbekämpften Marktumfeld eine ganz andere! Ich fasse meinen unfertigen Erfahrungsschatz also wie folgt zusammen:

1. Die audiophile Qualität der Mischung und des Masterings bei speziell für HD Stores produzierten Quellen gefällt mir besser als Alternativen auf CD und Vinyl …96kHz/24bit Produkte klingen für mich besser.

2. Aufnahmen meiner Plattensammlung gefallen mir in 96kHz/24bit besser als in 44.1 oder 48kHz.

3. Das gilt auch beim Abhören mit Kopfhörer gerade bei Vinyl lasse ich selbstverständlich die geliebten Artefakte wie Knackser, Knistern, Rumpeln und Rauschen im Originalzusstand. Hierbei fällt mir auf, dass grade die Knackser naturgetreuer klingen und sich die Aufnahmen wie das Original Vinyl besser durchhören lassen. Irgendwas ist also an der Transientenfront zu suchen.

4. Die Signaltheorie macht uneingeschränkt Sinn in Bezug auf den Frequenzgang, allerdings ist die Betrachtung immer zweidimensional und die Zeitkomponente wird gerne übersehen. Bandlimitierung, Konstruktion des Tiefpassfilters, Gibbs-Effekt, Überschwingen …alles Parameter die für Transienten wichtig sind und gerne weggelassen werden. Sinussignale sind hilfreich für das Schulbuch, aber in der Praxis geht es um Paco De Lucia an der Gitarre und Kastagnetten mit Schoeps abgenommen oder die Schrabbelband mit SM´s. Ein anderes Beispiel, das nicht mit Fourier hinreichend beschrieben werden kann ist simpler Applaus. Hier spielt subjektive Wahrnehmung eine sehr große Rolle, entweder man fühlt sich dabei oder ausgeschlossen.

5. Die Ausführungsqualität der Hardwarekomponenten spielt eine große Rolle die ebenfalls nicht im Schulbuch beschrieben wird. Oversampling wurde ja nicht umsonst erfunden. Das 100€ USB Interface klingt in 96kHz natürlich besser weil der Tiefpassfilter nachlässig und billig konstruiert werden kann, während 4000€ Hardware konsequent bestmöglich konstruiert in 48kHz perfekte Ergebnisse liefert.

6. Diese Parameter kumulieren sich zu einem nicht mehr durchschaubaren Ganzen wenn man eine typische Signalkette mit langen Kabelwegen auf Veranstaltungen konstruiert. A/B Vergleiche und Blindtests sind für Veranstaltungssetups praktisch nicht durchführbar.

So! …und nun fallt über mich her, zerreißt Euch das Maul, schimpft Blasphemie und startet den Shitstorm. Alle anderen lade ich ein zu diskutieren und sich aktiv an der Evolution zu beteiligen. Wenn wir in 10 Jahren wie selbstverständlich in 96kHz arbeiten will keiner mehr was von 48kHz wissen und dann heißt es wieder „braucht im Prinzip kein Mensch, aber macht man halt so“ Die Alternative wäre zu wissen wie einzelne Parameter das Ergebnis beeinflussen. …das kann doch so schlimm nicht sein!

Basiswissen für Interessierte

xiph.org

Eine sehr gute Erklärung der Grundlagen und eine kritische Gegner Stimme zu hochauflösenden Audio.

people.xiph.org

Dann harte Kritik an HD Audio incl. Klangbeispielen zu Intermodulationsprodukten

ocw.mit.edu

Forschungspapiere vom MIT

digido.com

Bob Katz

jamminpower.com/PDF/

James A. Moorer (Sonic Solutions)

jamminpower.com/main/

James A. Moorer (Sonic Solutions)

Mike Story

Der Artikel beschreibt sehr gut wie in Abhängigkeit von Tiefpassfiltern die Energie von Transienten “verschmiert” wird.
… je steiler der Tiefpass, desto stärker das Überschwingen (Preringing).
Hohe Sampleraten ermöglichen die Verschiebung dieser Effekte in den nicht hörbaren Bereich oder die Nutzung von Gauß Filtern ohne Überschwingen da sie flacher ausgelegt werden können.
Der Artikel beschreibt die oft unbeachtete Zeitebene und deren Einfluß auf die zweidimensionale Betrachtung der Energieverteilung im Frequenzgang.

Dan Lavry

Interessante Whitepapers aus der Praxis von Digital Audio Urgestein Dan Lavry. Er ist Verfechter einer “optimalen” Samplerate die er bei 60kHz sieht.

Jacob Oppenheim und Marcelo Magnasco

endlich untersucht mal jemand die Fähigkeiten des menschlichen Gehörs bezüglich Phase und Zeit und zeigt das Fourier nicht alles ist.

Rupert Neve

spricht zum Thema Audioqualität und hat ein paar interessante Thesen zum Thema Frequenzen oberhalb der Hörgrenze und ihre Auswirkungen auf Gehirnwellen und Gefühle. …in Bezug auf Tsutomu Oohashi und den Hypersonic Effect. Ich interpretiere das mal frei und sage ab einem gewissen Punkt Audioqualität kann man Steigerungen nicht mehr hören sondern nur fühlen.

Wikipedia

Abtastrate

Gibbssches Phänomen

Überschwingen

Antialiasing Signalverarbeitung

Nyquist Shannon Abtasttheorem

Digital Analog Umsetzer

Analog Digital Umsetzer

Switched Capacitor Filter

Delta Sigma Modulation

Oversampling

Last but not least …Musik in HD

—— Update Oktober 2014 ——

Die Tatsache, dass ich diesen Artikel hier schrieb und veröffentlichte bescherrte mir einige Diskussionen von denen die meisten wie Eingangs beschrieben verliefen …beide Extreme langweilten mich zumeist. Einige Kollegen jedoch diskutierten interessiert, offen und mit Forscherdrang …ich sag mal salopp mit der Haltung “naja irgendwas ist ja da aber so richtig erklären kann man das nicht und eigentlich ist es auch Quatsch …hm aber andererseits was ist denn mit …” Vielen Dank für die zahlreichen anregenden Gespräche an dieser Stelle! Ich möchte jetzt nicht wieder das Bild mit der verpixelten Mona Lisa bringen und die Analogie zum HD Videobild aber ich fragte mich die ganze Zeit wie ich das was ich wahrnehme wohl optisch darstellen könnte …das hier trifft es ganz gut:

Quelle:

Referenz: Michael Jackson – Billy Jean 176,4kHz/24Bit Aiff

Version 1: Apple SRC -> 44,1/16 Aiff

Version 2: Apple SRC -> 44,1/16 @ 128kbps MP3

Zunächst die typisch falsche Annahme das alles auf der Frequenzebene zu suchen ist:

Abb: Transferfunktion 176,4/24 vs 44,1/16

Phase, Frequenzgang und Magnitude sind gleich, alles oberhalb von 16kHz ignorieren wir mal und sagen das ist den Filtern geschuldet oder was auch immer ….das muss jawohl gleich klingen

Abb: Transferfunktion 176,4/24 vs 44,1/16 128kbps MP3

ohhh jetzt gehts aber zur Sache …obwohl der Frequenzgang ist gleich und die Magnitude und Phasen Differenz ist wohl der Datenreduktion geschuldet …128kbps klingen anerkanntermaßen ja schlecht. Aber hey der Frequenzganz ist sauber.

Vergiss es hier brauchen wir nicht weiter suchen ….Fourier ist ne tolle Sache wenn es um Sinus und mathematische Rekonstruktion geht.

Schauen wir uns mal die Wellenformen an:

Es wird schon klarer das man mehr Samples pro Intervall nicht 1:1 auf Fourier und Hörvermögen reduzieren kann. Die Darstellung überzeugt aber noch nicht …schalten wir mal auf Spectrum um, diesmal in umgekehrter Reihenfolge erst MP3 128kbps, dann 44,1/16 dann 176,4/24:

Ja das triffte es wohl am besten! …wenn ich das als Video durchlaufen lassen könnte sähe es noch schöner aus. Es geht mir nicht darum Euch von hohen Sampleraten zu überzeugen sondern einen Weg der Darstellung zu finden, der das was ich höre am besten visualisiert. Mir fällt bestimmt noch was besseres ein, aber das trifft es erstmal auf die Schnelle am besten!