MP3 - ein Beispiel für angewandte Mathematik im Alltag
Unterrichtseinheit
Dateien im MP3-Format sind heutzutage sehr verbreitet. Dass hinter MP3 jede Menge interessante Mathematik steht, ist vielen nicht bewusst.Wer kennt nicht MP3-Dateien? Mit ihnen ist es möglich, große Mengen von Musik auf kleinstem Raum zu speichern und wieder abzuspielen: denn mit MP3 kann man den Speicherplatz, den man benötigt, um eine Audiodatei zu speichern, auf einen Bruchteil reduzieren. Auf modernen MP3-Playern von der Größe einer Streichholzschachtel ist es möglich, bis zu 200.000 Minuten Musik (das entspricht 130 Tagen) zu speichern. Diese Unterrichtseinheit soll einige der Prinzipien, auf denen MP3 basiert, näher beleuchten und allgemein verständlich darstellen. Dies umfasst biologische, physikalische und mathematische Aspekte.Ausgehend von verschiedenen Hörbeispielen zur Einführung werden die mathematischen Grundlagen betrachtet, die hinter der Zerlegung von Frequenzen liegen. Prinzip von MP3 und Grundlagen Wie lassen sich große Datenmengen von Video- und Audiodateien im MP3-Format platzsparend speichern? Was hört das menschliche Ohr - und was nicht? Die Grenzen des menschlichen Gehörs und welche Rolle dabei der verdeckende Schall und der verdeckte Schall spielen. Prinzip der Multiskalenanalyse Zerlegt man musikalische Töne in ihre Einzelfrequenzen, müssen ganz unterschiedliche Frequenz-Skalen betrachtet werden. Multiskalenanalyse mithilfe von Rechteckschwingungen Tonsignale lassen sich auch in Rechteckschwingungen zerlegen, deren Skala zunehmend gröber wird. Huffman-Codierung Um in MP3 die verbliebenen Informationen effizient abzuspeichern, nutzt man die Huffman-Codierung. Die Schülerinnen und Schüler sollen die Prinzipien, auf denen MP3 basiert, kennen lernen. ein grundlegendes Verständnis für das Hören von Tönen und Klängen entwickeln. einige Grenzen des menschlichen Gehörs kennen lernen. das Prinzip der Zerlegung eines Klanges in Einzelfrequenzen am Beispiel einer Multiskalenanalyse nachvollziehen. Thema MP3 - ein Beispiel für angewandte Mathematik im Alltag Autoren Dr. Anton Schüller, Prof. Dr. Ulrich Trottenberg, Dr. Roman Wienands Fach Mathematik, Physik, Biologie oder Differenzierungsbereich Mathematik/Naturwissenschaft Zielgruppe ab Klasse 8 oder im Rahmen eines Projektkurses in der Oberstufe Zeitraum 3 bis 4 Stunden oder im Rahmen einer Projektwoche Technische Voraussetzungen Computer mit Soundkarte, Software zur Wiedergabe von Audio- und Videodateien im avi-Format, zum Beispiel Windows Media Player oder Real Player MP3 ist eine Abkürzung von MPEG Audio Layer 3, wobei MPEG für Moving Picture Experts Group steht, die 1988 gegründet wurde, um einen Standard für die effiziente Kodierungvon Videocodes zu entwickeln. MP3 basiert auf dem Prinzip, dass nur der Anteil von einem Musikstück gespeichert werden muss, den das menschliche Ohr auch hören kann. Dies mag auf den ersten Blick ein wenig überraschend klingen. Hören wir denn nicht alles, was in einem Musikstück enthalten ist? Tatsächlich ist das menschliche Ohr nicht in der Lage, alle Details, die in einem Musikstück enthalten sind, wahrzunehmen. Zur Einführung in das Thema eignet sich das Zeigen der Audio-Video-Datei audio_video_kompression.avi. Hier wird gleichzeitig an einem visuellen und auditiven Beispiel demonstriert, wie sich die Qualität von Bildern und Musik verändert, wenn man die zugehörigen Dateien immer weiter komprimiert. Bei der Datenkompression bleibt die Qualität für die menschliche Wahrnehmung zunächst erhalten und man spart große Mengen Speicherplatz. Irgendwann werden jedoch die Qualitätsverluste bemerkbar. Komprimiert man dann immer noch weiter, so verschlechtert sich die Qualität dramatisch. Wieso können wir überhaupt das hören, was jemand sagt, der einige Meter von uns entfernt ist? Der Grund hierfür ist das physikalische Phänomen des Schalls. Schall entsteht, weil die Moleküle eines Mediums (zum Beispiel Luft) zum Schwingen gebracht werden. Dadurch stoßen sie an benachbarte Moleküle, bringen auch diese ins Schwingen und so weiter. Abb. 1 (bitte anklicken) zeigt eine Animation der Molekülbewegungen. Solch eine (mechanische) Schwingung breitet sich in festen, flüssigen oder gasförmigen Stoffen wellenförmig aus. Schall breitet sich als sogenannte Longitudinalwellen aus, also immer parallel zur Ausbreitungsrichtung. Die Animation in Abb. 2 (bitte anklicken) verdeutlicht dies. Entsteht ein Ton dadurch, dass eine Gruppe von Molekülen ganz regelmäßig hin und her schwingt, beispielsweise 400 mal pro Sekunde, so sagen wir auch, der Ton hat eine Frequenz von 400 Hertz, das heisst die Schwingung erfolgt 400 mal pro Sekunde. Das menschliche Ohr kann nur Töne wahrnehmen, die zwischen etwa 16 und 20.000 Hertz liegen. Ist c die Schallgeschwindigkeit in einem Medium, f die Frequenz einer Schallwelle (das heißt einer sich wellenförmig ausbreitenden Schwingung) und λ (sprich lambda) die Wellenlänge, so gilt c = λ * f Sind zwei dieser drei Größen bekannt, so kann man die dritte hiermit berechnen. Je weiter die Moleküle in der Luft hin und her schwingen, desto lauter ist der Ton. Die Lautstärke beschreibt also den Unterschied zwischen Berg und Tal der Schwingung. Geräusche haben keine exakt bestimmbare Tonhöhe mehr. Sie sind nichtperiodische Schallereignisse, die durch Überlagerungen vieler Schwingungen unterschiedlicher Frequenz mit rasch wechselnder Amplitude entstehen. Mit anderen Worten: "Der Unterschied von Ton/Klang zu Geräusch ist in der Regelmäßigkeit der Schwingung zu finden. Bei einem Geräusch ist die Schwingbewegung der Luft sehr ungleichmäßig, bei Tönen dagegen handelt es sich um immer wiederkehrende gleichförmige Luftbewegungen". Alles, was wir hören, besteht aus Überlagerungen von Schwingungen, die sich in einem Medium wie der Luft wellenförmig ausbreiten. Diese wellenförmige Ausbreitung bedeutet physikalisch gesehen, dass das menschliche Ohr Druckschwankungen wahrnimmt, die aus einer Überlagerung von Schwingungen unterschiedlichster Frequenzen resultieren. Diese Druckschwankungen führen zu einem entsprechenden Schwingen des Trommelfells. Das menschliche Ohr ist wiederum imstande, dieses Schwingen des Trommelfells über Sinneshaare im Innenohr, die auf unterschiedliche Frequenzen spezialisiert sind, in einzelne Tonfrequenzen zu zerlegen und als Nervenreize an das Gehirn weiterzuleiten. Diese werden dann vom Gehirn als Töne, Klänge und Geräusche interpretiert. Grenzen des menschlichen Gehörs: Abb. 3 zeigt Hörschwelle, Schmerzgrenze, Musik- und Sprachwahrnehmbarkeit in Abhängigkeit von der Frequenz. Nach rechts ist die Frequenz und nach oben die Lautstärke (in der Maßeinheit "Dezibel") aufgetragen. Man beachte dabei, dass "Dezibel" eine logarithmische Maßeinheit ist. Wegen log 1 = 0 bedeutet 0 Dezibel gerade nicht, dass völlige Stille herrscht. In Abb. 4 werden die Grenzen des menschlichen Gehörs deutlich: Die Hörschwelle wird angehoben durch die Anwesenheit von Tönen mit einer Frequenz von 1 kHz und verschiedenen Lautstärken (in jeweils unterschiedlichen Farben dargestellt). mp3 macht sich zunutze, dass die akustischen Informationen, die das menschliche Ohr überhaupt nicht wahrnehmen kann, auch nicht abgespeichert werden müssen. Für MP3 müssen also die Tonsignale wieder in die einzelnen Frequenzen zerlegt werden, aus denen sie zusammengesetzt sind. Anschließend werden die Anteile, die für das menschliche Gehör ohnehin nicht wahrnehmbar sind, aus der Frequenzdarstellung entfernt, denn nur die hörbaren Anteile müssen überhaupt gespeichert werden. In den Videoclips wird demonstriert, wie MP3 funktioniert. An diesen Hörbeispielen wird deutlich, dass man im MP3-Format nur einen kleinen Teil der ursprünglichen Frequenzen zu speichern braucht. Den überwiegenden Rest der Informationen kann man weglassen, ohne dass das menschliche Ohr einen Unterschied zur Originalversion wahrnimmt. Die Töne im weißen Bereich des dritten Beispiels (musikbeispiel_orig_minus_mp3.avi) werden in der Originalversion durch andere dominantere Töne überdeckt und werden somit im Gesamtzusammenhang des Musikstücks nicht wahrgenommen. Erst wenn die dominanten Töne wegfallen, werden die restlichen Töne für das menschliche Ohr hörbar. Musikalische Töne bestehen aus einer Überlagerung einer Vielzahl von Schwingungen. Wie zuvor bereits erläutert, sind nur die Schwingungen mit Frequenzen zwischen etwa 20 und 20.000 Hertz für den Menschen hörbar. Der Faktor zwischen den niedrigsten und den höchsten hörbaren Frequenzen beträgt damit immerhin 1.000 = 10³, also 3 Zehnerpotenzen. Wenn wir also musikalische Töne wieder in die darin enthaltenen Einzelfrequenzen zerlegen wollen, müssen wir ganz unterschiedliche Frequenz-Skalen betrachten. Da die Frequenzen in einem bestimmten Medium wie der Luft in direktem Zusammenhang mit den zugehörigen Wellenlängen stehen (wie in der Gleichung zu Prinzip von MP3 und Grundlagen ), können wir ganz analog auch sagen, wir müssen ganz unterschiedliche Skalen von Wellenlängen betrachten. Eine derartige Multiskalenanalyse ist durchaus nicht ungewöhnlich, wenn man die Eigenschaften von Objekten beobachten oder analysieren will. Anhand von zwei Beispielen wird das Prinzip der Multiskalenanalyse verdeutlicht. Im ersten Beispiel wird eine Multiskalenanalyse durch fortgesetzte Mittelwertbildung für eine gegebene Zahlenfolge durchgeführt. Im zweiten Beispiel betrachten wir die Zerlegung eines Tonsignals in sogenannte Wavelets, was der Zerlegung in Rechteckschwingungen entspricht. Wir betrachten als Beispiel folgende Zahlenfolge von Quadratzahlen: 0 1 4 9 16 25 36 49. Fassen wir die Zahlen in Paare zusammen und bilden die Mittelwerte dieser Paare, so erhalten wir die Folge 0,5 6,5 20,5 42,5. Fassen wir diese Zahlen ebenfalls wieder zu Paaren zusammen und bilden die Mittelwerte der Paare, so erhalten wir die Folge 3,5 31,5. Für dieses Zahlenpaar haben wir den Mittelwert 17,5. Wir haben jetzt die ursprüngliche Zahlenfolge in mehrere Skalen von Mittelwerten überführt: Um von einer Mittelwertskala wieder zur vorhergehenden zu gelangen, benötigen wir die Abweichungen der Mittelwerte von den zugehörigen Werten auf der vorigen Skala: 17,5 - 14 = 3,5 beziehungsweise 17,5 + 14 = 31,5 Entsprechend auf der nächstgröberen Skala: 3,5 - 3 = 0,5 3,5 + 3 = 6,5 31,5 - 11 = 20,5 31,5 + 11 = 42,5 Ganz analog können wir auch von der feineren Skala von Mittelwerten zu unserer ursprünglichen Folge zurückkehren: Die gröbste Skala von Mittelwerten und diese Abweichungen können wir uns wie in folgendem Schema merken. Hier ist zusätzlich die ursprüngliche Zahlenfolge nochmals mit aufgeführt: Zu den ursprünglichen Zahlen zurück kommen wir jetzt, indem wir den Mittelwert auf der gröbsten Skala und die entsprechenden gespeicherten Abweichungen auf allen feineren Skalen einfach addieren. Ein Beispiel: Annäherung an die Funktion durch Balken Um Tonsignale in Rechteckschwingungen unterschiedlicher Frequenzen zu zerlegen, können wir ganz analog vorgehen. Abb. 9 zeigt links eine Funktion, die wir in Rechteckschwingungen zerlegen wollen. Da wir den Funktionsverlauf in der Praxis oft nicht genau kennen, sondern nur an bestimmten Werten messen, nähern wir die Funktion durch die einzelnen Messwerte an. Diese Messwerte werden durch die gefärbten Balken wiedergegeben. Multiskalenanalyse in beide Richtungen möglich Auf der rechten Seite der Abbildung 9 ist der umkreiste Ausschnitt der Funktion vergrößert dargestellt. Wir erläutern das Prinzip unserer Multiskalenanalyse im Folgenden anhand dieses Ausschnitts. Vergröberung der Skalen Die linke Skizze in Abb. 10 zeigt, dass wir wie im vorangegangenen Abschnitt bei der Prinzip der Multiskalenanalyse wieder Mittelwerte der gemessenen Funktionswerte bilden, um auf die nächstgröbere Skala zu kommen. Dieses Vorgehen können wir fortsetzen, um auf gröbere Skalen zu kommen. Die mittlere Grafik von Abb. 10 zeigt den Mittelwert auf der entsprechenden nächstgröberen Skala. Verfeinerung der Skalen Aber auch die andere Richtung ist denkbar: Zurück zur feinen Skala der Funktion können wir wieder kommen, indem wir wieder die Abweichungen zum Mittelwert hinzu addieren. So erhalten wir wieder die ursprünglichen Messwerte der Funktion zurück. Betrachten wir jetzt die rechte Seite in dieser Abbildung genauer, so stellen wir fest, dass wir tatsächlich unseren Funktionsausschnitt in eine Folge von Rechteckschwingungen zerlegt haben. Abweichungen entsprechen der Rechteckschwingung Dabei sind wir ganz genauso vorgegangen wie bei der Multiskalenanalyse unserer Zahlenfolge im vorangegangenen Abschnitt ( Prinzip der Multiskalenanalyse ). Die Zahlenfolge dort können wir auch auffassen als Messwerte für die Funktion f(x) = x 2 . Daher haben wir auch dort bereits eine Zerlegung dieser Funktion in Rechteckschwingungen durchgeführt. Dies wird deutlich, wenn wir die Abweichungen auf den einzelnen Skalen nochmals genauer betrachten. Wir stellen dabei fest, dass je zwei dieser Abweichungen den gleichen Betrag haben, sich aber im Vorzeichen unterscheiden; so können z.B. die Werte ?3 und +3 auf der zweitfeinsten Skala von Abweichungen als eine Rechteckschwingung (der Höhe 3) aufgefasst werden. Prinzip der Codierung Wie bereits zu Beginn dieser Unterrichtseinheit erwähnt wurde, kann das menschliche Ohr insbesondere in polyphoner Musik (wenn viele Töne gleichzeitig erklingen und sich überlagern) viele Informationen nicht wahrnehmen. Daher werden die unhörbaren Anteile in MP3 nur ungenau gespeichert. Zusätzlich wird eine weitere Reduktion des zu speichernden Datenvolumens dadurch erreicht, dass man eine sogenannte Huffman-Codierung verwendet. Die Idee der Huffman-Codierung lässt sich am Beispiel der Codierung eines Textes einfach beschreiben: In einem Text kommen Buchstaben unterschiedlich häufig vor, in der deutschen Sprache beispielsweise das "e" viel häufiger als das "y". Deshalb verwendet man einen sehr kurzen Code für häufig vorkommende Buchstaben, längeren Code hingegen für Buchstaben, die nur selten vorkommen. Gleichzeitig ist aus einer Huffman-Codierung die ursprüngliche Information schnell, eindeutig und exakt reproduzierbar. Beispiele für Codierungen Ein Beispiel für eine derartige Codierung ist das Morsealphabet. Ein negatives Beispiel ist hingegen das Tippen einer SMS. Hier muss für häufig verwendete Buchstaben wie zum Beispiel "e" oder "n" zweimal gedrückt werden. Übertragen auf die Musik bedeutet dies: Meist besteht das ungenau zu speichernde Frequenzspektrum aus wenigen großen und vielen (also häufiger vorkommenden) kleinen Werten (Quantisierungswerte). Die Huffman-Codierung sorgt dann dafür, dass die digitalisierte Darstellung dieses Tons nur sehr wenig Speicherplatz einnimmt. Im Zusammenhang mit mp3 reduziert die Huffman-Codierung den Speicherplatz spürbar. Helmut Neunzert Einführungsvortrag auf dem Kongress Mathematik in der Praxis, Berlin, März 2009.
-
Mathematik / Rechnen & Logik / Musik
-
Sekundarstufe I,
Sekundarstufe II