Das Komprimieren von Videos für Streaming-Angebote ist deutlich aufwändiger als landläufig vermutet. Allein die Rechenleistung, die Sender und Plattformen dafür bereitstellen müssen, ist zu einem teuren und zeitkritischen Faktor geworden. Durch den Einsatz einer KI wollen Forscher nun Möglichkeiten schaffen, die optimalen Einstellungen passend zu der Art der Inhalte schon vorab zu erkennen und so festzulegen, an welchen Stellen eine hohe Bitrate zwingend nötig ist und wo eingespart werden könnte.

»Suum cuique« - jedem das Seine. Dieses mehr als 2.000 Jahre alte (und von den Nationalsozialisten missbrauchte) Prinzip ist längst nicht nur ein Grundstein moderner Rechtsphilosophie. Es kann auch ein hochwirtschaftlicher Grundsatz sein. Beispielsweise, wenn es um die Verwendung technischer Ressourcen geht. Für das weltweite Streaming von Videos werden laut Angaben des Energiedienstleisters E.ON heute 200 Milliarden Kilowattstunden Strom pro Jahr verbraucht – Tendenz deutlich steigend. Mit einem Anteil von fast 60 Prozent am Datenvolumen haben die Kunden von Netflix, Amazon Prime Video, YouTube und Co im Jahr 2018 eine bislang nie dagewesene Datenlawine durch die Internet-Leitungen geschickt. Den Schätzungen nach werden derzeit mindestens eine Milliarde Terabytes jährlich für bewegte Bilder abgerufen. Trotzdem sehen wir Stranger Things, The Man In The High Castle oder auch die Tagesschau nicht in der extrem hohen Bildqualität, in der sie original vorliegen. Die Inhalte werden komprimiert. Und zwar so, dass im Idealfall an jedem Gerät zur Videoausgabe nur genau die Daten ankommen, die das jeweils bestmögliche Bild und den bestmöglichen Ton gewährleisten. Und das sozusagen in jedem Moment, denn das Streaming soll adaptiv arbeiten. Die aktuellen Parameter werden also während des Streamings überprüft und angepasst. Der jeweilige Bildschirm soll also aus einem Pool an unterschiedlich komprimierten Sequenzen (mit demselben Inhalt) immer nur die Variante erhalten, die gerade optimal ist. Nicht mehr und nicht weniger – jedem das Seine. Dabei sind nicht nur die Unterschiede der Blöcke beziehungsweise nötigen Bitraten für Smartphone, Tablets mit unterschiedlich vielen Bildpunkten oder Smart-TVs enorm. Die Datenmenge ist auch abhängig vom Inhalt des Videos. Das Streamen eines Vortrags mit relativ ruhigem Bild ist deutlich weniger aufwendig als das einer schnellen Actionsequenz.

 

Encoding: Zeit- und kostenaufwändig

»Es geht darum, beim Streaming so viele Kosten einzusparen wie möglich«, betont Daniel Silhavy vom Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS. Mit »Kosten« meinen die Forscher nicht nur die jeweilige Bitrate bei der Übertragung. Sie denken vor allem an die Aufwände, die das Reduzieren der Daten erfordert. »Das Komprimieren ist eine der zentralen und schwierigsten Aufgaben beim Encodieren. Die Plattformen setzen dafür Encoder ein, die vor allem mit Redundanz arbeiten«, erklärt Silhavy. Dabei werden die Einzelbilder einer Sequenz in sich bewegende und unbewegte Quadranten aufgeteilt. Berücksichtigt, also immer wieder neu berechnet, werden nun nur noch diejenigen Bereiche eines Einzelbildes, die sich vom vorangegangenen Bild unterscheiden. Bei unbewegten Teilen beispielsweise im Hintergrund eines Ausschnitts, wird die bereits errechnete Information des vorangegangenen Bildes nochmals benutzt. Denn hat die Elektronik erst einmal erkannt, dass sich zum Beispiel die Teekanne auf dem Tisch während eines Dialoges nicht verändert, müssen die Bits zur Darstellung der Kanne nur einmal übertragen werden.

So sinnvoll die auf diese Weise mögliche Datenreduktion ist, so aufwändig ist die Vorbereitung der dann encodierten Datenpakete für Smartphones, Tablett oder Smart TV-Geräte mit ihren verschiedenen Auflösungen. »Encoder arbeiten in der Regel in Realtime», erklärt Silhavy. Für eine Sekunde Video muss der Computer also eine Sekunde rechnen. Um die optimalen, inhaltsspezifischen Bitraten für die verschiedenen Endgeräte beziehungsweise Empfangsqualitäten zu ermitteln sind in der Regel etwa 80 verschiedene Test-Encodes nötig. Das macht bei einem Zwei-Stunden-Video also 120 Minuten mal 80 gleich 160 Stunden Rechenzeit. Für Netflix und Co ist das nur ein Posten in der Bilanz, denn sie verfügen über die nötigen finanziellen und rechnerischen Ressourcen. Aber schon für vermeintlich kleinere Sender ist der Aufwand mitunter ein K.O.-Kriterium für umfangreiche Streaming-Angebote.

 

Szenen inhaltsabhängig encodieren

Vor allem aber stellt sich die Frage: Was ist mit Live-Übertragungen? »Wenn hier keine internationale, große Plattform agiert, wird eine Übertragung technisch und finanziell schwer zu bewältigen sein«, betont Silhavy. Gemeinsam mit seinem Team am Fraunhofer FOKUS will er unter anderem durch den Einsatz einer KI Abhilfe schaffen. Sie soll einzelne Inhalte erkennen und die Richtung vorgeben. Für eine Szene könnte es beispielsweise notwendig sein, nahezu jeden Bildpunkt zu berechnen. Und in einer anderen kommt es nicht auf eine extrem feine Auflösung an. Bestes Beispiel dafür ist ein Live-Fußballspiel, erklärt Silhavy. Natürlich sei es hier wichtig, dass eine schnelle Spielszene sehr genau berechnet wird, um viele Daten für ein detailliertes Bild und einen flüssigen Bewegungsablauf zur Verfügung zu stellen. Andererseits könne bei einem einfachen Schwenk auf die vergleichsweise statische Tribüne auf eine sehr hohe Bitrate eher verzichtet werden. Wenn die KI nun gelernt hat, einzelne Szenen zu erkennen und ihre Bedeutung für den Zuschauer richtig einzuordnen, dann wäre ein wichtiger Schritt getan, um den Rechenaufwand zu reduzieren. Das zumindest ist der wesentliche Gedanke, den Silhavy und seine Kolleginnen und Kollegen in ihren Forschungen vorantreiben. Ihren Ansatz haben sie den Titel »Deep Encode« gegeben.

 

Bitraten-Profile anpassen

»Mit Hilfe von intelligenten Ansätzen wie dem Machine-Learning wollen wir die Komplexität einer Video-Quelle beispielsweise bei Live-Übertragungen automatisch analysieren lassen. So können wir die Bitraten-Profile eines Videos automatisch anpassen, um die Qualität beim Encoding zu maximieren und gleichzeitig Speicher- und Übertragungskosten zu senken«, betont Silhavy. Dabei spielen nicht nur einzelne, schnelle Szenen von Angriff und Verteidigung, der Blick auf den Schiedsrichter mit der Pfeife im Mund oder auf die Tribüne eine Rolle, sondern natürlich auch die Sportart an sich. Ein Eishockeyspiel beispielsweise hat ganz andere, typisch schnelle Phasen als ein Golfspiel. Die KI soll nun lernen, immer mehr dieser Szenen zu unterscheiden. Dann können beispielsweise bei einem Sportblock eines Nachrichtensenders die Bitraten für das Streaming je nach erkannter Sportart und Szenen-Kategorie leichter angepasst werden.

Noch befindet sich das Projekt in der Phase der Vorlaufforschung, aber bereits jetzt werden einige Szenen-Typen gut erkannt. »Bislang arbeiten wir noch mit recht groben Kategorien für die wichtigsten Sportarten«, erklärt Silhavy. Allerdings wird sich das bald ändern. Mittlerweile hat die KI rund 2.000 Videos auf bestimmte Kategorien hin analysiert und jeweils 80 verschiedene Encodes dafür errechnet, die nun auf neue Szenen angewandt werden können. Mit den dabei gewonnenen Erfahrungen wollen die Forscher weitere Optimierungsmöglichkeiten entwickeln.

(aku)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Acht + = 11
Bitte Zahl eintragen!
image description
Experte
Alle anzeigen
Daniel Silhavy
  • Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS
Weitere Artikel
Alle anzeigen
Richtige Riecher
Symphonie auf vier Rädern
Pop-Hits im Weihnachtsgewand
Stellenangebote
Alle anzeigen