KI-generierte Szenenbeschreibungen auf Knopfdruck, das ist eigentlich unser Ziel. Damit erhoffen wir uns, wichtige visuelle Informationen unserer Dokumentarfilme, die Menschen mit Sehbeeinträchtigungen bisher verborgen blieben, barrierefrei verfügbar zu machen. Im ersten Schritt haben wir uns deshalb einen Überblick über die aktuellen technischen Möglichkeiten für automatisierte Audiodeskription verschafft.

Die Erstellung von guten Audiodeskriptionen (kurz: AD) ist eine hochkomplexe Aufgabe, auf die sich wenige Unternehmen in Deutschland spezialisiert haben. Es ist ein Nischenmarkt. Filme mit Bilderklärungen für Blinde werden meist von öffentlich-rechtlichen Anstalten oder von der geförderten Filmindustrie beauftragt. Diese haben Budgets zur Verfügung, die erst im sechsstelligen Bereich erst beginnen. Die in deutscher Sprache verfügbaren Kinofilme listet die Webseite Kino für alle. Der Verein Hörfilm e.V. katalogisiert zudem alle verfügbaren Fernsehproduktionen in seiner Datenbank. Die Kosten, die für Audiodeskription wie diese anfallen, liegen teilweise höher als unser gesamtes Budget, das wir dank BLM pro Sendung zur Verfügung haben. Die reine Skripterstellung liegt bei einem 30-minütigen Dokumentarfilm bei mindestens 420 Euro. Die technische Umsetzung exklusive. Wird’s mit KI kostengünstiger?


KI-generierte Audiodeskription

Das Wichtigste vorab: Eine Anwendung, die man mit einem fertigen Film „füttert“ und die auf Knopfdruck ein neues Filmfile mit synchronisierter, zu- und abschaltbarer Audiodeskription-Tonspur ausgibt, gibt es derzeit nach unseren Recherchen nicht. Angeblich arbeitet aber ein Unternehmen an so etwas Ähnlichem. Jedenfalls wirbt ein Startup damit. Es handelt sich um Sibylia. Das Tool soll helfen, Inhalte (auch Videos) in Audio-Beschreibungsformate umzuwandeln. Seit 2022 entwickelt das französische Unternehmen nach eigenen Angaben dafür eine browserbasierte Anwendung, die vor allem Social Media Content im Fokus hat. Mehr als ein paar Screenshots dazu sind im Netz aber derzeit nicht auffindbar, geschweige denn Testberichte oder eine Trialversion. Unsere Mailanfrage blieb ebenfalls unbeantwortet.

 

Vimeo

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von Vimeo.
Mehr erfahren

Video laden

Mag sein, dass die großspurig orchestrierte Ankündigung Mitte 2023 nichts weiter als ein Testballon war, um auszutarieren, ob es für eine solche Lösung überhaupt einen Markt gibt. Vermutlich wittert(e) das Startup ein großes Geschäft. Schließlich überführen die EU-Länder den EU Accessablity Act gerade in entsprechende Landesverordnungen. In Deutschland ist dies das Barrierefreiheitsstärkungsgesetz. Dieses gilt ab Mitte nächsten Jahres auch für Webseiten privater Unternehmen (vor allem für den Online-Handel).

Fazit: Sibylia ist für uns so oder so erstmal eine Recherche-Sackgasse. Als Alternative zu Sibylia geben KI-Kataloge wie https://aizones.io/, https://www.toolify.ai/ oder https://openpedia.io/  Anwendungen an, die vor allem „Text to Speech“ können, also geschriebenen Text in Sprache auszugeben. Ob uns das weiter hilft?

 


Text to Speech

Klar, Audiodeskriptionen sind gesprochenes Wort. Und ja, das ist die letzte Aufgabe einer langen Kette komplexer Prozesse, die auch automatisiert werden könnte. Im Fokus hatten wir dies aber eigentlich nicht. Schließlich ist für uns das Einsprechen eines Off-Textes Routine, das eher wenig Zeit und kaum Zusatzkosten in Anspruch nimmt. Dennoch haben wir uns auch hier mal umgesehen: Unzählige, auch kostenlose, browserbasierte Tools gibt es hierfür. In allen möglichen Qualitäten. Text eintippen oder als File hochladen, Stimme auswählen und per Mausklick generiert sich die Sprachausgabe. Nach wenigen Sekunden lässt sich das Tonfile herunterladen. Zwei Beispiele hier.

Vimeo

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von Vimeo.
Mehr erfahren

Video laden

 

Erstes Fazit: Nette Spielerei, hilft uns als Insellösung aber nicht weiter.  Also haben wir weiter gesucht und sind in einer ganz anderen Ecke fündig geworden: Apps, die Blinden den Alltag erleichtern sollen. Einige davon können tatsächlich Szenenbeschreibungen!

 

Vimeo

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von Vimeo.
Mehr erfahren

Video laden


Szenenbeschreibungen von Hilfsapps für Blinde

 

Apple, Microsoft und Google bieten schon seit längerem kostenlose Apps, die visuelle Eindrücke für Blinde in Sprache übersetzen. Sogenannte Szenenbeschreibungen ergänzen seit kurzem als zusätzliches Feature einige der Apps. Seeing AI von Microsoft zum Beispiel, allerdings erst in einer instabilen Testvorschau. Die App Envision AI des gleichnamigen niederländischen Unternehmen ist hier schon weiter. Wir haben das Feature „Szene beschreiben“ der App getestet und wollten herausfinden, was die App aus der Anfangssequenz unseres Films „Dornröschen kann schwimmen“ macht. Das ist eine bildstarke Passage, in der es weder Offtext noch Statements gibt.

 

Vimeo

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von Vimeo.
Mehr erfahren

Video laden

 

Fazit: Apps wie diese bringen uns unserem Vorhaben schon etwas näher. Uns hat beeindruckt, wie viel die Envision-App tatsächlich richtig erkannt hat und auch die Sprachausgabe war in Ordnung. Das zeigt, technisch ist in dieser Richtung schon viel möglich. Allerdings: Eine Möglichkeit, die beschriebene Sprachsequenz als Tonfile zu exportieren, gibt es nicht. Man müsste den Ton separat mit einer anderen Anwendung aufzeichnen. Zudem: Die Beschreibung ist sprachlich bewusst vage gehalten, um potenzielle Fehlerquellen immer im Bewusstsein zu halten: „Sieht aus wie…“  Das macht die Beschreibung unnötig lang, was ein Problem sein könnte, denn sehr selten sind Bildsequenzen, in denen eine Audiodeskription notwendig ist, so lange wie im Dornröschen-Beispiel. Viel eher geht es dann darum, kurz und prägnant die wichtigsten Bildinformationen zusammenzufassen. Genau das ist es, was die Audiodeskription schon immer zu einer Herausforderung machte. Deshalb gibt es spezielle AD-Schnittsoftware, schon mit KI? Auch darüber haben wir uns einen Überblick verschafft.


AD-Editing-Software

Spezielle Schnittsoftware zur Ergänzung von Audiodeskriptionen zielt vor allem darauf ab, ein Zusatzsignal für Audiodeskription zu generieren, das von den Sendeanstalten mit ausgestrahlt werden kann und an den Fernsehgeräten zuhause zu oder abgeschaltet werden kann. Die meisten Programme beinhalten eine Funktion zum automatischen Aufspüren „stiller“ Stellen, an denen Bildbeschreibungen zunächst per Text eingefügt werden können. Auch ermöglichen die Tools das Einfügen von zusätzlichen Erklärpassagen, die den Film quasi pausieren. Im nächsten Schritt kann meist mittlerweile KI-unterstützter Sprachsynthetisierung die „Vertonung“  erfolgen. Beispiele sind Fingertext, Stellar oder Frazier

Auch beim Erstellen des Skripts unterstützen die Tools, so lassen sich bestimmte Files mit Timecodes im- und exportieren. Dies hilft etwa, wenn detaillierte Drehbücher vorhanden sind, die Szenenbeschreibungen enthalten. Dann können einige der Systeme Vorschläge für die Audiodeskription automatisiert generieren, die dann im Programm selbst editiert werden können. Die Programme transkribieren zudem zugefügte Audiofiles, also zum Beispiel bereits eingesprochene Audiodeskriptionen, um komfortabel etwa Kürzungen textbasiert vornehmen zu können. (Speech to Text editing). Im letzten Schritt erfolgt der Export der Datei, ein weiterer Knackpunkt. Denn lineares Fernsehen braucht andere Audiosignale als etwa Webplayer.  Bei Fingertext kann mit einem entsprechenden Fingertext-Inserter nicht nur eine DTV-Audiokomponente fürs analoge Fernsehen sondern auch eine Audiospur in Videodateien hinzugefügt werden, damit die Spur in AD-fähigen Webplayern zu- und abgeschalten werden kann. 

Fazit: Einige der hier genannten Features gibt es auch in unseren Standard-Schnittsystemen, etwa die Gapdetection oder das Im- und Exportieren von Transkriptionsdataien. Ob speziele AD-Software wirklich Vorteile bringt, müssen wir ausprobieren. Die genannten Tools sind glücklicherweise (auch) browserbasiert und es gibt Testcredits bzw. die Möglichkeit, sich einen Testaccount anzulegen. Denn es könnte sein, dass wir tatsächlich spezielle AD-Schnittprogramm benötigen, um die zusätzliche AD-Audiospur so zu exportieren, dass sie von Fernsehsendern und Webplayern als separates Signal/Channel erkannt und zu- und abgeschaltet werden kann. Was uns zu einem weiteren Aspekt bringt. Die AD-Fähigkeit von Webplayern.


Player

Fakt ist, wenige Player sind in der Lage, Audiospuren so auszugeben, dass sie getrennt wiedergegeben werden können, also zu- und abgeschaltet. Genau das möchten wir aber zukünftig realisieren. Unsere Filme binden wir aktuell in unserer Online-Mediathek via YouTube ein. Was zunächst eine gute Nachricht ist, denn der YouTube-Player soll AD-tauglich sein. Das jedenfalls hat das Unternehmen im Herbst 2023 bekannt gegeben. Allerdings ist das Feature derzeit in unserem Account (noch) nicht verfügbar? Die Erweiterung gibt es vorerst offensichtlich nur über die englische Benutzeroberfläche, auf die wir als deutsche Kunden allerdings keinen Zugriff haben. Ältere Filme sind in unsere Mediathek über den Vimeo-Player eingebunden. Bei diesem Player lässt sich eine separate Tonspur problemlos einfügen und über die Sprachauswahl aktivieren und deaktivieren.

Allgemein gilt allerdings der Able Player, ein HTML5 media player. als Vorzeigeplayer, was die Barrierefreiheit betrifft. Hierüber ist es möglich, via WebVTT, ein Standard zur Anzeige von zeitgesteuertem Text in Verbindung mit dem HTML5-<track>-Element, zu nutzen. Dabei kann die Sprachaufnahme entfallen, der Skript-Text wird stattdessen von der synthetisierten Sprachausgabe des Browsers oder einem Screenreader vorgelesen. Eine Alternative ist der OzPlayer, der eine zusätzliche AD-Tonspur ausgibt.

Fazit: Was YouTube betrifft, müssen wir uns wohl noch etwas gedulden, ob wir deshalb zukünftig unsere Videos wieder über Vimeo einbinden, müssen wir prüfen. Barrierefreier ist Vimeo jedenfalls. Was den Able Player betrifft, eine Computerstimme ist wenig emotional, außerdem hat der Player für uns den Nachteil, dass dahinter keine Plattform/Community steckt, über die wir Reichweite generieren. Außerdem fehlt uns zur Einbindung die technische Expertise.


 

Soweit ein erster Überblick. Im nächsten Schritt werden wir einige der hier aufgespürten Tools und Features testen. Welche, verraten wir erst, nachdem wir uns KI-Technologien für Untertitel und für Leichte Sprache angeschaut haben. Und noch ganz andere Ansätze. Wie AI4 Chat? Wir sind selbst gespannt. Ihr hoffentlich auch.