Wie viel KI steckt schon in aktuellen Audiodeskription-Tools?

Unsere Erstrecherche für KI-generierte Szenenbeschreibungen auf Knopfdruck hat uns zu einigen Audiodeskriptions-Tools geführt. Diese haben wir nun für euch getestet, auch um herauszufinden, wie viel KI schon in ihnen steckt, und ob sie uns wirklich dabei helfen, unsere Inhalte zukünftig barrierefreier zu gestalten.

Usability der Tools

Das Einloggen bei Frazier ist leicht, alle Funktionen sind sofort nach Einrichtung eines Trial-Accounts verfügbar und das Editieren und Beschreiben von Szenen kann gleich online losgehen. Schwieriger sieht es bei Fingertext und Stellar aus. Die Kollaborationslösung Fingertext, bei der auch Videos zum Editieren für andere hochgeladen werden können, ist zunächst so unübersichtlich, dass ich den Editor gar nicht erst finde. Auch ist die Benutzeroberfläche ist eher sperrig gestaltet. Stellt man sich auf das 90er Jahre Design ein und hat die entsprechenden Features dann gefunden, ist die Anwendung aber praktisch. An Stellar dagegen scheitere ich ganz. Bevor man das System nutzen kann, ist die Installation eines Clients notwendig, der über eine Oberfläche gestartet werden kann, die mein Know-how als reine Anwenderin übersteigt. Ich breche den Test mit Stellar ab.

Audiodeskription im Test

Weiter geht’s mit Frazier und Fingertext. Beide Apps arbeiten in der Cloud. Beide lassen es zu, existierende Skripts, zum Beispiel Drehbücher oder bereits transkribierte Sprech-Passagen hochzuladen. Wie schon beschrieben, ist Fingertext im Vergleich zu Frazier weitaus unübersichtlicher. Fürs Editieren musste ich mühsam die notwendigen Befehle suchen. Das tatsächliche Timen der Deskriptionen ist bei beiden Tools dann aber ähnlich komfortabel und leicht. Fingertext zeigt durch farbliche Markierungen an, ob der ergänzte Text die vorhandene Zeit übersteigt. Zudem ist charmant an Fingertext, dass man die Audiodeskription direkt im System einsprechen und aufzeichnen kann. Das Aufnehmen der eigenen Sprache klappt ziemlich gut. Für den Test habe ich nur Wert auf Inhalt und nicht auf die Betonung gelegt. Dazu habe ich ein simples, in meiner Webcam integriertes Mikro verwendet. Mit einem entsprechend besseren Profi-Mikrofon und der richtigen Haltung, sind die Ergebnisse vermutlich besser. Für uns als Sprechprofis super, denn das Synthetisieren von Sprache (also Text-to-Speech), das beide Tools bieten, ist für uns kein wirklicher Pluspunkt.

Integrierte Sprachsynthese zum Generieren von Audiofiles

Die Qualität der synthetisierten Sprache (Text-to-Speech) konnten wir bei Fingertext nicht testen. Das Tool stürzte jedes Mal beim Generieren ab. Anders bei Frazier, hier funktionierte das Synthetisieren der Sprache problemlos. In der kostenlosen Testversion klingen die vorhandenen Stimmen allerdings sehr künstlich und nicht sehr angenehm.

Für natürlicher klingende Stimmen arbeitet VideoToVoice, wie das Unternehmen hinter Frazier heißt, mit ElevenLabs zusammen. Das Startup hat sich auf Sprachklone menschlicher Stimmen spezialisiert. Die Ergebnisse sind erschreckend gut. Auch die eigene Stimme ließe sich klonen. Kostet aber einiges. Dieser Betrag käme bei Frazier zu den monatlichen Kosten noch oben drauf. Fragt sich, ob sich das lohnt… Sprechen können wir ja selber 🙂

Keine Objekterkennung

Weder bei Frazier noch bei Fingertext konnten wir Funktionalitäten entdecken, die eine automatisierte Objekterkennung ermöglichen. Genau das hatten wir uns erhofft: Szenenbeschreibungen per Mausklick, ähnlich den Hilfsapps für Blinde. In unserem ersten Blogbeitrag zur Audiodeskription hatten wir darüber berichtet. VideoToVoice scheint Frazier allerdings Schritt für Schritt zu erweitern. Es gibt bereits Plugins wie die automatisierte Übersetzung mit Hilfe von DeepL, ein wirklich sehr gutes KI-basiertes Übersetzungsprogramm, sowie eine Schnittstelle zum LanguageTool für die Rechtschreibprüfung. Wir wollten es genauer wissen und haben Kontakt zm Unternehmen aufgenommen: Lukas und Christian, die beiden Berliner Entwickler hinter Frazier, haben in puncto automatischer Objekterkennung und KI-Bildbeschreibungen schon einiges getestet. Chat GPT zum Beispiel. Mit den Ergebnissen sind sie bisher allerdings alles andere als zufrieden, auch bereitet ihnen das Hosting solcher Dienste in den USA, und die dahinter steckenden Big Player, Bauchschmerzen. Deshalb hat sich das Unternehmen dagegen entschieden, diese Lösungen als Plugin zu integrieren. Grundsätzlich, sagen sie, stehen sie der automatisierten Generierung von Audiodeskriptionen skeptisch gegenüber. Eine Bildbeschreibung sei noch lange keine Audiodeskription… Dazu mehr in einem nächsten Blogbeitrag. Zunächst weiter im Test.

Erstmal Sackgasse nach der Skripterstellung

Ein Download der fertigen Videofiles war bei den Test/Demo-Versionen leider nicht möglich. Lediglich die Skripte in Textform ließen sich exportieren, bei Fingertext noch zusätzlich das generierte Audiofile mit meiner eigenen Stimme, aber eben nur als „losgelöstes“ File. Ob dieses den technischen Anforderungen für die professionelle Sendeausstrahlung als Extra-Signal genügt, war nicht feststellbar. Als zusätzliches Tonfile ließe sich dieses zum Beispiel bei Youtube via Player ergänzen. Allerdings ist dieses Feature für Kunden in Deutschland nach wie vor nicht freigeschaltet.

Fazit

Die cloud-basierten Tools für die Audiodeskription vereinfachen die Erstellung von manuellen Szenenbeschreibungen. Auch die Sprachausgabe über neuronale Stimmen ist möglich, was die Produktionszeiten verkürzt. Allerdings ist der Zeitgewinn noch nicht so groß, dass es sich für uns lohnt, sich entweder langwierig in das komplexe und offensichtlich noch kostenlose (?) Fingertext einzuarbeiten (es scheint sich noch um eine Betaversion zu handeln) oder ein monatliches Abo bei Frazier abzuschließen. Dafür müssten wir weitere Fördertöpfe auftun.

Soweit also unser Testbericht zu Audiodeskriptionstools. Im nächsten Schritt werden wir in die Welt der Wissenschaft und Forschung eintauchen und uns dort umhören, wie realistisch es überhaupt ist, dass KI bald Audiodeskriptionen auf Mausklick erstellt. Es bleibt also spannend. So oder so. Für unseren nächsten Blogbeitrag haben wir nämlich eine Überraschung für euch geplant. Und nein, es geht nicht um KI-Technologien für Untertitel oder für Leichte Sprache… Stichwort Pandora. Na, wer weiß’s? ☺

Wie viel KI steckt schon in aktuellen Audiodeskription-Tools?

Tools für die Audiodeskription im Test

Weitere Beiträge

Berge kommen nicht zusammen, aber Menschen

Doku zum Thema Pränataldiagnostik

Behinderte Liebe – Verhinderte Lust