Können KI-generierte Avatare unsere Filme gebärden?

Ungefähr 0,1 Prozent der Bevölkerung sind gehörlos, in Deutschland sind das über 80.000 Menschen. Wenn man die Menschen dazu zählt, die fast gehörlos sind, ist die Zahl je nach Hochrechnung sogar doppelt so hoch. Meist kommunizieren Menschen mit einer schweren Hörbehinderung über Gebärdensprachen. Für sie ist das ihre Muttersprache, während Untertitel als Schriftsprache eher einer Fremdsprache entsprechen. Deswegen wollen wir uns anschauen, ob wir unsere Filme mit KI-gestützten Werkzeugen in Gebärdensprache übersetzen können.

Warum Gebärden besser als Untertitel sind

Zu unterscheiden sind das Lautsprachbegleitende Gebärden (LBG) und die Deutsche Gebärdensprache (DGS). Das Lautsprachbegleitende Gebärden übernimmt Wortschatz und Grammatik der Deutschen Lautsprache. Es ist sozusagen eine „eins-zu-eins-Übersetzung“, die häufig auch gleichzeitig zur Lautsprache verwendet wird. Im Gegensatz dazu ist die Deutsche Gebärdensprache eine eigenständige vollwertige Sprache mit eigener Grammatik, Syntax, linguistischer Entwicklung und eigenem Wortschatz. Sie wird von gehörlos oder stark schwerhörig geborenen Menschen im Vergleich zum Lautsprachbegleitenden Gebärden meist bevorzugt und in Deutschland je nach Schätzung von rund 250.000 Menschen benutzt. Weil die Deutsche Lautsprache aufgrund des unterschiedlichen Aufbaus für viele gehörlose Menschen mit einer Zweit- oder Fremdsprache vergleichbar ist, sind barrierefreie Inhalte in Gebärdensprache nicht nur für gehörlose Kinder sondern auch für Erwachsene wichtig. Untertitel allein sind hier oft kein vollwertiger Ersatz.

Deutsches Gebärdensprach-Projekt AVASAG

Das größte KI-Projekt zur Deutschen Gebärdensprache ist AVASAG. Der „Avatar-basierte Sprachassistent zur automatisierten Gebärdenübersetzung“ zielt vorerst primär auf die Kommunikation wichtiger Inhalte im öffentlichen Dienst ab. Das umfasst zum Beispiel Fahrplaninformationen in öffentlichen Verkehrsmitteln oder die Informationsvermittlung für Kommunen. Das Projekt wird von der Kölner Firma Charamel in Kooperation mit weiteren Unternehmen und Universitäten geleitet. Technisch wird hier KI-gestützt eine Gebärdenanimation erstellt, die auf ein manuell erstelltes nicht-fotoreales 3DModell angewendet wird, den Avatar.
Der Umfang des Wortschatzes soll dabei kontinuierlich erweitert werden. Hierbei wird laut des Projekts mit gebärdenden Menschen und Expert*innen zusammengearbeitet, um die Qualität und Verständlichkeit sowie Akzeptanz des entstehenden 3D-Avatars gewährleisten zu können. Aus den Forschungsergebnissen geht eine generelle Präferenz für realistischere Avatare hervor, selbst diese werden aber nie so positiv eingeschätzt wie professionelle menschliche Übersetzer*innen. Manuelle Korrekturen an der Übersetzung und der daraus generierten Animation werden wahrscheinlich noch länger nötig bleiben. Um dies möglichst einfach zu ermöglichen, war spezielle Software von Anfang an ein geplanter Teil des Projekts. Für Kommunen gibt es bereits den aus dem Projekt entstandenen Kommunalen Gebärdensprach-Avatar Baukasten, mithilfe dessen grundlegende Informationen für Bürger*innen in Gebärdensprache vermittelt werden können.

Im Zeppelinmuseum in Friedrichshafen wurde außerdem der Avatasi Avatar der gleichen Firma, der offensichtlich auf der selben Technik beruht, bereits zum Vermitteln von Sachinhalten eingesetzt. Die Ergebnisse aus diesem Feldversuch sind aufgrund der ähnlichen Anforderungen auch für die Übersetzung unserer Filme relevant. Leider sind diese scheinbar noch nicht besonders vielversprechend. Dazu unten mehr.

SiMAX in Österreich

Die Firma Signtime aus Österreich verfolgt mit ihrer SiMAX-Software ebenfalls einen Avatar-basierten Ansatz. Dafür werden hier anders als bei AVASAG fehlende Gebärden von den Animator*innen per Hand animiert. Dann werden sie in einer Datenbank gesammelt. Bei einem neuen Projekt macht diese lernende Datenbank einen Übersetzungsvorschlag, der von gebärdenden Mitarbeitenden überprüft und gegebenenfalls korrigiert wird. Die Avatare sind eher comicartig als realistisch gehalten, bieten dafür aber auch eine Vielzahl an Erscheinungen. Die Übersetzung von Filmen wird hier explizit als Einsatzgebiet angeboten. Auch eine Aufzeichnung mit realen Übersetzer*innen im Studio bietet Signtime an. Zu beachten ist aber, dass die Österreichische Gebärdensprache im Gegensatz zu den jeweiligen Lautsprachen mit der Deutschen Gebärdensprache nicht direkt verwandt ist. Eine Übersetzung in die ÖGS ist also nicht für Benutzer*innen der DGS geeignet.

Signapse in Großbritannien

3D-Avatare sind aber nicht der einzige Ansatz. Die britische Firma Signapse verwendet zum Beispiel generative KI, um aus der Übersetzung einen synthetischen fotorealistischen gebärdenden Menschen zu erzeugen. Der Fokus liegt hier natürlich auf der Britischen Gebärdensprache (British Sign Language BSL). Das zugrunde liegende Verfahren, das auch in einer wissenschaftlichen Veröffentlichung dokumentiert ist, wäre aber auch für andere Gebärdensprachen anwendbar. Das Unternehmen hat dieses Jahr bereits Investitionen in Höhe von zwei Millionen Pfund zugesichert bekommen. Angeboten werden Integrationen in Webseiten, den öffentlichen Dienst sowie Videoübersetzungen. Auf der Startseite wird man auch von einem der zwei synthetischen Gebärdenübersetzer begrüßt, die meisten anderen Gebärdensprachvideos sind vermutlich von der Übersetzerin Mia Ward real aufgenommen und nicht KI generiert. Sie ist die Person hinter dem Aussehen dieser KI. Dass nicht alle Gebärdensprachvideos computergeneriert sind, steht erst ganz unten auf der Webseite. Zu erkennen ist dies tatsächlich oft erst auf den zweiten Blick, meist an der Struktur der Haare oder Zähne und kleineren Details, die über die Zeit hinweg nicht konsistent aussehen.

Gehörlose Menschen sehen Avatare kritisch

2023 eine Stellungnahme, die sich kritisch mit dem AVASAG-Projekt und dem Folgeprojekt BIGEKO (Bidirektionale Gebärdensprach-Kommunikation) auseinandersetzt. Kritisiert werden hier sowohl die zu starke wirtschaftliche Orientierung der Projekte, als auch die dadurch aus Sicht des Kompetenzzentrums mangelhafte Einbeziehung der Einschätzung neutraler, finanziell unabhängiger gehörloser Expert*innen. Die Stellungnahme warnt auch vor den potentiellen ethischen und kulturellen Konsequenzen. Hierbei geht es um den Schutz der Kultur und Weiterentwicklungsfähigkeit einer lebendigen Sprache und auch der Berufe der weiterhin wichtigen Dolmetscher*innen. Auch die reale ökonomische Effizienz wird hinterfragt, da für die absehbare Zukunft auch für qualitativ hochwertige Avatare noch viel manuelle Arbeitszeit nötig bleibt. Bei einer Diskussion mehrerer Gebärdensprachverbände konnten zudem die verhältnismäßig positiven Reaktionen auf die Avatare aus den Studien des AVASAG-Projektes nicht unabhängig bestätigt werden. Die Einschätzung fiel konsistent deutlich negativer aus.

In der zweiten Stellungnahme aus dem Februar 2024 wurden die Qualitätssicherung und Verständlichkeit näher beleuchtet. Diese erreichten nicht den nötigen Standard für sinnvoll umgesetzte Barrierefreiheit. Die Avatare werden trotzdem bereits in öffentlichen Situationen eingesetzt. Beispiele hierfür sind Gebärdensprachinhalte des Zeppelinmuseums und der Kommunale Gebärdensprach-Avatar-Baukasten. Beim Zeppelinmuseum werden viele der Gebärden als „sehr ungenau“ oder sogar „schlichtweg falsch“ eingeschätzt. Im Ausschnitt aus dem Prüf-Protokoll fallen mehrfach Formulierungen wie „gänzlich unverständlich“. KI-basierte Avatare könnten demnach professionelle Gebärdensprachdolmetscher*innen nur in einigen Ausnahmefällen wie kurzen Bahndurchsagen ersetzen. Auch dann sei es notwendig, dass gehörlose Expert*innen kontinuierlich an der Qualitätssicherung des Systems beteiligt seien. Von einem Einsatz für die Übersetzung längerer oder komplexerer Texte, also unserem Anwendungsbereich, wird ausdrücklich abgeraten.

Alexander Stricker, der Geschäftsführer von Charamel, antwortet gegenüber dem SWR, dass die Avatare kontinuierlich weiterentwickelt und verbessert würden. Die Kritik der fehlenden Beteiligung gehörloser Menschen könne er sich nur durch nicht ausreichende Transparenz in der Kommunikation seiner Firma erklären, da an den Projekten gehörlose Mitarbeitende beteiligt seien. Er wünsche sich in Zukunft mehr Zusammenarbeit mit der Gehörlosen-Community. Die anderen ethischen Bedenken werden im Artikel des SWR nicht thematisiert.

Fazit

Die Kritik von gehörlosen Menschen lässt darauf schließen, dass die Avatare technisch noch in den Kinderschuhen stecken. In Anbetracht dessen, dass selbst Übersetzungs-KI wie DeepL zwischen den am weitesten verbreiteten Schriftsprachen der Welt noch nicht annähernd das Niveau einer professionellen Übersetzer*in erreicht, ist das auch nicht weiter verwunderlich. Gebärdensprachübersetzung ist für einen Computer ein noch komplexeres Problem, das zudem bisher weniger erforscht ist. Von Menschen erstellte Gebärdenanimationen wie das SiMAX System, bei denen KI eine unterstützende Rolle spielt, erscheinen hier als in der nahen und mittleren Zukunft einzige Alternative zur Aufnahme einer realen Dolmetscher*in. Doch auch diese Avatare haben Schwierigkeiten, der komplexen und vielfältigen Sprachkultur gerecht zu werden. Der Avatar des AVASAG Projekts wird ebenfalls von Menschen korrigiert und schneidet trotzdem noch nicht besonders gut ab. Für alle genannten Projekte gilt: Preis auf Anfrage. Der Kommunale Gebärdensprachavatar und Avatasi bieten für Kommunen beziehungsweise Museen jeweils (kostenlose) Testphasen an. Ob wir das Projekt auch als Filmemachenden nutzen könnten, wollen wir als nächstes herausfinden.

Soweit also unsere ersten Rechercheergebnisse zu Gebärdensprach-Avataren. Im nächsten Schritt werden wir Kontakt zum Unternehmen aufnehmen, das hinter dem AVASAG-Projekt steckt und mit ihnen darüber reden, ob es Anwendungsmöglichkeiten ihrer Lösung für den filmischen Bereich gibt. Davor schauen wir uns an, welche Qualität kostenlose Tools zur Untertitelung bieten und wie Chat GPT in puncto barrierefreie Sprache abschneidet.

Können KI-generierte Avatare unsere Filme gebärden?

Unsere ersten Rechercheergebnisse zu Projekten und Anwendung

Weitere Beiträge

Berge kommen nicht zusammen, aber Menschen

Doku zum Thema Pränataldiagnostik

Behinderte Liebe – Verhinderte Lust