Untertitel verbessern die Zugänglichkeit für Gehörlose, Hörbeeinträchtigte und Menschen, die eine andere Sprache sprechen, und machen den Inhalt für alle leichter erreichbar. Außerdem helfen sie Suchmaschinen, den Inhalt leichter zu finden, was die Reichweite erhöht.
Die Vertextlichung von gesprochenem Wort ist zudem die Grundlage für viele weitere, darauf aufbauende, zukünftige Anwendungen, für die wir damit den Grundstein legen. Dazu gehören etwa die Verbesserung der Suchfunktion, Inhalte-Empfehlungen, Erleichterung bzw. Teilautomatisierung der Beschlagwortung, automatisierte Übersetzungen, uvm.
Die automatische Erstellung erleichtert den Prozess und spart Zeit. Der manuelle Prozess der Transkription bzw. Untertitelerstellung ist zeitaufwändig und erfordert viele Ressourcen, da für jede Sprache und jede Episode Personen benötigt werden, die den gesprochenen Inhalt in Text umwandeln.
Untertitel werden mithilfe von Whisper AI generiert, einem von Google entwickelten Speech-to-Text Algorithmus. Er ist in der Lage, gesprochenens Wort in über 50 Sprachen in Text umzuwandeln und ist Open-Source, d.h. er ist quelloffen und darf frei genutzt werden. Da das Trainieren eines solchen Algorithmus sehr kostspielig ist, müssen wir wie viele andere, auf vorhandene Technologien wie Whisper AI zurückgreifen.
Der Algorithmus wandelt sg. Phoneme (sprachliche Laute) in Buchstaben, Silben und schließlich Worte um. Dabei kommt eine Reihe unterschiedlicher Methoden zum Einsatz, die die Erkennung verbessern oder die Verständlichkeit für den:die Leser:in erhöhen. So werden etwa sg. Redeflussstörungen herausgefiltert, wie zB. “Äh” und “Ah” oder bestimmte dialektale Ausdrücke in allgemein verständlichere umgewandelt (zB. “kriegen” kann in bestimmten Kontexten zu “bekommen” werden).
Darüber hinaus kommen sg. “Glossare” zum Einsatz, die bestimmte Begriffe, die nur in einem bestimmten Sprach- bzw. Dialektraum verwendet werden, erkennen und wiedergeben. Da diese Glossare ebenfalls stärker mit bundesdeutschen Begriffen trainiert werden, erkennen sie bspw. Österreich-spezifische Begriffe wie etwa “Nationalrat”, “Bezirkshauptmannschaft” oder aber auch Eigennamen wie “Freistadt” schlechter. In solchen Situationen kann es daher dazu kommen, dass Begriffe, obwohl sie klar und deutlich artikuliert wurden, falsch transkribiert werden, wenn der Begriff im Glossar nicht enthalten ist. So wird bspw. die Stadt “Freistadt” mitunter zu “Freistaat”.
Der Algorithmus wird laufend verbessert und es ist davon auszugehen, dass die Qualität auch für österreichisches Deutsch kontinuierlich besser wird.
Die Erstellung der Untertitel dauert in der Regel etwa ein Sechstel bis ein Drittel der Gesamtdauer des Audios. Die Dauer hängt vom Sprach- bzw. Musikanteil, von der bzw. den gesprochenen Sprachen und der Sprechweise der vorkommenden Personen ab. Im Schnitt benötigt eine einstündige Datei ca. 10 - 20 Minuten für die Auto-Transkription.
Die Erstellung erfolgt im Hintergrund und erfordert viel Rechenleistung, was Zeitaufwand und Kosten verursacht. Wir transkribieren zunächst den gesamten Datenbestand, um vor allem die Suchfunktion zu verbessern. Neue Dateien werden nur dann transkribiert, wenn sie bereits veröffentlicht sind, um Ressourcen und Zeit zu sparen. Sobald der ganze Datenbestand vertextlicht ist - was über ein Jahr dauert - überlegen wir, dir mehr Kontrolle über die Transkripterstellung zu geben.
Viele der Beiträge im cba haben nur wenig Beschreibungstext oder Schlagworte. Sie können aber nur gefunden werden, wenn genügend Textinformationen vorliegen. Zu diesem Zweck reichern wir unseren Suchindex mit den Transkripten an und können in einem nächsten Schritt etwa auch aussagekräftige Schlagwörter herausfiltern und so zur Beschlagwortung anbieten. Dieser Prozess führt nicht nur zu präziseren Suchergebnissen, sondern auch zu mehr Ausgewogenheit: so können nun auch Inhalte aus dem Archiv an die Öffentlichkeit gelangen, für die bisher keine oder nur sehr wenig Textinformationen vorlagen.
Die korrekte Transkription hängt von einer Reihe von Faktoren ab
Whisper AI verwendet ein sg. Sprachmodell, um Laute in Text umzuwandeln. Um eine spezielle Art des Sprechens zu verstehen, wie zum Beispiel einen Dialekt, braucht eine solche Technologie sehr viele Informationen darüber, wie Leute in diesem Dialekt sprechen. Die Trainingsdaten liegen je nach Sprache und Dialektraum oft in unterschiedlichem Ausmaß vor. Das führt dazu, dass diese Algorithmen bspw. eher mit bundesdeutschen Sprachvariationen trainiert werden, wodurch Hochdeutsch wesentlich besser erkannt wird, als zB. bestimmte Dialekte.
Neben der Sprechweise ist die Qualität der Transkription vor allem von der Tonqualität abhängig. “Verwaschener” oder dumpfer Klang, Übersteuerung/Verzerrung, Hall bis hin zur Bitrate (die Komprimierungsrate eines MP3s etwa) können die Qualität stark beeinträchtigen und daher zu Fehlern in den Untertiteln führen.
Du kannst diese Fehler jedoch mithilfe des Untertitel-Editors manuell korrigieren.
Ja, die automatisch erstellten Untertitel können im Untertitel-Editor bearbeitet werden, um sicherzustellen, dass sie korrekt sind. Wie du ihn verwendest, erfährst du hier.
Ja, mit dem Untertitel-Editor kannst du sowohl die Untertitel als WebVTT-Datei als auch das gesamte Transkript als Text exportieren und herunterladen.