Transcripciones FAQ - Preguntas frecuentes

¿Por qué se generan subtítulos?

Los subtítulos mejoran la accesibilidad para las personas sordas, con discapacidad auditiva o que hablan otro idioma, y hacen que el contenido sea más accesible para todo el mundo. También ayudan a los motores de búsqueda a encontrar el contenido más fácilmente, lo que aumenta su alcance.

La textualización de la palabra hablada también es la base de muchas otras aplicaciones futuras basadas en esto, por lo que estamos estableciendo las bases. Esto incluye mejorar la función de búsqueda, recomendaciones de contenido, facilitar o automatizar parcialmente la selección de palabras clave, traducciones automáticas y mucho más.

¿Por qué creáis subtítulos automáticamente?

La creación automática simplifica el proceso y ahorra tiempo. El proceso manual de transcribir o crear subtítulos es costoso y requiere muchos recursos, puesto que son necesarias personas para cada idioma y episodio para convertir el contenido hablado a texto.

¿Cómo se crean los subtítulos?

Los subtítulos se generan con la ayuda de Whisper AI, un algoritmo de voz a texto desarrollado por Google. Es capaz de convertir la palabra hablada a texto en más de 50 idiomas y es de código abierto, es decir, puede usarse libremente. Puesto que entrenar un algoritmo así es muy caro, nosotros, como muchos otros, hemos contado con tecnologías existentes como Whisper AI.

El algoritmo convierte los llamados fonemas (sonidos lingüísticos) en letras, sílabas y, finalmente, palabras. Una serie de métodos diferentes se utilizan para mejorar el reconocimiento o aumentar la comprensión para el lector. Por ejemplo, filtra la alteración gramatical en el flujo del discurso, como "eh" o "ah", o convierte ciertas expresiones dialectales en otras más generalmente comprensibles.

Además, se utilizan los llamados "glosarios" para reconocer y reproducir ciertos términos que solo se utilizan en un idioma o área dialectal concretos. Puesto que estos glosarios están más entrenados con términos alemanes que se emplean en Alemania, son menos capaces de reconocer términos específicos de Austria como "Nationalrat", "Bezirkshauptmannschaft" o nombres propios como "Freistadt". En esas situaciones, los términos podrían transcribirse incorrectamente a pesar de que han sido articulados claramente si el término no está incluido en el glosario. Por ejemplo, la ciudad "Freistadt" a veces se convierte en "Freistaat".

El algoritmo se mejora constantemente y es razonable suponer que la calidad para el alemán austríaco seguirá mejorando.

¿Cuánto tardan en crearse los subtítulos?

La creación de subtítulos normalmente llega entre una sexta y una tercera parte de la duración total del audio. La duración depende de la cantidad de voz o música, el/los idioma/s hablados y el modo en el que hablan los personajes. Un archivo de una hora requiere un promedio de aprox. 10 - 20 minutos para su transcripción automática.

¿Por qué no ejerzo ninguna influencia en si se crean los subtítulos y cuándo?

La creación tiene lugar en segundo plano y requiere de una gran potencia informática, lo que a su vez requiere mucho tiempo y dinero. Primero transcribimos toda la base de datos, principalmente para mejorar la función de búsqueda. Los archivos nuevos se transcriben solo si ya han sido publicados para ahorrar recursos y tiempo. En cuanto toda la base de datos haya sido transcrita – lo que llevará más de un año – consideraremos darte un control mayor sobre el proceso de transcripción.

¿Por qué las transcripciones son importantes para la función de búsqueda?

Muchas de las publicaciones en el cba tienen poco texto descriptivo o palabras clave. Sin embargo, solo pueden encontrarse si hay suficiente información textual disponible. Con esa finalidad, enriquecemos nuestro índice de búsqueda con las transcripciones y, en un siguiente paso, también podemos filtrar las palabras clave significativas y ofrecerlas para la selección de palabras clave. Este proceso no solo posibilita unos resultados de búsqueda más precisos, sino también un mejor equilibrio: el contenido del archivo para el cual antes no había ninguna información textual disponible o muy poca también puede hacerse público.

¿Por qué hay errores en los subtítulos? ¿De qué depende la transcripción correcta?

La transcripción correcta depende de una serie de factores.

Whisper AI utiliza lo que se conoce como un modelo lingüístico para convertir sonidos a texto. Para entender un modo específico de hablar, como un dialecto, dicha tecnología necesita mucha información sobre cómo habla la gente en ese diálogo. Los datos de entrenamiento a menudo están disponibles a distintos grados según el idioma y el área dialectal. Como resultado, estos algoritmos suelen estar entrenados con variaciones del idioma alemán, por ejemplo, lo que significa que el alemán alto se reconoce mucho mejor que ciertos dialectos.

Además de la forma de hablar, la calidad de la transcripción depende sobre todo de la calidad del sonido. Los sonidos "ahogados" o amortiguados, los recortes/la distorsión, la reverberación e incluso la velocidad de bits (la tasa de compresión de un MP3, por ejemplo) puede afectar notablemente a la calidad y, con ello, provocar errores en los subtítulos.

Sin embargo, puedes corregir estos errores manualmente utilizando el editor de subtítulos.

¿Puedo editar los subtítulos generados automáticamente?

Sí, los subtítulos creados automáticamente pueden editarse en el editor de subtítulos para garantizar que son correctos. Puedes averiguar cómo usarlo aquí.

¿Puedo descargar los subtítulos o la transcripción?

Sí, con el editor de subtítulos puedes exportar y descargar tantos los subtítulos como archivo WebVTT y la transcripción íntegra como texto.