Mientras el COVID causaba estragos en todo el mundo, la información de salud pública tenía que estar disponible a escala utilizando la tecnología. Los líderes mundiales y las organizaciones sanitarias tenían que dar a conocer las medidas para evitar la propagación del virus. La accesibilidad a la información era la necesidad del momento. Y como el mundo empezó a utilizar cada vez más la esfera virtual para estar conectado, los subtítulos en los video se hicieron imprescindibles.
En el mundo de la subtitulación, la tecnología de reconocimiento de voz aprovecha la inteligencia artificial para ampliar el proceso de subtitulación. Esto cumple dos requisitos de "escala": ahorra tiempo y reduce costes. Los programas de IA se entrenan para producir transcripciones de alta calidad a partir del habla. La diferencia con el esfuerzo humano es que éste es escalable, mientras que la taquigrafía y la escritura de voz tienen dependencias a nivel humano. Aunque la transcripción y el subtitulado humanos siguen siendo más precisos que la automatización, el reconocimiento del habla automatizado (o automático), es decir, el ASR, impulsa este proceso a escala.
Esta producción de voz a texto es posible gracias a la Inteligencia Artificial (IA). La ASR ha tenido un impacto significativo en estas técnicas de producción. No solo ha reducido los costos de producción, sino que también ha acelerado el proceso. Esto parecía un objetivo inalcanzable hace tan solo un par de décadas, pero hoy en día es algo generalizado y se utiliza ampliamente en la industria de los medios de comunicación y el entretenimiento.
¿Qué es el ASR?
Cada vez que un ingeniero tiene que construir un programa, su primer paso es hacer ingeniería inversa del proceso para entenderlo a nivel de componentes. La tecnología ASR tradicional tiene tres componentes. En primer lugar, hay un modelo acústico que predice los fonemas (la unidad más pequeña del habla), y el programa se entrena con entradas de audio cortas para ayudarle a reconocer estos fonemas. En segundo lugar, hay un léxico o vocabulario que el algoritmo analiza junto con el componente acústico. Y en tercer lugar está el componente lingüístico global, que reúne a ambos para encadenar las palabras en patrones de habla reconocibles por la máquina.
En pocas palabras: Las máquinas se entrenan para reconocer patrones en el habla y el lenguaje y luego analizan esa información para llegar a un resultado textual lo más parecido posible al humano.
Limitaciones de la ASR
Pero la ASR no es una tecnología perfecta. Depende de muchos factores, como la calidad del audio, los acentos del hablante, la superposición del habla, etc. Otro caso de producción de texto a partir del habla que, por desgracia, tiene margen de error es la repetición y el habla redundante. Los elementos de relleno del habla que han evolucionado junto con la cultura del lenguaje y como parte del proceso de pensamiento humano no son totalmente comprendidos por las máquinas.
Los errores más comunes en el ASR se clasifican en uno de estos grupos:
- Puntuación
- Gramática
- Errores en el reconocimiento de los hablantes, especialmente en el caso de hablantes múltiples
- Falsos comienzos y rellenos del discurso, todos esos "ahs", "ems" y "mm-hmms" que utilizamos en la conversación.
- Homónimos
- Superposición del habla y del ruido de fondo
- Mala calidad de audio
La ASR también se enfrenta a retos en los casos en los que un hablante se corrige a sí mismo a mitad de frase. Se trata de lagunas que un subtitulador o transcriptor humano reconocerá y utilizará su juicio para reproducir el texto en un formato comprensible que refleje las intenciones del orador. La tecnología de reconocimiento de voz todavía tiene que recorrer un largo camino para discernir estos patrones de habla y comprender el contexto.
Ventajas de la ASR
Dicho esto, la ASR es también una de las tecnologías que pueden simplificar la subtitulación y la transcripción cuando hay que tener en cuenta los costes y el tiempo. Una de las soluciones eficaces al problema de la imprecisión es añadir una capa de edición entre el reconocimiento automático del habla y la posterior transcripción. Pero ten por seguro que, como ocurre con la mayoría de las cosas en el ámbito tecnológico, se puede esperar una mejora de los índices de precisión en las nuevas iteraciones de la tecnología.
E independientemente de estas limitaciones, la ASR desempeña un papel en la subtitulación, especialmente para los videos en directo que no gozan del lujo de un amplio tiempo de producción. Los proveedores de subtítulos trabajan con subtituladores humanos para eventos en vivo y también reconocen el papel que puede desempeñar la ASR en los casos de transmisión de videos en directo.
Otro papel que desempeña la IA en la subtitulación y la transcripción es la traducción automática (TA), que es la necesidad del momento en el mundo de la localización. La ironía es que la localización ha allanado el camino a la globalización y viceversa. La traducción de los subtítulos, impulsada por la IA, abre el mundo de los subtítulos a los no nativos y a los no angloparlantes para que comprendan el contenido de una manera más íntima y fácil. Durante la pandemia, este servicio añadido a los subtítulos de los eventos en vivo y en línea hizo posible que los participantes de todo el mundo se comprometieran con el contenido. El consumo de contenidos se hizo más accesible e inclusivo gracias a la IA.
Cómo SyncWords aprovecha la IA
Aunque la IA puede generar la escala y la rentabilidad necesarias para generar subtítulos, el enfoque único de SyncWords aprovecha las aportaciones humanas en las fases críticas del proyecto para aumentar la precisión, que es el factor clave para lograr la satisfacción del cliente. En el caso de los subtítulos por encargo o pregrabados, la tecnología de IA patentada de SyncWords sincroniza los archivos con la transcripción de forma muy precisa y, al utilizar las transcripciones generadas por profesionales formados, SyncWords produce subtítulos con una sincronización y una redacción precisas. SyncWords también ofrece subtítulos a partir de transcripciones ASR para los clientes que quieren que los subtítulos se generen de forma rápida y asequible, y que están de acuerdo con utilizar el texto generado por ASR.
Para los subtítulos en directo, SyncWords ofrece tanto la producción humana como la ASR, sin embargo, para las traducciones en vivo animamos a los clientes a utilizar subtítulos generados por humanos como fuente y a potenciar las traducciones en vivo a más de 100 idiomas utilizando la traducción IA.
En palabras del cofundador de SyncWords, Ashish Shah: "Las principales tecnologías de SyncWords se basan en su propia tecnología e infraestructura de aprendizaje automático. El uso de la Inteligencia Artificial en combinación con la automatización, las herramientas y los servicios humanos ha reducido el tiempo de generación de subtítulos de unos días a solo unos minutos. Este enfoque híbrido ha ayudado enormemente a nuestros clientes y ha aumentado su producción y la precisión de los subtítulos."
En resumen
La inteligencia artificial ha hecho posible programar máquinas con múltiples reglas mientras se construyen algoritmos para tecnologías como la ASR y la MT. En las última décadas, hemos visto surgir muchas plataformas y servicios de inteligencia artificial como Siri, Alexa, Cortana, chatbots y Google speech-to-text. A esto hay que añadirle los resultados de búsqueda personalizados y esas respuestas de correo electrónico sugeridas (¡espeluznantes a veces!) para simplificar el mundo de la comunicación empresarial. Para obtener los mejores resultados en la subtitulación, en los eventos en directo o en los videos por encargo, lo mejor es combinar a los humanos con la IA, para aprovechar la precisión de un producto para alimentar al otro y producir los mejores resultados.
Lecturas relacionadas en el blog de SyncWords
- 5 razones por las que deberías subtitular las reuniones en vivo
- Subtitulación en vivo: 4 buenas prácticas para eventos virtuales
- Los orígenes de SyncWords, la IA y el futuro: Entrevista con Ashish Shah
- Inclusión y accesibilidad en su organización