Como a Covid causou estragos em todo o mundo, as informações de saúde pública tiveram que ser disponibilizadas em grande escala usando a tecnologia. Líderes mundiais e organizações de saúde tiveram que divulgar medidas para evitar a propagação do vírus. Acessibilidade a informação era a necessidade da hora. E à medida que o mundo começou a usar cada vez mais a esfera virtual para se manter conectado, as legendas de vídeo se tornaram imperativas.
No mundo das legendas, tecnologia de reconhecimento de fala aproveita a Inteligência Artificial para escale o processo de legendagem. Ele preenche dois requisitos de “escala”: economiza tempo e reduz custos. Os programas de IA são treinados para produzir transcrições de fala de alta qualidade. Isso difere do esforço humano porque é escalável, enquanto a estenografia e a escrita de voz vêm com dependências no nível humano individual. Embora a transcrição e a legendagem humanas ainda sejam mais precisas do que a automação, o reconhecimento de fala automatizado (ou automático), ou seja, o ASR, impulsiona esse processo em grande escala.
Essa produção de fala para texto é possibilitada pela Inteligência Artificial (IA). O ASR teve um impacto significativo nessas técnicas de produção. A ASR não apenas reduziu os custos de produção, mas também acelerou o processo. Essa parecia ser uma meta inatingível há apenas algumas décadas, mas hoje é popular e usada extensivamente na indústria de mídia e entretenimento.
O que é ASR?
Toda vez que um engenheiro precisa criar um programa, a primeira etapa é fazer a engenharia reversa do processo para entendê-lo no nível do componente. A tecnologia ASR tradicional tem três componentes. Primeiro, existe um modelo acústico que prevê fonemas (a menor unidade de fala), e o programa é treinado com entradas de áudio curtas para ajudá-lo a reconhecer esses fonemas. Segundo, há uma entrada de léxico ou vocabulário que o algoritmo analisa junto com o componente acústico. E o terceiro é o componente abrangente da linguagem, que reúne os dois para agrupar palavras em padrões de fala reconhecíveis por máquina.
Resumindo: as máquinas são treinadas para reconhecer padrões na fala e na linguagem e, em seguida, analisar essas informações para chegar à saída textual o mais próxima possível da produção humana.
Limitações ao ASR
Mas o ASR não é uma tecnologia perfeita. Depende de muitos fatores, incluindo qualidade de áudio, sotaque do alto-falante, sobreposição de fala, etc. Outro exemplo na produção de texto a partir da fala que, infelizmente, tem espaço para erros é a repetição e a fala redundante. Os preenchimentos de fala que evoluíram junto com a cultura linguística e como parte do processo de pensamento humano não são totalmente compreendidos pelas máquinas.
Os erros mais comuns no ASR se enquadram em um desses compartimentos:
- Pontuação
- Gramática
- Erros no reconhecimento de alto-falantes, especialmente no caso de vários alto-falantes
- Falsos começos e preenchimentos de fala — todos aqueles “ahs”, “ums” e “mm-hmms” que usamos na conversa.
- Homônimos
- Sobreposição de fala e ruído de fundo
- Baixa qualidade de áudio
O ASR também enfrenta desafios nos casos em que um falante se corrige no meio da frase. Essas são lacunas que um legendador ou transcritor humano reconhecerá e use o julgamento ao interpretar o texto em um formato compreensível que reflete as intenções do orador. A tecnologia de reconhecimento de fala ainda tem alguma distância a percorrer para discernir esses padrões de fala e entender o contexto.
Vantagens do ASR
Dito isso, o ASR também é uma das tecnologias que podem simplificar a legendagem e a transcrição quando considerações de custo e tempo precisam ser consideradas. Uma das soluções eficazes para o problema de imprecisão é adicionar uma camada de edição entre o reconhecimento automático de fala e a transcrição subsequente. Mas tenha certeza de que, como acontece com a maioria das coisas na esfera tecnológica, a melhoria nas taxas de precisão é algo que você pode esperar em novas iterações da tecnologia.
E, independentemente dessas limitações, o ASR desempenha um papel importante na legendagem, especialmente para vídeos ao vivo que não aproveitam o luxo de um tempo de produção suficiente. Os provedores de legendas trabalham com legendadores humanos para eventos ao vivo e também reconheça o papel que o ASR pode desempenhar em instâncias de streaming de vídeo ao vivo.
Outro papel que a IA desempenha na legendagem e transcrição é Tradução automática (MT), que é a necessidade do momento no mundo da localização. A ironia aqui é que a localização abriu o caminho para a globalização e vice-versa. A tradução de legendas, com tecnologia de inteligência artificial, abre o mundo das legendas para que não sejam nativos e não falantes de inglês compreendam o conteúdo de uma forma mais íntima e fácil. Durante a pandemia, esse serviço adicional de legendas para eventos ao vivo e on-line possibilitou que participantes de todo o mundo interagissem com o conteúdo. O consumo de conteúdo se tornou mais acessível e inclusivo por meio da IA.
Como a SyncWords aproveita a IA
Embora a IA possa gerar a escala e a relação custo-benefício para gerar legendas, a abordagem exclusiva da SyncWords aproveita as contribuições humanas nas fases críticas do projeto para aumentar a precisão, que é o fator chave para impulsionar a satisfação do cliente. Para legendas sob demanda/pré-gravadas, a tecnologia de IA proprietária da SyncWords sincroniza a mídia com muita precisão com a transcrição e, usando transcrições geradas por profissionais treinados, a SyncWords produz legendas cronometradas e redigidas com precisão. A SyncWords também oferece legendas de transcrições ASR para clientes que desejam que as legendas sejam geradas de forma rápida e acessível e concordam com o uso de texto gerado por ASR.
Para legendas ao vivo, o SyncWords oferece saídas humanas e ASR; no entanto, para traduções ao vivo, incentivamos os clientes a usar legendas humanas como fonte e potencializar as traduções ao vivo para mais de 100 idiomas usando a tradução por IA.
Nas palavras de Ashish Shah, cofundador da SyncWords: “As principais tecnologias da SyncWords são alimentadas usando sua tecnologia e infraestrutura proprietárias de aprendizado de máquina. O uso da Inteligência Artificial em combinação com automação, ferramentas e serviços humanos reduziu o tempo de geração de legendas e legendas de alguns dias para apenas alguns minutos. Essa abordagem híbrida ajudou imensamente nossos clientes e aumentou a produção e a precisão das legendas.”
Encerrando
A inteligência artificial tornou possível programar máquinas com várias regras e, ao mesmo tempo, criar algoritmos para tecnologias como ASR e MT. Nas últimas duas décadas, vimos muitas plataformas e serviços de inteligência artificial surgirem, como Siri, Alexa, Cortana, chatbots e Google Speech-to-Text. Adicione a isso resultados de pesquisa personalizados e as respostas solicitadas por e-mail (às vezes assustadoras!) para simplificar o mundo da comunicação empresarial. Para obter os melhores resultados em legendas, eventos ao vivo ou vídeos sob demanda, é melhor combinar humanos e inteligência artificial para aproveitar a precisão de uma saída para alimentar outra e produzir os melhores resultados.
Leituras relacionadas no blog do SyncWords
- 5 razões pelas quais você deve legendar reuniões ao vivo
- Legendas ao vivo: 4 melhores práticas para eventos virtuais
- Origens, IA e futuro da SyncWords: uma entrevista com Ashish Shah
- Inclusão e acessibilidade em sua organização