SyncWords - up icon
Inteligência artificial

Como a IA melhora a legendagem e a transcrição

No mundo das legendas, a tecnologia de reconhecimento de fala utiliza a Inteligência Artificial para escalar o processo de legendagem. Os programas de IA são treinados para produzir transcrições de alta qualidade. Essa parecia ser uma meta inatingível há apenas algumas décadas, mas hoje é popular e usada extensivamente na indústria de mídia e entretenimento. Como a IA potencializa o processo de legendagem? É suficiente usar a IA sozinha, sem intervenção humana ou contribuições humanas no processo? O SyncWords decodifica.

Como a Covid causou estragos em todo o mundo, as informações de saúde pública tiveram que ser disponibilizadas em grande escala usando a tecnologia. Líderes mundiais e organizações de saúde tiveram que divulgar medidas para evitar a propagação do vírus. Acessibilidade a informação era a necessidade da hora. E à medida que o mundo começou a usar cada vez mais a esfera virtual para se manter conectado, as legendas de vídeo se tornaram imperativas.

No mundo das legendas, tecnologia de reconhecimento de fala aproveita a Inteligência Artificial para escale o processo de legendagem. Ele preenche dois requisitos de “escala”: economiza tempo e reduz custos. Os programas de IA são treinados para produzir transcrições de fala de alta qualidade. Isso difere do esforço humano porque é escalável, enquanto a estenografia e a escrita de voz vêm com dependências no nível humano individual. Embora a transcrição e a legendagem humanas ainda sejam mais precisas do que a automação, o reconhecimento de fala automatizado (ou automático), ou seja, o ASR, impulsiona esse processo em grande escala.

Essa produção de fala para texto é possibilitada pela Inteligência Artificial (IA). O ASR teve um impacto significativo nessas técnicas de produção. A ASR não apenas reduziu os custos de produção, mas também acelerou o processo. Essa parecia ser uma meta inatingível há apenas algumas décadas, mas hoje é popular e usada extensivamente na indústria de mídia e entretenimento.

O que é ASR?

Toda vez que um engenheiro precisa criar um programa, a primeira etapa é fazer a engenharia reversa do processo para entendê-lo no nível do componente. A tecnologia ASR tradicional tem três componentes. Primeiro, existe um modelo acústico que prevê fonemas (a menor unidade de fala), e o programa é treinado com entradas de áudio curtas para ajudá-lo a reconhecer esses fonemas. Segundo, há uma entrada de léxico ou vocabulário que o algoritmo analisa junto com o componente acústico. E o terceiro é o componente abrangente da linguagem, que reúne os dois para agrupar palavras em padrões de fala reconhecíveis por máquina.

Resumindo: as máquinas são treinadas para reconhecer padrões na fala e na linguagem e, em seguida, analisar essas informações para chegar à saída textual o mais próxima possível da produção humana.

Limitações ao ASR

Mas o ASR não é uma tecnologia perfeita. Depende de muitos fatores, incluindo qualidade de áudio, sotaque do alto-falante, sobreposição de fala, etc. Outro exemplo na produção de texto a partir da fala que, infelizmente, tem espaço para erros é a repetição e a fala redundante. Os preenchimentos de fala que evoluíram junto com a cultura linguística e como parte do processo de pensamento humano não são totalmente compreendidos pelas máquinas.

Os erros mais comuns no ASR se enquadram em um desses compartimentos:

  1. Pontuação
  2. Gramática
  3. Erros no reconhecimento de alto-falantes, especialmente no caso de vários alto-falantes
  4. Falsos começos e preenchimentos de fala — todos aqueles “ahs”, “ums” e “mm-hmms” que usamos na conversa.
  5. Homônimos
  6. Sobreposição de fala e ruído de fundo
  7. Baixa qualidade de áudio

O ASR também enfrenta desafios nos casos em que um falante se corrige no meio da frase. Essas são lacunas que um legendador ou transcritor humano reconhecerá e use o julgamento ao interpretar o texto em um formato compreensível que reflete as intenções do orador. A tecnologia de reconhecimento de fala ainda tem alguma distância a percorrer para discernir esses padrões de fala e entender o contexto.

Vantagens do ASR

Dito isso, o ASR também é uma das tecnologias que podem simplificar a legendagem e a transcrição quando considerações de custo e tempo precisam ser consideradas. Uma das soluções eficazes para o problema de imprecisão é adicionar uma camada de edição entre o reconhecimento automático de fala e a transcrição subsequente. Mas tenha certeza de que, como acontece com a maioria das coisas na esfera tecnológica, a melhoria nas taxas de precisão é algo que você pode esperar em novas iterações da tecnologia.

E, independentemente dessas limitações, o ASR desempenha um papel importante na legendagem, especialmente para vídeos ao vivo que não aproveitam o luxo de um tempo de produção suficiente. Os provedores de legendas trabalham com legendadores humanos para eventos ao vivo e também reconheça o papel que o ASR pode desempenhar em instâncias de streaming de vídeo ao vivo.

Outro papel que a IA desempenha na legendagem e transcrição é Tradução automática (MT), que é a necessidade do momento no mundo da localização. A ironia aqui é que a localização abriu o caminho para a globalização e vice-versa. A tradução de legendas, com tecnologia de inteligência artificial, abre o mundo das legendas para que não sejam nativos e não falantes de inglês compreendam o conteúdo de uma forma mais íntima e fácil. Durante a pandemia, esse serviço adicional de legendas para eventos ao vivo e on-line possibilitou que participantes de todo o mundo interagissem com o conteúdo. O consumo de conteúdo se tornou mais acessível e inclusivo por meio da IA.

Como a SyncWords aproveita a IA

Embora a IA possa gerar a escala e a relação custo-benefício para gerar legendas, a abordagem exclusiva da SyncWords aproveita as contribuições humanas nas fases críticas do projeto para aumentar a precisão, que é o fator chave para impulsionar a satisfação do cliente. Para legendas sob demanda/pré-gravadas, a tecnologia de IA proprietária da SyncWords sincroniza a mídia com muita precisão com a transcrição e, usando transcrições geradas por profissionais treinados, a SyncWords produz legendas cronometradas e redigidas com precisão. A SyncWords também oferece legendas de transcrições ASR para clientes que desejam que as legendas sejam geradas de forma rápida e acessível e concordam com o uso de texto gerado por ASR.

Para legendas ao vivo, o SyncWords oferece saídas humanas e ASR; no entanto, para traduções ao vivo, incentivamos os clientes a usar legendas humanas como fonte e potencializar as traduções ao vivo para mais de 100 idiomas usando a tradução por IA.

Nas palavras de Ashish Shah, cofundador da SyncWords: “As principais tecnologias da SyncWords são alimentadas usando sua tecnologia e infraestrutura proprietárias de aprendizado de máquina. O uso da Inteligência Artificial em combinação com automação, ferramentas e serviços humanos reduziu o tempo de geração de legendas e legendas de alguns dias para apenas alguns minutos. Essa abordagem híbrida ajudou imensamente nossos clientes e aumentou a produção e a precisão das legendas.”

Encerrando

A inteligência artificial tornou possível programar máquinas com várias regras e, ao mesmo tempo, criar algoritmos para tecnologias como ASR e MT. Nas últimas duas décadas, vimos muitas plataformas e serviços de inteligência artificial surgirem, como Siri, Alexa, Cortana, chatbots e Google Speech-to-Text. Adicione a isso resultados de pesquisa personalizados e as respostas solicitadas por e-mail (às vezes assustadoras!) para simplificar o mundo da comunicação empresarial. Para obter os melhores resultados em legendas, eventos ao vivo ou vídeos sob demanda, é melhor combinar humanos e inteligência artificial para aproveitar a precisão de uma saída para alimentar outra e produzir os melhores resultados.

Leituras relacionadas no blog do SyncWords

Torne seus eventos ou mídias virtuais acessíveis e multilíngues
Legendas para eventos ao vivo
Legendas sob demanda
  • Suporte premium
  • 20 anos de experiência
  • Legendas humanas e de IA
  • Atraso mínimo na entrega
  • Traduza para mais de 100 idiomas
Outros artigos
Inscreva-se no boletim informativo
Obtenha ótimas ideias de nossa equipe de especialistas.
Al enviar su dirección de correo electrónico, acepta recibir comunicaciones por correo electrónico de SyncWords