Wie KI das Untertiteln und Transkribieren verbessert

Da Covid weltweit verheerende Schäden anrichtete, mussten Informationen zur öffentlichen Gesundheit mithilfe von Technologie in großem Maßstab verfügbar gemacht werden. Die Staats- und Regierungschefs der Welt und Gesundheitsorganisationen mussten Maßnahmen bekannt machen, um die Ausbreitung des Virus zu verhindern. Barrierefreiheit zwei Informationen waren das Gebot der Stunde. Und als die Welt zunehmend begann, die virtuelle Sphäre zu nutzen, um in Verbindung zu bleiben, wurden Videounterschriften unverzichtbar.

In der Welt der Untertitelung, Spracherkennungstechnologie nutzt künstliche Intelligenz, um skalieren Sie den Untertitelungsprozess. Damit werden zwei „Skalierungsfelder“ angekreuzt: Das spart Zeit und senkt die Kosten. KI-Programme sind darauf trainiert, aus Sprache qualitativ hochwertige Transkriptionen zu erstellen. Der Unterschied zu menschlichen Anstrengungen besteht darin, dass dies skalierbar ist, wohingegen Stenographie und Sprachschreiben Abhängigkeiten auf der individuellen menschlichen Ebene mit sich bringen. Obwohl menschliche Transkription und Untertitelung immer noch genauer sind als Automatisierung, treibt die automatische (oder automatische) Spracherkennung, d. h. ASR, diesen Prozess in großem Maßstab voran.

Diese Produktion von Sprache zu Text wird durch künstliche Intelligenz (KI) ermöglicht. ASR hatte erhebliche Auswirkungen auf diese Produktionstechniken. ASR hat nicht nur die Produktionskosten gesenkt, sondern auch den Prozess beschleunigt. Dies schien noch vor ein paar Jahrzehnten ein unerreichbares Ziel zu sein, aber heute ist es Mainstream und wird in der Medien- und Unterhaltungsbranche ausgiebig genutzt.

Was ist ASR?

Jedes Mal, wenn ein Ingenieur ein Programm erstellen muss, besteht sein erster Schritt darin, den Prozess zurückzuentwickeln, um ihn auf Komponentenebene zu verstehen. Die traditionelle ASR-Technologie besteht aus drei Komponenten. Erstens gibt es ein akustisches Modell, das Phoneme (die kleinste Spracheinheit) vorhersagt, und das Programm wird mit kurzen Audioeingängen trainiert, um diese Phoneme besser erkennen zu können. Zweitens gibt es eine Lexikon- oder Vokabeleingabe, die der Algorithmus zusammen mit der akustischen Komponente analysiert. Und drittens die übergreifende Sprachkomponente, die die beiden zusammenführt, um Wörter zu maschinenerkennbaren Sprachmustern zusammenzufassen.

Kurz gesagt: Maschinen sind darauf trainiert, Muster in Sprache und Sprache zu erkennen und diese Informationen dann zu analysieren, um zu einer Textausgabe zu gelangen, die der menschlichen Ausgabe so nahe wie möglich kommt.

Einschränkungen bei ASR

ASR ist jedoch keine perfekte Technologie. Sie hängt von vielen Faktoren ab, wie z. B. der Audioqualität, den Akzenten des Sprechers, überlappender Sprache usw. Ein weiteres Beispiel für die Textproduktion aus Sprache, bei der leider Fehler auftreten können, sind Wiederholungen und redundante Sprache. Sprachfüller, die sich im Zuge der Sprachkultur und als Teil des menschlichen Denkprozesses weiterentwickelt haben, werden von Maschinen nicht vollständig verstanden.

Die häufigsten Fehler in ASR fallen in einen dieser Buckets:

Interpunktion
Grammatik
Fehler bei der Erkennung von Lautsprechern, insbesondere bei mehreren Lautsprechern
Fehlstarts und Sprachfüller — All diese „Ahs“, „Ähm“ und „mm-hmms“, die wir in Gesprächen verwenden.
Homonyme
Überlappende Sprach- und Hintergrundgeräusche
Schlechte Audioqualität

ASR steht auch vor Herausforderungen, wenn sich ein Sprecher mitten im Satz selbst korrigiert. Dies sind Lücken, die ein menschlicher Untertiteler oder Transkriptor erkennt und verwenden Sie Urteilsvermögen bei der Darstellung des Text in einem verständlichen Format, das die Intention des Sprechers widerspiegelt. Die Spracherkennungstechnologie hat noch einen weiten Weg vor sich, um diese Sprachmuster zu erkennen und den Kontext zu verstehen.

Vorteile von ASR

Allerdings ist ASR auch eine der Technologien, die die Untertitelung und Transkription vereinfachen können, wenn Kosten- und Zeitüberlegungen berücksichtigt werden müssen. Eine der effektiven Umgehungsmöglichkeiten für das Problem der Ungenauigkeit besteht darin, zwischen der automatisierten Spracherkennung und der nachfolgenden Transkription eine Bearbeitungsebene hinzuzufügen. Aber seien Sie versichert, dass Sie, wie bei den meisten Dingen im technologischen Bereich, von neueren Versionen der Technologie eine Verbesserung der Genauigkeitsraten erwarten können.

Und unabhängig von diesen Einschränkungen spielt ASR eine Rolle bei der Untertitelung, insbesondere bei Live-Videos, die nicht den Luxus einer ausreichenden Produktionszeit genießen. Anbieter von Untertiteln arbeiten mit menschliche Untertiteler für Live-Events und erkennen Sie auch die Rolle an, die ASR bei Live-Video-Streaming-Instanzen spielen kann.

Eine weitere Rolle, die KI bei der Untertitelung und Transkription spielt, ist Maschinelle Übersetzung (MT), das ist das Gebot der Stunde in der Welt der Lokalisierung. Die Ironie dabei ist, dass die Lokalisierung der Globalisierung den Weg geebnet hat und umgekehrt. Die KI-gestützte Übersetzung von Untertiteln eröffnet die Welt der Untertitel für Personen, die weder Muttersprache noch Englisch sprechen, sodass sie den Inhalt auf eine intime und einfachere Weise verstehen können. Während der Pandemie ermöglichte dieser zusätzliche Service zu den Untertiteln für Live- und Online-Veranstaltungen es Teilnehmern auf der ganzen Welt, sich mit den Inhalten zu beschäftigen. Der Konsum von Inhalten wurde durch KI zugänglicher und inklusiver.

Wie SyncWords KI nutzt

KI kann zwar den Umfang und die Kosteneffizienz für die Erstellung von Untertiteln generieren, aber der einzigartige Ansatz von SyncWords nutzt menschliche Eingaben in kritischen Phasen des Projekts, um die Genauigkeit zu erhöhen, was der Schlüsselfaktor für die Kundenzufriedenheit ist. Für On-Demand/vorab aufgezeichnete Untertitel synchronisiert die firmeneigene KI-Technologie von SyncWords die Medien sehr genau mit dem Transkript. Mithilfe von Transkripten, die von geschulten Fachleuten erstellt wurden, erstellt SyncWords zeitgenaue und formulierte Untertitel. SyncWords bietet auch Untertitel aus ASR-Transkripten für Kunden an, die Untertitel schnell und kostengünstig generieren möchten und mit der Verwendung von ASR-generiertem Text einverstanden sind.

Für Live-Untertitel bietet SyncWords sowohl menschliche als auch ASR-Ausgaben. Für Live-Übersetzungen empfehlen wir unseren Kunden jedoch, menschliche Untertitel als Quelle zu verwenden und die Live-Übersetzungen in über 100 Sprachen mithilfe von KI-Übersetzungen durchzuführen.

In den Worten von Ashish Shah, Mitbegründer von SyncWords: „Die Kerntechnologien von SyncWords werden mithilfe der firmeneigenen Technologie und Infrastruktur für maschinelles Lernen unterstützt. Durch den Einsatz künstlicher Intelligenz in Kombination mit Automatisierung, Tools und Personaldienstleistungen wurde die Zeit für die Generierung von Untertiteln und Untertiteln von einigen Tagen auf nur wenige Minuten reduziert. Dieser hybride Ansatz hat unseren Kunden enorm geholfen und ihre Leistung und Genauigkeit der Untertitel erhöht.“

Einpacken

Künstliche Intelligenz hat es ermöglicht, Maschinen mit mehreren Regeln zu programmieren und gleichzeitig Algorithmen für Technologien wie ASR und MT zu entwickeln. In den letzten ein oder zwei Jahrzehnten haben wir viele Plattformen und Dienste für künstliche Intelligenz wie Siri, Alexa, Cortana, Chatbots und Google Speech-to-Text auf den Markt gebracht. Fügen Sie dazu personalisierte Suchergebnisse und die abgefragten E-Mail-Antworten hinzu (manchmal gruselig!) um die Welt der Geschäftskommunikation zu vereinfachen. Um die besten Ergebnisse bei Untertiteln, Live-Events oder On-Demand-Videos zu erzielen, ist es am besten, Mensch und KI zu kombinieren, um die Genauigkeit einer Ausgabe zu nutzen, um sie in eine andere einfließen zu lassen und die besten Ergebnisse zu erzielen.

Verwandte Lesungen im SyncWords-Blog

‍

Wie KI das Untertiteln und Transkribieren verbessert

Machen Sie Ihre virtuellen Veranstaltungen oder Medien zugänglich und mehrsprachig

Sollte ich mein Live-Event mit Untertiteln vorab aufzeichnen oder es einfach live mit Untertiteln zeigen?