So erstellen Sie eine KI für verschiedene Dialekte – Samsung Newsroom Argentinien

-

Geschichten aus dem Nahen Osten über die Komplexität der Entwicklung von KI-Tools für Arabisch, eine Sprache mit vielen Facetten

Galaxy AI unterstützt jetzt 16 Sprachen und hilft so mehr Menschen, Sprachbarrieren durch Echtzeitübersetzung auf dem Gerät abzubauen. Samsung hat eine neue Ära der mobilen KI eingeläutet. Deshalb besuchen wir Samsung-Forschungszentren auf der ganzen Welt, um zu erfahren, wie Galaxy AI entstand und was nötig war, um die Herausforderungen der KI-Entwicklung zu meistern. Während im ersten Teil der Serie die Aufgabe untersucht wurde, die benötigten Daten zu ermitteln, geht es in diesem Teil um die komplexe Aufgabe, Dialekte zu berücksichtigen.

Einem KI-Modell eine Sprache beizubringen ist ein komplexer Prozess, aber was ist, wenn es sich nicht um eine einzelne Sprache, sondern um eine Sammlung verschiedener Dialekte handelt? Das war die Herausforderung, vor der das Team des Samsung R&D Institute Jordan (SRJO) stand. Obwohl „Arabisch“ als Sprachoption für Galaxy AI-Funktionen wie die Simultanübersetzung hinzugefügt wurde, musste das Team auf die verschiedenen arabischen Dialekte im Nahen Osten und Nordafrika eingehen, die sich in Aussprache, Wortschatz und Grammatik unterscheiden.

Arabisch ist eine der sechs meistgesprochenen Sprachen der Welt und wird täglich von mehr als 400 Millionen Menschen gesprochen1. Die Sprache wird in zwei Formen eingeteilt: Fus’ha (modernes Hocharabisch) und Ammiya (die Dialekte des Arabischen). Fus’ha wird normalerweise bei öffentlichen und offiziellen Veranstaltungen sowie bei Nachrichtenveranstaltungen verwendet, während Ammiya häufiger in alltäglichen Gesprächen vorkommt. Mehr als 20 Länder verwenden Arabisch, und derzeit gibt es in der Region etwa 30 Dialekte.

ungeschriebene Regeln

Das SRJO-Team war sich der Varianten dieser Dialekte bewusst und nutzte eine Reihe von Techniken, um die einzigartigen sprachlichen Merkmale jedes einzelnen Dialekts zu erkennen und zu verarbeiten. Dieser Ansatz war entscheidend, um sicherzustellen, dass Galaxy AI regionale Nuancen verstehen und darauf reagieren konnte.

„Im Gegensatz zu anderen Sprachen variiert die Aussprache des Objekts im Arabischen je nach Subjekt und Verb des Satzes“, erklärt Mohammad Hamdan, Projektleiter des arabischen Sprachentwicklungsteams. „Unser Ziel ist es, ein Modell zu entwickeln, das alle diese Dialekte versteht und in Standardarabisch antworten kann.“

TTS ist die Komponente der Simultanübersetzungsfunktion von Galaxy AI, die es Benutzern ermöglicht, mit Menschen verschiedener Sprachen zu interagieren, indem sie gesprochene Wörter in geschriebenen Text übersetzen und diese dann per Stimme wiedergeben. Das TTS-Team stand vor einer einzigartigen Herausforderung, die durch die Besonderheit der Arbeit mit Arabisch verursacht wurde.

Arabisch verwendet diakritische Zeichen, die in manchen Kontexten Hinweise zur Aussprache von Wörtern geben, etwa in religiösen Texten, Gedichten und Büchern für Sprachlerner. Diakritische Zeichen werden von Muttersprachlern weitgehend verstanden, fehlen jedoch im alltäglichen Schreiben. Dies macht es für eine Maschine schwierig, Rohtext in Phoneme umzuwandeln, die Grundeinheiten des Lauts, aus denen Sprache besteht.

„Zuverlässige, qualitativ hochwertige Datensätze, die die korrekte Verwendung diakritischer Zeichen genau wiedergeben, fehlen“, erklärt Haweeleh. „Wir mussten ein neuronales Modell entwerfen, das diese verlorenen diakritischen Zeichen mit großer Genauigkeit vorhersagen und wiederherstellen konnte.“

Neuronale Modelle funktionieren ähnlich wie menschliche Gehirne. Um diakritische Zeichen vorherzusagen, muss ein Modell viele arabische Texte studieren, die Regeln der Sprache lernen und verstehen, wie Wörter in verschiedenen Kontexten verwendet werden. Beispielsweise kann die Aussprache eines Wortes je nach der Handlung oder dem Geschlecht, das es beschreibt, stark variieren. Die umfassende Schulung des Teams war der Schlüssel zur Verbesserung der Genauigkeit des arabischen TTS-Modells.

Verbessern Sie das Verständnis

Das SRJO-Team musste außerdem verschiedene Audioaufnahmen der Dialekte aus verschiedenen Quellen sammeln, die transkribiert werden mussten, wobei der Schwerpunkt auf einzigartigen Klängen, Wörtern und Phrasen lag. „Wir haben ein Team aus Muttersprachlern der Dialekte zusammengestellt, die die Nuancen und Varianten gut kannten“, sagt Ayah Hasan, deren Team für die Erstellung der Datenbank verantwortlich war. „Sie hörten sich die Aufnahmen an und wandelten die gesprochenen Worte manuell in Text um.“

Diese Arbeit trug maßgeblich dazu bei, den automatischen Spracherkennungsprozess (ASR) zu verbessern, damit Galaxy AI mit der großen Vielfalt arabischer Dialekte umgehen kann. ASR ist für Galaxy AI unerlässlich, um in Echtzeit zu verstehen und zu reagieren.

„Der Aufbau eines ASR-Systems, das mehrere Dialekte in einem einzigen Modell unterstützt, ist ein komplexes Unterfangen“, sagt Mohammad Hamdan, ASR-Leiter des Projekts. „Es erfordert ein tiefes Verständnis der Feinheiten der Sprache, eine sorgfältige Auswahl der Daten und fortgeschrittene Modellierungstechniken.“

Der Höhepunkt der Innovation

Nach Monaten der Planung, des Aufbaus und des Testens war das Team bereit, Arabisch als Sprachoption für Galaxy AI einzuführen und so viel mehr Menschen die grenzüberschreitende Kommunikation zu ermöglichen. Dieses einzelne Team hat die KI-Dienste von Galaxy für Arabischsprachige zugänglich gemacht und so sprachliche und kulturelle Barrieren zwischen ihnen und Menschen auf der ganzen Welt verringert. Dadurch haben sie neue bewährte Praktiken etabliert, die auf der ganzen Welt verbreitet werden können. Dieser Erfolg ist erst der Anfang: Das Team verfeinert seine Modelle weiter und verbessert die Qualität der sprachlichen Fähigkeiten von Galaxy AI.

In der nächsten Folge reisen wir nach Vietnam, um zu sehen, wie das Team Sprachdaten verbessert. Was ist außerdem erforderlich, um ein effektives KI-Modell zu trainieren?

[El árabe es solo una parte de los idiomas y dialectos que admite Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Traducción Simultánea e Intérprete, están disponibles en los dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung2.]

1 UNESCO, Welttag der arabischen Sprache 2023, https://www.unesco.org/en/world-arabic-lingual-day
2 One UI 6.1 wurde erstmals auf Geräten der Galaxy S24-Serie veröffentlicht und wird später auch auf anderen Galaxy-Geräten eingeführt, darunter S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Series Flip4, Z Flip3 und Tab S9 und Tab S8

-