So erstellen Sie eine KI für die verschiedenen Variationen des Arabischen – Samsung Newsroom Mexiko

-

Geschichten aus dem Nahen Osten über die Komplexität der Entwicklung von KI-Tools für Arabisch, eine Sprache mit vielen Facetten

Galaxy AI unterstützt jetzt 16 Sprachen und hilft so mehr Menschen, Sprachbarrieren durch Echtzeitübersetzung auf dem Gerät abzubauen. Mit diesen Fortschritten hat Samsung eine neue Ära der mobilen künstlichen Intelligenz (KI) eingeläutet. Deshalb besuchen wir Samsung-Forschungszentren auf der ganzen Welt, um zu erfahren, wie Galaxy AI entstanden ist und was nötig war, um die Herausforderungen der KI-Entwicklung zu meistern . Während sich der erste Teil der Serie mit der Aufgabe befasste, die benötigten Daten zu ermitteln, reflektiert dieser Teil die komplexe Arbeit der Berücksichtigung von Dialekten.

Einem KI-Modell eine Sprache beizubringen ist ein komplexer Prozess, aber was ist, wenn es sich nicht um eine einzelne Sprache, sondern um eine Sammlung verschiedener Dialekte handelt? Das war die Herausforderung, vor der das Team des Samsung Research and Development (R&D) Institute Jordan (SRJO) stand. Obwohl „Arabisch“ als Sprachoption für Galaxy AI-Funktionen wie Live Translate hinzugefügt wurde, musste das Team die verschiedenen arabischen Dialekte studieren, die sich über den Nahen Osten und Nordafrika erstrecken und sich in Aussprache, Wortschatz und Grammatik unterscheiden.

Arabisch ist eine der sechs meistgesprochenen Sprachen der Welt und wird täglich von mehr als 400 Millionen Menschen gesprochen [1]. Die Sprache wird in zwei Formen eingeteilt: Fus’ha (modernes Hocharabisch) und Ammiya (die Dialekte des Arabischen). Fus’ha wird normalerweise bei öffentlichen und offiziellen Veranstaltungen sowie bei Nachrichtenveranstaltungen verwendet, während Ammiya häufiger in alltäglichen Gesprächen vorkommt. Mehr als 20 Länder verwenden Arabisch und derzeit gibt es in der Region etwa 30 Dialekte.

ungeschriebene Regeln

Das SRJO-Team war sich der Varianten dieser Dialekte bewusst und nutzte eine Reihe von Techniken, um die einzigartigen sprachlichen Merkmale jedes einzelnen Dialekts zu erkennen und zu verarbeiten. Dieser Ansatz war von entscheidender Bedeutung, um sicherzustellen, dass Galaxy AI regionale Nuancen genau verstehen und darauf reagieren konnte.

Im Gegensatz zu anderen Sprachen variiert die Aussprache des Objekts im Arabischen je nach Subjekt und Verb des Satzes.„erklärt Mohammad Hamdan, Projektmanager des arabischen Sprachentwicklungsteams. „Unser Ziel ist es, ein Modell zu entwickeln, das alle diese Dialekte versteht und in Standardarabisch antworten kann„.

TTS ist die Komponente der Live-Übersetzungsfunktion von Galaxy AI, die es Benutzern ermöglicht, mit Menschen verschiedener Sprachen zu interagieren, indem sie gesprochene Wörter in geschriebenen Text übersetzen und diese dann per Stimme wiedergeben. Aufgrund der Besonderheiten der Arbeit mit Arabisch stand das TTS-Team vor einer einzigartigen Herausforderung.

Arabisch verwendet diakritische Zeichen, die in manchen Kontexten Hinweise zur Aussprache von Wörtern geben, etwa in religiösen Texten, Gedichten und Büchern für Sprachlerner. Diakritische Zeichen werden von Muttersprachlern weitgehend verstanden, fehlen jedoch im alltäglichen Schreiben. Dies macht es für eine Maschine schwierig, Rohtext in Phoneme umzuwandeln, die Grundeinheiten des Lauts, aus denen Sprache besteht.

Es mangelt an zuverlässigen, qualitativ hochwertigen Datensätzen, die die korrekte Verwendung diakritischer Zeichen genau wiedergeben.„Haweeleh erklärt. „Wir mussten ein neuronales Modell entwerfen, das diese verlorenen diakritischen Zeichen mit großer Genauigkeit vorhersagen und wiederherstellen konnte.„.

Neuronale Modelle funktionieren ähnlich wie menschliche Gehirne. Um diakritische Zeichen vorherzusagen, muss ein Modell viele arabische Texte studieren, die Regeln der Sprache lernen und verstehen, wie Wörter in verschiedenen Kontexten verwendet werden. Beispielsweise kann die Aussprache eines Wortes je nach der Handlung oder dem Geschlecht, das es beschreibt, stark variieren. Die umfassende Schulung des Teams war der Schlüssel zur Verbesserung der Genauigkeit des arabischen TTS-Modells.

Verbessern Sie das Verständnis

Das SRJO-Team musste außerdem verschiedene Audioaufnahmen der Dialekte aus verschiedenen Quellen sammeln, die transkribiert werden mussten, wobei der Schwerpunkt auf einzigartigen Klängen, Wörtern und Phrasen lag. „Wir haben ein Team aus Muttersprachlern der Dialekte zusammengestellt, die die Nuancen und Varianten gut kennen.„sagt Ayah Hasan, deren Team für die Erstellung der Datenbank verantwortlich war. „Sie hörten sich die Aufnahmen an und wandelten die gesprochenen Worte manuell in Text um„.

Diese Arbeit trug maßgeblich dazu bei, den Prozess der automatischen Spracherkennung (ASR) zu verbessern, damit Galaxy AI mit der großen Vielfalt arabischer Dialekte umgehen kann. ASR ist für Galaxy AI unerlässlich, um in Echtzeit zu verstehen und zu reagieren.

Der Aufbau eines ASR-Systems, das mehrere Dialekte in einem einzigen Modell unterstützt, ist ein komplexes Unterfangen„sagt Mohammad Hamdan, ASR-Manager des Projekts. „Es erfordert ein tiefes Verständnis der Feinheiten der Sprache, eine sorgfältige Datenauswahl und fortgeschrittene Modellierungstechniken.„.

Der Höhepunkt der Innovation

Nach Monaten der Planung, des Aufbaus und des Testens war das Team bereit, Arabisch als Sprachoption für Galaxy AI einzuführen und so viel mehr Menschen die grenzüberschreitende Kommunikation zu ermöglichen. Dieses einzigartige Team stellte die KI-Dienste von Galaxy Arabischsprachigen zur Verfügung und baute so sprachliche und kulturelle Barrieren zwischen ihnen und Menschen auf der ganzen Welt ab. Dadurch wurden neue bewährte Verfahren etabliert, die weltweit verbreitet werden können. Dieser Erfolg ist erst der Anfang: Das Team verfeinert seine Modelle weiter und verbessert die Qualität der sprachlichen Fähigkeiten von Galaxy AI.

In der nächsten Folge werden wir nach Vietnam reisen, um zu sehen, wie Sprachdaten verbessert werden. Was ist außerdem erforderlich, um ein effektives KI-Modell zu trainieren?

Arabisch ist eine der mit Galaxy AI verfügbaren Sprachen und Dialekte und kann über die Einstellungen-App heruntergeladen werden. Galaxy AI-Sprachfunktionen wie Simultanübersetzung und Dolmetscher sind auf Galaxy-Geräten mit dem One UI 6.1-Update von Samsung verfügbar.[2].

[1] UNESCO, Welttag der arabischen Sprache 2023, https://www.unesco.org/en/welttag-der-arabischen-sprache

[2] One UI 6.1 wurde erstmals auf Geräten der Galaxy S24-Serie veröffentlicht und wird später auch auf anderen Galaxy-Geräten eingeführt, darunter S23, S23 FE, S22, S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Series Flip4, Z Flip3 und Tab S9 und Tab S8.

-