Dies ist Voice Engine, die KI von OpenAI, die in der Lage ist, Stimmen aus 15-Sekunden-Audioclips realistisch zu klonen

Dies ist Voice Engine, die KI von OpenAI, die in der Lage ist, Stimmen aus 15-Sekunden-Audioclips realistisch zu klonen
Dies ist Voice Engine, die KI von OpenAI, die in der Lage ist, Stimmen aus 15-Sekunden-Audioclips realistisch zu klonen
-

OpenAI hat Voice Engine vorgestellt, ein neues Modell der künstlichen Intelligenz (KI), das in der Lage ist, die Stimmen von Menschen mit einem 15-sekündigen Audiobeispiel zu klonen und mit dieser Stimme Textanweisungen in mehreren Sprachen zu lesen, mit natürlichen Ergebnissen.

Das amerikanische Technologieunternehmen entwickelt weiterhin neue KI-Tools und -Modelle, um sein Engagement fortzusetzen, „die technischen Grenzen zu verstehen und offen zu teilen, was mit KI möglich ist“, in diesem Fall im Bereich der synthetischen Stimmen.

In diesem Sinne hat OpenAI die Voice Engine vorgestellt, ein KI-Modell, das darauf ausgelegt ist, mithilfe von Texteingaben und einem einzigen 15-sekündigen Audiobeispiel personalisierte Stimmen zu erstellen, um „natürlich klingende Sprache zu erzeugen, die dem Originalsprecher sehr ähnlich ist“.

Wie das Unternehmen in einer Erklärung auf seiner Website erklärte, begann es Ende 2022 mit der Entwicklung dieses Modells. Derzeit handelt es sich bei der Voice Engine um ein kleines Modell, mit dem die in der API verfügbaren voreingestellten Stimmen betrieben werden -to-speech sowie ChatGPT Voice und Read Aloud.

Gleichzeitig haben sie dieses neue Modell jedoch auch mit einem Forschungsansatz entwickelt, um die potenziellen Einsatzmöglichkeiten dieser Technologie besser zu verstehen. Zu diesem Zweck haben sie eine Vorschau gestartet, auf die einige „vertrauenswürdige“ Partner Zugriff hatten.

Als Ergebnis dieser Vorschau hat OpenAI hervorgehoben, dass Voice Engine derzeit in der Lage ist, „emotionale und realistische“ Stimmen mit einem einzigen 15-sekündigen Audio-Sample der Originalstimme des Sprechers zu erzeugen, obwohl es sich um ein kleines Modell handelt.

In diesem Sinne haben die Ergebnisse dieser Tests gezeigt, dass Voice Engine verschiedene Anwendungen hat, beispielsweise die Bereitstellung von Leseunterstützung durch natürlich klingende Stimmen, sodass es eine größere Auswahl an Sprechern abbilden kann, als es voreingestellte Stimmen erlauben. Im akademischen Bereich können Sie beispielsweise in Echtzeit personalisierte Antworten generieren, um mit Studenten zu interagieren.

Es ist auch ein nützliches Modell für die Übersetzung von Inhalten wie Videos oder Podcasts, sodass Inhaltsersteller weltweit mehr Benutzer in mehreren Sprachen erreichen können, jedoch mit ihrer eigenen Stimme. Dies ist möglich, weil Voice Engine den Muttersprachakzent des ursprünglichen Sprechers beibehält. Wenn also ein französischer Benutzer, wie OpenAI veranschaulicht hat, Englisch spricht, generiert das Modell Übersetzungen und behält dabei den französischen Akzent im Audio bei.

Ebenso ist Voice Engine auch in Arbeitsumgebungen nützlich, von Produktmarketingaufgaben bis hin zu beispielsweise Verkaufsvorführungen, alles mit der Möglichkeit, Inhalte in jeder Sprache zu entwickeln.

In Bezug auf das Gesundheitsumfeld hat OpenAI darauf hingewiesen, dass das Modell therapeutische Anwendungen für Benutzer mit Erkrankungen bietet, die die Sprache beeinträchtigen. Zum Beispiel, um Benutzern das Erlernen des Sprechens zu erleichtern, wenn sie ihre Stimme wiedererlangen, oder um Menschen mit Behinderungen die Kommunikation mit nicht-roboterhaften Stimmen und in verschiedenen Sprachen zu ermöglichen.

Zu den Partnern mit Zugriff auf diese Voice Engine-Vorschau gehören das Edtech-Unternehmen Age of Learning, die visuelle Storytelling-Plattform HeyGen, der Hersteller von Gesundheitssoftware Dimagi und der Entwickler von KI-Kommunikations-Apps Livox.

SICHERHEIT GEGEN DIE VERWENDUNG SYNTHETISCHER STIMMEN

Trotz alledem hat OpenAI darüber nachgedacht, dass jede umfassende Implementierung synthetischer Sprache „mit Sprachauthentifizierungserfahrungen einhergehen muss“, und hat zu diesem Zweck eine Reihe von Sicherheitsmaßnahmen detailliert beschrieben, die derzeit mit Voice Engine verwendet werden.

Als Schutzmaßnahme hat OpenAI darauf hingewiesen, dass Partner, die diese Vorschauversion getestet haben, Nutzungsrichtlinien akzeptiert haben, die es verbieten, sich ohne Einwilligung oder Rechtsanspruch als eine andere Person oder Organisation auszugeben. Ebenso muss das Publikum „klar“ darauf hingewiesen werden, dass die Stimmen durch KI erzeugt werden.

Der ursprüngliche Sprecher muss seinerseits der Verwendung seiner Stimme ausdrücklich zustimmen und fügt hinzu, dass OpenAI es Entwicklern nicht erlaubt, Möglichkeiten für einzelne Benutzer zu schaffen, ihre eigenen Stimmen zu erstellen, wie ausführlich beschrieben.

„Wir sind uns bewusst, dass die Erstellung einer Rede, die den Stimmen der Menschen ähnelt, ernsthafte Risiken birgt“, gab das von Sam Altman geführte Unternehmen zu und kündigte gleichzeitig an, dass es mit internationalen Partnern, Medien-, Unterhaltungs- und Bildungsexperten zusammenarbeitet, um Ihr Feedback einzuholen auf das Modell, während sie es weiterentwickeln.

Vor diesem Hintergrund hat OpenAI betont, dass sie mit Voice Engine einen Dialog über den „verantwortungsvollen Einsatz synthetischer Stimmen“ beginnen wollen, sowie darüber, wie diese genutzt werden sollten und wie sich die Gesellschaft an diese neuen Fähigkeiten anpassen sollte. Auf dieser Grundlage und zusammen mit den Ergebnissen seiner Tests im kleinen Maßstab hat das Unternehmen angedeutet, dass es eine Entscheidung darüber treffen wird, ob und wie diese Technologie in Zukunft im großen Maßstab implementiert werden soll.

-

PREV Gerüchten zufolge werden das Galaxy Z Fold und das Galaxy Z Flip FE Exynos-Chips vorstellen
NEXT Der US-Kongress verbietet Mitarbeitern die Nutzung der Copilot AI-App von Microsoft. Von Reuters