OpenAI präsentiert GPT-4o, ein leistungsfähigeres Modell mit Text-, Audio- und Videoantworten

OpenAI hat ein neues Modell der generativen künstlichen Intelligenz vorgestellt, das er nannte GPT-4odas „o“ von „Omni“ in Bezug auf ihre Fähigkeiten zur Handhabung und Verwaltung Text, Sprache und Video in Echtzeit. Es handelt sich um ein Modell mit verbesserten Funktionalitäten sowie höherer Geschwindigkeit und Leistung, das das Unternehmen als einen Schritt in Richtung a versteht Menschliche interaktion mit dem Computer viel natürlicher.

Wie das von Sam Altman geleitete Unternehmen erklärt, akzeptiert GPT-4o alle Informationen als Eingabe Kombination aus Text, Audio und Bild und generiert eine beliebige Kombination von Ausgaben in denselben Formaten. Wie im Detail beschrieben, kann das Modell in nur 232 Millisekunden auf Audioeingaben reagieren, ähnlich der menschlichen Reaktionszeit in einem Gespräch; und ist im Vergleich zu bestehenden Modellen insbesondere in Bezug auf Bild- und Audioverständnis besser.

GPT-4o verspricht eine deutliche Verbesserung des Erlebnisses mit ChatGPT, dem Chatbot von OpenAI, der bisher die Möglichkeit bot, zu interagieren und Sprach- und Textantworten zu erhalten. Aber mit dem neuen Modell kommt auch Video hinzu, welches wird die ChatGPT-App als virtuellen Assistenten weiterentwickeln. Und das hat das Unternehmen in einer Reihe von Videos zum Ausdruck gebracht, in denen Manager gezeigt werden, wie sie über Mobiltelefone und in verschiedenen Situationen mit dem Modell interagieren.

In den Videos können Sie sehen, was das Modell kann die Umgebung identifizieren, singen, flüstern, in Echtzeit übersetzen, mathematische Probleme lösen, sarkastisch sein und andere Emotionen ausdrücken unter anderem durch Intonation oder Gesang. GPT-4o ist mehrsprachig, mit der Möglichkeit, 50 verschiedene Sprachen zu verarbeiten.

Neben der Verbesserung der Fähigkeiten des Modells hat sich das Unternehmen nach eigenen Angaben auf Folgendes konzentriert Interaktionserlebnis um es einfacher und natürlicher zu gestalten und es Benutzern zu ermöglichen, sich auf die Zusammenarbeit mit dem Tool und nicht nur auf die Benutzeroberfläche zu konzentrieren. Deshalb betrachten sie das neue Modell als einen wichtigen Schritt in Sachen Benutzerfreundlichkeit.

Es ist mehr, Sam Altman Der CEO des Unternehmens hat einen rätselhaften Tweet veröffentlicht, in dem nur „sie“ steht. Viele Nutzer interpretieren dies als Anspielung auf den Film von Spike Jonze mit Joaquin Phoenix in der Hauptrolle, in dem seine Figur mit einem digitalen Assistenten interagiert und sich in ihn verliebt, was das Unternehmen nun mit GPT-4o angeht.

Das Unternehmen gibt jedoch an, dass dies der Fall sei Optimierung der Modellfähigkeiten. „Mit GPT-4o trainieren wir ein einziges neues Modell durchgehend über Text, Bild und Audio hinweg, was bedeutet, dass alle Ein- und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden.“, erklären sie von OpenAI. „Da GPT-4o unser erstes Modell ist, das alle diese Modalitäten kombiniert, kratzen wir noch nur an der Oberfläche, um zu erkunden, was das Modell leisten kann und welche Grenzen es hat.“.

Das Unternehmen erklärt auch, dass dies der Fall sei ein sicheres Modelldas unter anderem dem Training von Datenfiltertechniken und der Verfeinerung des Modellverhaltens durch anschließendes Training sowie dem Aufbau von Sicherheitsbarrieren in den Sprachausgaben unterzogen wurde.
Darüber hinaus wurden während des gesamten Modelltrainingsprozesses menschliche und automatisierte Bewertungen durchgeführt. und wurde externen Experten für Sozialpsychologie, Voreingenommenheit und Gerechtigkeit sowie Fehlinformationen unterzogen Risiken identifizieren.

Allerdings implementiert das Unternehmen derzeit GPT-4o-Text- und Bildfunktionen in ChatGPT für Benutzer mit kostenlose Modalität o Plus mit erweitertem Nachrichtenlimit. In den nächsten Wochen wird an der technischen Infrastruktur, Benutzerfreundlichkeit und Sicherheit gearbeitet, die für die Einführung der anderen Modalitäten erforderlich sind, um diese zunächst ausgewählten Benutzern zur Verfügung zu stellen.

Das Gleiche wird passieren Entwickler Sie können bereits über die API auf die Text- und Bildfunktionen von GPT-4o zugreifen, müssen jedoch einige Wochen warten, bis sie auf Audio und Video zugreifen können.

Related posts