Mit strategischem Training und gefilterten synthetischen Daten bringt Microsoft kleinen Modellen das Denken bei

Mit strategischem Training und gefilterten synthetischen Daten bringt Microsoft kleinen Modellen das Denken bei
Mit strategischem Training und gefilterten synthetischen Daten bringt Microsoft kleinen Modellen das Denken bei
-

Microsoft hat Orca 2 vorgestellt, ein kleines Sprachmodell, das Denkfähigkeiten erreicht, die mit denen großer Modelle vergleichbar sind, und das Ergebnis eines strategischen Trainings mit personalisierten synthetischen Daten ist. Das Technologieunternehmen arbeitet an Möglichkeiten, den kleinsten Sprachmodellen das Denken beizubringen, die 10 Milliarden Parameter oder weniger haben. Dies geschah erstmals mit Orca, einem im Juni eingeführten Modell mit 13 Milliarden Parametern, das den Argumentationsprozess großer Modelle nachahmte. Dies geschieht nun mit der nächsten Iteration, Orca 2, die mit 7 Milliarden Parametern oder 13 Milliarden verfügbar ist. Es basiert auf dem Llama 2-Basismodell – das Microsoft mit Meta entwickelt hat – und basiert auf benutzerdefinierten synthetischen Daten. Große Modelle wie GPT-4 oder PaLm zeigen ihre Fähigkeit zum Denken, indem sie „komplexe Fragen beantworten, Erklärungen generieren und sogar Probleme lösen, die mehrstufiges Denken erfordern“; eine Fähigkeit, die laut Microsoft „in kleineren Sprachmodellen nicht beobachtet wurde“, wie es in seinem Forschungsblog heißt. Das Technologieunternehmen hat Orca 2 mit dem Ansatz trainiert, dass die Lösungsstrategien großer Modelle möglicherweise nicht die beste Option für ein kleineres Modell sind. Aus diesem Grund nutzte er einen „sorgfältig gefilterten“ synthetischen Datensatz, mit dem er Orca 2 verschiedene Argumentationstechniken und unterschiedliche Strategien zur Lösung unterschiedlicher Aufgaben beibrachte. Nach der Bewertung der Leistung dieses Modells bei komplexen Aufgaben stellt Microsoft fest, dass „Orca 2 Modelle ähnlicher Größe (einschließlich des ursprünglichen Orca-Modells) deutlich übertrifft und ähnliche oder bessere Leistungsniveaus erreicht als Modelle, die fünf bis zehn Mal größer sind.“ „Da größere Modelle weiterhin hervorragende Leistungen erbringen, stellt unsere Arbeit mit Orca 2 einen bedeutenden Schritt bei der Diversifizierung der Anwendungen und Implementierungsoptionen von Sprachmodellen dar“, schließt er.

-

-

PREV Sie schufen ein neues Paradigma in der Videobearbeitung auf Basis von KI und sammelten 55 Millionen US-Dollar
NEXT Redmi bringt eine spektakuläre K70-Lamborghini-Edition auf den Markt