Das neue Wettrüsten der Technologie: Der milliardenschwere Kampf um den Aufbau von KI

Entdecken Sie, wie Unternehmen KI verantwortungsvoll in die Produktion integrieren. Bei dieser Veranstaltung in SF, die nur auf Einladung stattfindet, wird die Schnittstelle zwischen Technologie und Wirtschaft erkundet. Erfahren Sie hier, wie Sie teilnehmen können.

Während der Tests schien ein kürzlich veröffentlichtes Large Language Model (LLM) zu erkennen, dass es evaluiert wurde, und kommentierte die Relevanz der von ihm verarbeiteten Informationen. Dies führte zu Spekulationen, dass diese Reaktion ein Beispiel für Metakognition sein könnte, ein Verständnis der eigenen Denkprozesse. Während dieses aktuelle LLM Diskussionen über das Potenzial von KI zur Selbstwahrnehmung angestoßen hat, liegt die wahre Geschichte in der schieren Leistungsfähigkeit des Modells und liefert ein Beispiel für neue Fähigkeiten, die mit zunehmender Größe von LLMs entstehen.

Damit einhergehend entwickeln sich auch die neuen Fähigkeiten und die Kosten, die inzwischen astronomische Ausmaße erreichen. So wie sich die Halbleiterindustrie um eine Handvoll Unternehmen konsolidiert hat, die sich die neuesten Multimilliarden-Dollar-Chipfabriken leisten können, könnte der KI-Bereich bald nur noch von den größten Technologiegiganten – und ihren Partnern – dominiert werden, die in der Lage sind, dies zu bezahlen Rechnung für die Entwicklung der neuesten Foundation-LLM-Modelle wie GPT-4 und Claude 3.

Die Kosten für das Training dieser neuesten Modelle, deren Fähigkeiten die menschliche Leistung erreichen und in einigen Fällen sogar übertreffen, steigen sprunghaft an. Tatsächlich liegen die mit den neuesten Modellen verbundenen Schulungskosten bei fast 200 Millionen US-Dollar und drohen die Branchenlandschaft zu verändern.

Quelle: https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance

Wenn dieses exponentielle Leistungswachstum anhält, werden nicht nur die KI-Fähigkeiten rasch zunehmen, sondern auch die exponentiellen Kosten. Anthropic gehört zu den führenden Anbietern von Sprachmodellen und Chatbots. Zumindest wie Benchmark-Testergebnisse zeigen, ist ihr Flaggschiff Claude 3 derzeit wohl der Spitzenreiter in Sachen Leistung. Wie GPT-4 gilt es als Grundlagenmodell, das auf einer vielfältigen und umfangreichen Datenpalette vorab trainiert wird, um ein umfassendes Verständnis von Sprache, Konzepten und Mustern zu entwickeln.

VB-Ereignis

Die AI Impact Tour – San Francisco

Begleiten Sie uns bei der nächsten Station der AI Impact Tour von VB in San Francisco, während wir uns durch die Komplexität einer verantwortungsvollen Integration von KI in Unternehmen bewegen. Verpassen Sie nicht die Chance, Einblicke von Branchenexperten zu gewinnen, sich mit gleichgesinnten Innovatoren zu vernetzen und anhand von Kundenerlebnissen die Zukunft von GenAI zu erkunden und Geschäftsprozesse zu optimieren.

Eine Einladung anfordern

LLM-Benchmark-Leistung, März 2024. Quelle: https://www.anthropic.com/news/claude-3-family

Der Mitbegründer und CEO des Unternehmens, Dario Amodei, diskutierte kürzlich die Kosten für die Schulung dieser Modelle und bezifferte die Schulung von Claude 3 auf etwa 100 Millionen US-Dollar. Er fügte hinzu, dass die Modelle, die sich derzeit in der Ausbildung befinden und später im Jahr 2024 oder Anfang 2025 eingeführt werden, „eher eine Milliarde Dollar kosten“.

*Die Kosten für die LLM-Schulung steigen mit der Komplexität des Modells. Quelle:* *Stanford 2024 AI Index Report*

Um den Grund für diese steigenden Kosten zu verstehen, müssen wir uns die ständig zunehmende Komplexität dieser Modelle ansehen. Jede neue Generation verfügt über eine größere Anzahl von Parametern, die ein komplexeres Verständnis und eine komplexere Abfrageausführung, mehr Trainingsdaten und größere Mengen an benötigten Rechenressourcen ermöglichen. Amodei geht davon aus, dass die Kosten für die Ausbildung der neuesten Modelle im Jahr 2025 oder 2026 5 bis 10 Milliarden US-Dollar betragen werden. Dadurch werden alle außer den größten Unternehmen und deren Partner daran gehindert, diese grundlegenden LLMs aufzubauen.

KI folgt der Halbleiterindustrie

Damit geht die KI-Branche einen ähnlichen Weg wie die Halbleiterindustrie. In der zweiten Hälfte des 20. Jahrhunderts entwickelten und bauten die meisten Halbleiterunternehmen ihre eigenen Chips. Da die Branche dem Mooreschen Gesetz folgte – dem Konzept, das die exponentielle Verbesserung der Chipleistung beschreibt – stiegen die Kosten für jede neue Generation von Geräten und Produktionsanlagen zur Herstellung der Halbleiter entsprechend an.

Aus diesem Grund entschieden sich viele Unternehmen schließlich dafür, die Herstellung ihrer Produkte auszulagern. AMD ist ein gutes Beispiel. Das Unternehmen hatte seine führenden Halbleiter selbst hergestellt, beschloss jedoch 2008, seine Produktionsstätten, auch Fabs genannt, auszugliedern, um die Kosten zu senken.

Aufgrund der erforderlichen Kapitalkosten gibt es heute nur drei Halbleiterunternehmen, die hochmoderne Fabriken unter Verwendung der neuesten Prozessknotentechnologien bauen: TSMC, Intel und Samsung. TSMC sagte kürzlich, dass der Bau einer neuen Fabrik zur Herstellung hochmoderner Halbleiter etwa 20 Milliarden US-Dollar kosten würde. Viele Unternehmen, darunter Apple, Nvidia, Qualcomm und AMD, lagern ihre Produktfertigung in diese Fabriken aus.

Auswirkungen auf die KI – LLMs und SLMs

Die Auswirkungen dieser erhöhten Kosten variieren je nach KI-Landschaft, da nicht jede Anwendung das neueste und leistungsstärkste LLM erfordert. Das gilt auch für Halbleiter. Beispielsweise wird die Zentraleinheit (CPU) eines Computers häufig mit der neuesten High-End-Halbleitertechnologie hergestellt. Allerdings ist er von anderen Chips für Speicher oder Netzwerk umgeben, die langsamer laufen, sodass sie nicht mit der schnellsten oder leistungsstärksten Technologie gebaut werden müssen.

Die KI-Analogie sind hier die vielen kleineren LLM-Alternativen, die aufgetaucht sind, wie Mistral und Llama3, die mehrere Milliarden Parameter bieten, statt der mehr als einer Billion, von denen angenommen wird, dass sie Teil von GPT-4 sind. Microsoft hat kürzlich sein eigenes Small Language Model (SLM) veröffentlicht, den Phi-3. Wie The Verge berichtet, enthält es 3,8 Milliarden Parameter und wird auf einem im Vergleich kleineren Datensatz trainiert LLMs wie GPT-4.

Die kleinere Größe und der kleinere Trainingsdatensatz tragen dazu bei, die Kosten einzudämmen, auch wenn sie möglicherweise nicht das gleiche Leistungsniveau bieten wie die größeren Modelle. Auf diese Weise ähneln diese SLMs den Chips in einem Computer, die die CPU unterstützen.

Für bestimmte Anwendungen können jedoch kleinere Modelle geeignet sein, insbesondere für solche, bei denen kein umfassendes Wissen über mehrere Datendomänen erforderlich ist. Beispielsweise kann ein SLM zur Feinabstimmung unternehmensspezifischer Daten und Fachsprache verwendet werden, um genaue und personalisierte Antworten auf Kundenanfragen bereitzustellen. Oder man könnte anhand von Daten für eine bestimmte Branche oder ein bestimmtes Marktsegment geschult werden oder dazu eingesetzt werden, umfassende und maßgeschneiderte Forschungsberichte und Antworten auf Fragen zu erstellen.

Wie Rowan Curran, ein leitender KI-Analyst bei Forrester Research, kürzlich über die verschiedenen Sprachmodelloptionen sagte: „Man braucht nicht immer einen Sportwagen. Manchmal braucht man einen Minivan oder einen Pickup. „Es wird keine breite Modellklasse geben, die jeder für alle Anwendungsfälle nutzt.“

Nur wenige Spieler erhöhen das Risiko

So wie steigende Kosten in der Vergangenheit die Zahl der Unternehmen, die in der Lage waren, High-End-Halbleiter zu bauen, eingeschränkt haben, prägen ähnliche wirtschaftliche Zwänge nun die Landschaft der Entwicklung großer Sprachmodelle. Diese steigenden Kosten drohen, die KI-Innovation auf einige wenige dominante Akteure zu beschränken, was möglicherweise umfassendere kreative Lösungen erstickt und die Vielfalt in diesem Bereich verringert. Hohe Eintrittsbarrieren könnten Start-ups und kleinere Unternehmen daran hindern, zur KI-Entwicklung beizutragen, wodurch das Spektrum an Ideen und Anwendungen eingeschränkt wird.

Um diesem Trend entgegenzuwirken, muss die Branche kleinere, spezialisierte Sprachmodelle unterstützen, die wie wesentliche Komponenten in einem umfassenderen System wichtige und effiziente Funktionen für verschiedene Nischenanwendungen bereitstellen. Die Förderung von Open-Source-Projekten und Kooperationen ist für die Demokratisierung der KI-Entwicklung von entscheidender Bedeutung und ermöglicht es einem größeren Kreis von Teilnehmern, Einfluss auf diese sich entwickelnde Technologie zu nehmen. Indem wir jetzt ein integratives Umfeld fördern, können wir sicherstellen, dass die Zukunft der KI den Nutzen für alle globalen Gemeinschaften maximiert und sich durch breiten Zugang und gleichberechtigte Innovationsmöglichkeiten auszeichnet.

Gary Grossman ist EVP für Technologiepraxis bei Edelman und globaler Leiter des Edelman AI Center of Excellence.

DataDecisionMakers

Willkommen in der VentureBeat-Community!

Bei DataDecisionMakers können Experten, einschließlich der Techniker, die mit Daten arbeiten, datenbezogene Erkenntnisse und Innovationen austauschen.

Wenn Sie mehr über innovative Ideen und aktuelle Informationen, Best Practices und die Zukunft von Daten und Datentechnologie erfahren möchten, besuchen Sie uns bei DataDecisionMakers.

Vielleicht erwägen Sie sogar, einen eigenen Artikel beizutragen!

Lesen Sie mehr von DataDecisionMakers