„Schmutzige Daten“ behindern die Landung von Algorithmen in Unternehmen

Die Datenqualität ist ein grundlegendes Thema für die korrekte Ausführung von Anwendungen der generativen künstlichen Intelligenz (KI). „Ihre künstliche Intelligenz ist nur so gut wie die Qualität ihrer Daten“, sagt Raúl Bartolomé, Geschäftsführer von Insights & Data bei Capgemini Spanien, und zitiert damit einen Satz, der in der Branche in letzter Zeit häufig wiederholt wurde. „Wenn die Daten nicht gut sind, wird die Antwort nicht gut sein“, fügt Bartolomé hinzu und betont, wie wichtig es ist, über qualitativ hochwertige Informationen zu verfügen, damit die KI ordnungsgemäß funktioniert, d. ist eine Aufgabe, der Organisationen immer mehr Bedeutung beimessen.

„‚Schmutzige Daten‘ sind veraltete, fehlerhafte, doppelte oder unvollständige Informationen.“ Für Unternehmen kann es eine Herausforderung sein, alle empfangenen Daten richtig zu verwalten“, sagt Juan Luis Moreno, Partner und Chief Innovation Officer bei The Valley. Der schmutzige Daten Sie können aus mehreren Gründen auftreten. Es kann sich um falsch eingegebene Informationen handeln, es kann sich um eine fehlerhafte Berechnung handeln oder es kann sogar daran liegen, dass sie aus zwei unterschiedlichen Quellen stammen, sagt Bartolomé von Capgemini.

Innerhalb von Organisationen kann es manchmal vorkommen, dass dieselben Daten unterschiedlich in zwei unterschiedlichen Datenbanken gespeichert werden. Beispielsweise kann die Marketingabteilung einen Firmennamen mit dem Akronym „SL“ am Ende haben, während die Vertriebsabteilung als „SL“ gespeichert ist. SL“.

Einer der ersten Schritte zur Lösung dieser Art von Problem besteht darin, es richtig zu verwalten und zu normalisieren, d. h. zu definieren, was die Daten messen, wie sie in die Datenbank eingegeben werden, wie sie berechnet werden, wer sie aufzeichnen muss und Wer ist für die Verwaltung dieser Informationen im Unternehmen verantwortlich? Es ist notwendig, in technologische Werkzeuge zu investieren Homogenisieren Sie die Daten und innerhalb der Organisation eine Kultur zu etablieren, die sich auf die Qualität konzentriert, erklärt Bartolomé von Capgemini.

„Wenn KI-Modelle mit Datensätzen trainiert werden, die Fehler, Verzerrungen oder falsche Informationen enthalten, ist es wahrscheinlich, dass sie ungenaue Ergebnisse oder ‚Halluzinationen‘ erzeugen.“ Diese können sich in falschen Antworten, voreingenommenen Schlussfolgerungen oder ungenauen Vorhersagen äußern“, sagt Moreno von The Valley.

Dies ist eine der schwerwiegendsten Folgen der Einführung fehlerhafter Daten in die generative KI, nämlich dass das System Sie „beunruhigen“ kann. Diese „Halluzinationen“ treten auf, wenn die KI Antworten auf der Grundlage falscher Informationen erfindet. Generative KI reagiert immer mit einem gewissen Maß an Selbstvertrauen, aber wenn ihr falsche Informationen gegeben werden, ist es wahrscheinlich, dass sie falsche Antworten generiert, die wahrheitsgetreu erscheinen. Dabei handelt es sich um sogenannte „Halluzinationen“ der künstlichen Intelligenz, wie Bartolomé erklärt.

«Datenqualität ist ein kontinuierlicher Prozess. Probleme im Zusammenhang mit minderwertigen Daten kommen häufig vor, ihre Lösung kann komplex sein und einen großen Aufwand erfordern, wenn sie nicht rechtzeitig behoben werden“, sagt David Hurtado, Innovationsdirektor bei Microsoft in Spanien. Hurtado ist davon überzeugt, dass es eine Reihe von Praktiken gibt, die zu einer mangelhaften Datenverwaltung führen können, beispielsweise die Implementierung fehlerhafter Datenverwaltungsverfahren, die Nichtaktualisierung von Informationen, eine unzureichende Kategorisierung oder fehlende Investitionen in eine angemessene technologische Infrastruktur.

Investitionen in Technologie sind von entscheidender Bedeutung, aber auch die Verbesserung der Unternehmenskultur

Es gibt auch automatisierte Lösungen, wie sie beispielsweise die Firma Datarmony anbietet, die versuchen, Fehler in Daten zu korrigieren und zu identifizieren, bevor sie zu ernsthaften Problemen führen. Das Ziel dieser Lösungen besteht darin, die Datenerfassungsphase zu verbessern, damit sie korrekt gespeichert werden. „Datenqualität ist ein Thema, dessen Bedeutung uns bewusst ist, wenn wir Umsatz oder Kunden verlieren“, erklärt Enric Quintero, CEO des Unternehmens.

Derzeit stehen viele Unternehmen vor Datenverwaltungsproblemen, da sie seit dem Aufkommen von „Big Data“ damit begonnen haben, alle Arten von Informationen über ihr Unternehmen zu speichern, ohne eine Strategie zu haben und ohne zu wissen, was sie mit diesen Daten machen würden. „Gleichzeitig traten große ‚Cloud-Anbieter‘ (AWS, Azure und Google) auf, die wirtschaftlich sinnvoll große Speicherkapazitäten anboten.“ „Mitten im KI-Wirbelsturm versuchen Unternehmen derzeit erfolglos, diese Daten für KI-Algorithmen zu nutzen“, sagt Tony Rodríguez, Leiter Datenstrategie und Datenmanagement bei NTT Data.

Für Rodríguez bestand ein Problem darin, dass diese Speicherung ohne jegliche Data-Governance-Strategie erfolgte, das heißt, die Informationen wurden „roh“ gespeichert, ohne dass eine Qualitätsbehandlung oder Katalogisierung dessen erfolgte, was diese Daten für das Unternehmen darstellen. Angesichts dieser Situation implementieren viele Unternehmen Strategien, um die ihnen vorliegenden Informationen angemessen zu verarbeiten und generative KI-Tools einsetzen zu können.

Der NTT Data-Experte ist davon überzeugt, dass Unternehmen mit der Arbeit an einer guten Data-Governance-Strategie beginnen müssen, die es ihnen ermöglicht, über ein Datenglossar, Tools zur Messung der Qualität der Informationen und Behebungspläne zur Reaktion auf Fehler zu verfügen. Von Microsoft meint Hurtado, dass andere wirksame Strategien darin bestehen, klare Qualitätsregeln festzulegen oder die Informationen regelmäßig zu bereinigen.

„Ich möchte nicht umhin, auf die grundlegende Bedeutung der ausgewogenen Kombination zweier Elemente hinzuweisen: Menschen und Werkzeuge.“ Um die Datenqualität zu verbessern, sind sowohl Experten als auch technische Ressourcen erforderlich, um die Aufgabe erfüllen zu können“, sagt der Microsoft-Experte.

„Ohne klare Standards können Daten inkonsistent und schwer zu interpretieren sein. Auch die manuelle Dateneingabe stellt eine Schwachstelle dar, da sie das Risiko menschlicher Fehler wie falsche Eingaben oder das Auslassen wichtiger Informationen erhöht. Ein weiterer häufiger Fehler ist die mangelnde Datenvalidierung, die dazu führen kann, dass falsche Informationen in Datenbanken aufgenommen werden“, sagt Moreno von The Valley.

Enrique Serrano, Präsident der KI- und Big-Data-Kommission bei Ametic, ist der Ansicht, dass das Datenmanagement in spanischen Unternehmen im Jahr 2018 begann, als mit der Gründung von Bereichen für Datenwissenschaftler begonnen wurde, um die ersten fortgeschrittenen Analyseprojekte zu starten. Nach den neuesten Daten des National Observatory of Information Technology and Society für 2023, Nur 11,8 % der Unternehmen mit mehr als 10 Mitarbeitern nutzen bereits KI in ihren Prozessen„was ein sehr niedriger Indikator ist, wenn man bedenkt, dass es allen Unternehmen, ob groß oder klein, derzeit leicht fällt, Marktlösungen in Rekordzeit und mit auf jeden zugeschnittenen Budgets einzuführen: offene Lösungen, Pay-per-Use oder vollständige Bezahlung des Endprodukts“, Serrano.

Serrano bekräftigt, dass das spanische Unternehmen seine Fähigkeiten im Bereich KI und „Big Data“-Lösungen stärkt, es aber noch ein langer Weg vor sich ist, da es sich noch am Anfang dieser Technologie befindet. „Wir müssen disruptiver sein und die Angst verlieren, einige Geschäftsprozesse radikal zu verändern, indem wir generative KI einführen und Teile davon automatisieren.“ „Die von uns verwendeten Prognosen zeigen ein erwartetes Wachstum von mehr als 50 % beim Einsatz von KI durch Organisationen in den kommenden Monaten“, kommentiert er.

Related posts