Eine hohe Datenqualität bildet das Fundament für den Einsatz von KI – und eröffnet viele Anwendungsfälle in Unternehmen. Doch ohne gute Daten werden KI-Anwendungen nie ihr ganzes Potenzial entfalten und sind letztlich fehleranfälliger.
Dabei kann Künstliche Intelligenz selbst Data Governance beziehungsweise die Verbesserung der Stammdatenqualität in den Unternehmen unterstützen.
Erstaunlich ist, dass nur 63% der befragten Teilnehmer einer Studie zustimmen, dass ihr Unternehmen Daten als Asset betrachten (Quelle: DATAVERSITY Education, LLC). Vor allem, wenn man bedenkt, dass Unternehmensdaten in Zukunft die Grundlage für vielfältige KI-Anwendungen bilden werden.
Auch beim Thema Datenqualität zeigt sich ein eher ernüchterndes Bild: Nur 37 % der Unternehmen bewerten ihre bisherigen Investitionen zur Verbesserung der Datenqualität als erfolgreich (Quelle: Statista). Das legt nahe, dass zwar viel über Daten gesprochen wird – aber die Umsetzung in der Praxis oft auf der Strecke bleibt.
Eine aktuelle Umfrage aus dem Jahr 2024 zeigt deutlich: Die Erwartungen an den Einsatz von KI im Stammdatenumfeld sind hoch. Mehr als die Hälfte der befragten Anwender (54 %) wünschen sich konkrete Empfehlungen vom System, um die Datenqualität gezielt zu verbessern – etwa durch intelligente Analysen oder automatische Vorschläge. 70 % stufen die aktuelle Datenqualität im Unternehmen als ausbaufähig ein. Hier gelangen Sie zu den Ergebnissen der Studie, die wir gemeinsam mit dem IT-Onlinemagazin durchgeführt haben: Zur Studie
Diese Zahlen machen klar: Es besteht Handlungsbedarf. Klassische Werkzeuge für das Stammdatenmanagement sind inzwischen etabliert – moderne, KI-gestützte Ansätze für Master Data Governance können diese Werkzeuge sinnvoll ergänzen.
Machine Learning – der Werkzeugkasten für moderne Data Governance
Machine Learning (ML) ist der Werkzeugkasten, der etablierte Ansätze intelligent ergänzt. Dabei umfasst es eine Vielzahl an Lernverfahren, die auf unterschiedliche Datenlagen zugeschnitten sind:
Supervised Learning arbeitet mit gelabelten Daten und wird häufig für Klassifikationen und Regressionen eingesetzt – zum Beispiel zur Vorhersage von Attributwerten.
Unsupervised Learning erkennt Muster in strukturierten Daten, etwa durch Clustering oder Anomalie-Erkennung.
Reinforcement Learning eignet sich für dynamische Szenarien, bei denen ein System durch Feedback lernt.
Generative KI und Large Language Models (LLMs) nutzen hauptsächlich Methoden des Supervised und Self-Supervised Learning. In bestimmten Fällen wird zusätzlich Reinforcement Learning mit menschlichem Feedback eingesetzt.
Diese Modelle ermöglichen neue Anwendungsfelder – zum Beispiel für das Extrahieren von Attributen aus Freitexten oder die automatische Generierung von SQL-Abfragen für Datenanalysen.
Mit vier Faktoren zum Erfolg
Inhalt des Whitepapers
Aber was bringt Machine Learning nun genau für die Stammdatenpflege? Einige konkrete Anwendungsbeispiele finden Sie in der folgenden Auflistung:
Anwendungsfeld 95200_c0a0dd-c2> |
ML-Algorithmus / Technik 95200_06b6e1-5a> |
---|---|
Duplikat-Erkennung 95200_79d8cc-69> |
Record Linkage, Fuzzy Matching, Dedupe 95200_aeee57-03> |
Golden Record Bildung 95200_49406a-48> |
Attribute Merging (z. B. „Most complete value“) 95200_2b8ac1-39> |
Automatische Klassifikation von Materialien 95200_dedb4d-3c> |
Random Forest, Deep Learning 95200_e997ba-e6> |
Fehlende Werte auffüllen (Imputation) 95200_550653-93> |
Regressionsmodelle 95200_69de64-ac> |
Datenqualitätsregeln ableiten 95200_c3279f-a2> |
Apriori, FP-Growth 95200_1615ae-41> |
Platzhalterwerte erkennen 95200_f4dacc-88> |
Embeddings + Cosine Similarity 95200_a3f166-f2> |
Attributextraktion aus Texten 95200_7fb51d-8b> |
LLMs + RAG (Retrieval-Augmented Generation) 95200_a37a4e-4f> |
Texte mehrsprachig übersetzen 95200_b9868d-cf> |
LLMs 95200_874a54-96> |
Diese Verfahren helfen, Datenfehler frühzeitig zu erkennen, automatisiert zu korrigieren und Stammdatenprozesse skalierbarer zu machen.
Erzeugung von Regelwerken mittels KI
KI-Modelle sind in der Lage, Muster in großen Datenmengen zu erkennen. Bestehende Stammdaten bilden eine Ausgangsbasis zur Exploration von Regelwerken. Mit Regelwerken sind in diesem Kontext fachliche Regeln gemeint, die über eine technische Prüfung von Feldinhalten hinaus gehen. So werden beispielsweise in Materialstammdaten über Materialarten diverse Feldwerte vorbelegt.
Dynamische Wenn-Dann-Funktionen bilden komplexere Anwendungsfälle für Regeln ab. In diesen Regelwerken führen gewisse Ausgangsbedingungen zu konkreten Aktionen zur Pflege der Stammdaten. Die rein manuelle Erhebung und Erstellung dieser Regeln ist in der Praxis ein aufwändiger Prozess – und erfordert die Einbeziehung vieler Fachexperten.
Diese Regeln können mittels Assoziationsregel-Mining generiert werden.
Die Herausforderung: Die Algorithmen generieren oft sehr viele Regeln, von denen nicht alle relevant oder verständlich sind. Hier braucht es Filtermechanismen, nutzerfreundliche Oberflächen und kollaborative Tools.
Auch hierbei können LLMs mit Retrieval Augmented Generation (RAG) weiterhelfen und eine strukturierte Antwort liefern. Das heißt, die Anwendung gibt nur relevante Regeln, anhand statistischer Kennzahlen, zurück. Optional können diese direkt in die Stammdatenmanagement-Software überführt werden.
Natürlichsprachige Befehle zur Analyse von Stammdatenfehlern und deren Korrektur
Studien zeigen: Die wahren Experten für Datenqualität sind oft nicht die IT-Mitarbeiter, sondern Fachanwender („Data Stewards“) in den Fachabteilungen. Fachanwender bringen wertvolles Fachwissen mit – die technische Umsetzung von Regeln im System stellt jedoch oft eine Hürde dar.
Es braucht Lösungen, die auch ohne tiefgreifendes technisches Know-how nutzbar sind. So können die Anwender ihr Wissen direkt ins System einbringen.
Hier kommen LLMs ins Spiel:
- Die Nutzer geben Anforderungen in natürlicher Sprache ein.
- Das System generiert daraus ausführbare Analyseprofile (ähnlich einer SQL-Abfrage).
- Die Analyseprofile können dann in der Anwendung geprüft und ins System integriert werden.
- Die Analyseergebnisse werden anschließend zur direkten Korrektur der Daten in das Stammdatenmanagement-Tool überführt.
Kombiniert mit RAG-Techniken lassen sich auch komplexe SAP-Schemainformationen einbeziehen. Ein Anwendungsfall für intelligente, kontextbewusste Datenqualitätswerkzeuge.
Die definierten Analysen können auch dazu verwendet werden, einen Datenqualitätsscore zu ermitteln. Hierzu werden die fehlerhaften Datensätze in Relation zur Gesamtmenge der Daten gestellt. Mehrere Scores können dann zu einem Gesamtwert zur Messung der Datenqualität zusammengefügt werden.
Erkennung von Anomalien und fehlenden Werten
ML-Modelle lernen das „normale“ Muster Ihrer Stammdaten und entdecken Ausreißer, die auf Fehler hindeuten. Das können einzelne Feldwerte sein oder regelwidrige Kombinationen mehrerer Felder. Das kann zum Beispiel ein Produkt mit Maßeinheiten sein, die nicht zueinander passen.
Ein weiterer Mehrwert für die Datenqualität ist, Platzhalterwerte mit Machine Learning zu entdecken. Denn in Stammdatensätzen verstecken sich oft vermeintlich befüllte Felder mit Platzhaltern wie: „n/a“, „000000“, „–„, „k.A.“, „123“
So werden inkonsistente oder fehlerhafte Einträge sichtbar, die zuvor niemandem aufgefallen sind.
Fazit: Intelligente Stammdaten brauchen smarte Algorithmen
Machine Learning ist längst mehr als nur ein Forschungsthema – es wird zum praktischen Helfer in der Stammdatenpflege:
Wer seine Data Governance heute strategisch neu denkt und ML gezielt integriert, verbessert nicht nur die Datenqualität, sondern auch nachhaltig die digitale Innovationskraft des Unternehmens.
Selbstverständlich gibt es noch viele weitere Anwendungsfälle, wie etwa Harmonisierung oder selbst lernende Mappings. Sie möchten noch tiefer in das Thema eintauchen? Dann lesen Sie gerne den Blog-Beitrag meines Kollegen Martin Tempel.
Sie möchten Ihre Stammdaten im Unternehmen aktuell halten und die Qualität kontinuierlich verbessern? Mit den Dienstleistungspaketen für Datenharmonisierung und Datenmigration von FIS legen Sie den Grundstein für ein professionelles Stammdatenmanagement.