Machine Learning: Mit KI die Stammdaten-Qualität verbessern

Eine hohe Datenqualität bildet das Fundament für den Einsatz von KI – und eröffnet viele Anwendungsfälle in Unternehmen. Doch ohne gute Daten werden KI-Anwendungen nie ihr ganzes Potenzial entfalten und sind letztlich fehleranfälliger.

Dabei kann Künstliche Intelligenz selbst Data Governance beziehungsweise die Verbesserung der Stammdatenqualität in den Unternehmen unterstützen.

Erstaunlich ist, dass nur 63% der befragten Teilnehmer einer Studie zustimmen, dass ihr Unternehmen Daten als Asset betrachten (Quelle: DATAVERSITY Education, LLC). Vor allem, wenn man bedenkt, dass Unternehmensdaten in Zukunft die Grundlage für vielfältige KI-Anwendungen bilden werden.

Auch beim Thema Datenqualität zeigt sich ein eher ernüchterndes Bild: Nur 37 % der Unternehmen bewerten ihre bisherigen Investitionen zur Verbesserung der Datenqualität als erfolgreich (Quelle: Statista). Das legt nahe, dass zwar viel über Daten gesprochen wird – aber die Umsetzung in der Praxis oft auf der Strecke bleibt.

Eine aktuelle Umfrage aus dem Jahr 2024 zeigt deutlich: Die Erwartungen an den Einsatz von KI im Stammdatenumfeld sind hoch. Mehr als die Hälfte der befragten Anwender (54 %) wünschen sich konkrete Empfehlungen vom System, um die Datenqualität gezielt zu verbessern – etwa durch intelligente Analysen oder automatische Vorschläge. 70 % stufen die aktuelle Datenqualität im Unternehmen als ausbaufähig ein. Hier gelangen Sie zu den Ergebnissen der Studie, die wir gemeinsam mit dem IT-Onlinemagazin durchgeführt haben: Zur Studie

Diese Zahlen machen klar: Es besteht Handlungsbedarf. Klassische Werkzeuge für das Stammdatenmanagement sind inzwischen etabliert – moderne, KI-gestützte Ansätze für Master Data Governance können diese Werkzeuge sinnvoll ergänzen.

Machine Learning – der Werkzeugkasten für moderne Data Governance

Machine Learning (ML) ist der Werkzeugkasten, der etablierte Ansätze intelligent ergänzt. Dabei umfasst es eine Vielzahl an Lernverfahren, die auf unterschiedliche Datenlagen zugeschnitten sind:

Supervised Learning

Supervised Learning arbeitet mit gelabelten Daten und wird häufig für Klassifikationen und Regressionen eingesetzt – zum Beispiel zur Vorhersage von Attributwerten.

Unsupervised Learning

Unsupervised Learning erkennt Muster in strukturierten Daten, etwa durch Clustering oder Anomalie-Erkennung.

Reinforcement Learning

Reinforcement Learning eignet sich für dynamische Szenarien, bei denen ein System durch Feedback lernt.

Generative KI und Large Language Models (LLMs)

Generative KI und Large Language Models (LLMs) nutzen hauptsächlich Methoden des Supervised und Self-Supervised Learning. In bestimmten Fällen wird zusätzlich Reinforcement Learning mit menschlichem Feedback eingesetzt.

Diese Modelle ermöglichen neue Anwendungsfelder – zum Beispiel für das Extrahieren von Attributen aus Freitexten oder die automatische Generierung von SQL-Abfragen für Datenanalysen.

FIS/mpm | SAP Stammdaten als Herzstück Ihrer Prozesse | Mehr erfahren

Mit vier Faktoren zum Erfolg

So gestalten Sie effiziente Prozesse durch strukturierte Stammdaten.

Inhalt des Whitepapers

Wie kann ein effizientes Stammdatenmanagement aufgebaut werden?
Wie werden Mitarbeiter eingebunden und Zuständigkeiten geregelt?
Wie kann die Datenqualität im Auge behalten werden?
Wie erleichtern Software-Tools die Stammdatenpflege?
Wie kann die Stammdatenqualität dauerhaft bewahrt werden?
Warum sind gute Stammdaten die Voraussetzung für die Digitalisierung?

Aber was bringt Machine Learning nun genau für die Stammdatenpflege? Einige konkrete Anwendungsbeispiele finden Sie in der folgenden Auflistung:

Anwendungsfeld	ML-Algorithmus / Technik
Duplikat-Erkennung	Record Linkage, Fuzzy Matching, Dedupe
Golden Record Bildung	Attribute Merging (z. B. „Most complete value“)
Automatische Klassifikation von Materialien	Random Forest, Deep Learning
Fehlende Werte auffüllen (Imputation)	Regressionsmodelle
Datenqualitätsregeln ableiten	Apriori, FP-Growth
Platzhalterwerte erkennen	Embeddings + Cosine Similarity
Attributextraktion aus Texten	LLMs + RAG (Retrieval-Augmented Generation)
Texte mehrsprachig übersetzen	LLMs

Diese Verfahren helfen, Datenfehler frühzeitig zu erkennen, automatisiert zu korrigieren und Stammdatenprozesse skalierbarer zu machen.

Erzeugung von Regelwerken mittels KI

KI-Modelle sind in der Lage, Muster in großen Datenmengen zu erkennen. Bestehende Stammdaten bilden eine Ausgangsbasis zur Exploration von Regelwerken. Mit Regelwerken sind in diesem Kontext fachliche Regeln gemeint, die über eine technische Prüfung von Feldinhalten hinaus gehen. So werden beispielsweise in Materialstammdaten über Materialarten diverse Feldwerte vorbelegt.

Dynamische Wenn-Dann-Funktionen bilden komplexere Anwendungsfälle für Regeln ab. In diesen Regelwerken führen gewisse Ausgangsbedingungen zu konkreten Aktionen zur Pflege der Stammdaten. Die rein manuelle Erhebung und Erstellung dieser Regeln ist in der Praxis ein aufwändiger Prozess – und erfordert die Einbeziehung vieler Fachexperten.

Diese Regeln können mittels Assoziationsregel-Mining generiert werden.

Die Herausforderung: Die Algorithmen generieren oft sehr viele Regeln, von denen nicht alle relevant oder verständlich sind. Hier braucht es Filtermechanismen, nutzerfreundliche Oberflächen und kollaborative Tools.

Auch hierbei können LLMs mit Retrieval Augmented Generation (RAG) weiterhelfen und eine strukturierte Antwort liefern. Das heißt, die Anwendung gibt nur relevante Regeln, anhand statistischer Kennzahlen, zurück. Optional können diese direkt in die Stammdatenmanagement-Software überführt werden.

Natürlichsprachige Befehle zur Analyse von Stammdatenfehlern und deren Korrektur

Studien zeigen: Die wahren Experten für Datenqualität sind oft nicht die IT-Mitarbeiter, sondern Fachanwender („Data Stewards“) in den Fachabteilungen. Fachanwender bringen wertvolles Fachwissen mit – die technische Umsetzung von Regeln im System stellt jedoch oft eine Hürde dar.

Es braucht Lösungen, die auch ohne tiefgreifendes technisches Know-how nutzbar sind. So können die Anwender ihr Wissen direkt ins System einbringen.

Hier kommen LLMs ins Spiel:

Die Nutzer geben Anforderungen in natürlicher Sprache ein.
Das System generiert daraus ausführbare Analyseprofile (ähnlich einer SQL-Abfrage).
Die Analyseprofile können dann in der Anwendung geprüft und ins System integriert werden.
Die Analyseergebnisse werden anschließend zur direkten Korrektur der Daten in das Stammdatenmanagement-Tool überführt.

Kombiniert mit RAG-Techniken lassen sich auch komplexe SAP-Schemainformationen einbeziehen. Ein Anwendungsfall für intelligente, kontextbewusste Datenqualitätswerkzeuge.

Die definierten Analysen können auch dazu verwendet werden, einen Datenqualitätsscore zu ermitteln. Hierzu werden die fehlerhaften Datensätze in Relation zur Gesamtmenge der Daten gestellt. Mehrere Scores können dann zu einem Gesamtwert zur Messung der Datenqualität zusammengefügt werden.

Erkennung von Anomalien und fehlenden Werten

ML-Modelle lernen das „normale“ Muster Ihrer Stammdaten und entdecken Ausreißer, die auf Fehler hindeuten. Das können einzelne Feldwerte sein oder regelwidrige Kombinationen mehrerer Felder. Das kann zum Beispiel ein Produkt mit Maßeinheiten sein, die nicht zueinander passen.

Ein weiterer Mehrwert für die Datenqualität ist, Platzhalterwerte mit Machine Learning zu entdecken. Denn in Stammdatensätzen verstecken sich oft vermeintlich befüllte Felder mit Platzhaltern wie: „n/a“, „000000“, „–„, „k.A.“, „123“

So werden inkonsistente oder fehlerhafte Einträge sichtbar, die zuvor niemandem aufgefallen sind.

Fazit: Intelligente Stammdaten brauchen smarte Algorithmen

Machine Learning ist längst mehr als nur ein Forschungsthema – es wird zum praktischen Helfer in der Stammdatenpflege:

Fehler erkennen 

Regeln ableiten

Prozesse automatisieren

Fachwissen operationalisieren

Wer seine Data Governance heute strategisch neu denkt und ML gezielt integriert, verbessert nicht nur die Datenqualität, sondern auch nachhaltig die digitale Innovationskraft des Unternehmens.

Selbstverständlich gibt es noch viele weitere Anwendungsfälle, wie etwa Harmonisierung oder selbst lernende Mappings. Sie möchten noch tiefer in das Thema eintauchen? Dann lesen Sie gerne den Blog-Beitrag meines Kollegen Martin Tempel.

Mehr lesen im Blog

Künstliche Intelligenz im Daten-Dschungel: Wie intelligente Technologien das Stammdatenmanagement revolutionieren

Sie möchten Ihre Stammdaten im Unternehmen aktuell halten und die Qualität kontinuierlich verbessern? Mit den Dienstleistungspaketen für Datenharmonisierung und Datenmigration von FIS legen Sie den Grundstein für ein professionelles Stammdatenmanagement.

Inhaltsverzeichnis

Machine Learning trifft Master Data Governance: Wie KI die Qualität von Stammdaten verbessern kann