6 Min. Lesezeit KI-Automatisierung

Datenbereinigung mit KI: Stammdaten und Dubletten im Griff

Wie du mit KI Stammdaten bereinigst, Dubletten findest und Adressen normalisierst - mit Copy-Paste-Prompts für saubere Datenbestände.

“Müller GmbH”, “Mueller GmbH”, “Müller G.m.b.H.”, “Fa. Müller” - vier Einträge, ein Kunde. Kennst du das aus deinem CRM? Über die Jahre sammeln sich in jeder Datenbank Karteileichen, Dubletten und uneinheitliche Schreibweisen an. Und irgendwann ruft die Buchhaltung an, weil dieselbe Firma dreimal angemahnt wurde - unter drei verschiedenen Namen.

Bei einem Kunden im Großhandel haben wir kürzlich die Kundendatenbank durchleuchtet: Von 12.000 Datensätzen waren rund 1.800 Dubletten oder fehlerhaft. Das ist kein Einzelfall - das ist die Regel. Die gute Nachricht: KI ist erstaunlich gut darin, genau solches Chaos zu entwirren.

Das Stammdaten-Problem im Mittelstand

Saubere Daten sind die Grundlage für funktionierende Prozesse - und gleichzeitig die am meisten vernachlässigte Aufgabe im Unternehmen. Typische Probleme:

  • Dubletten: Derselbe Kunde mehrfach angelegt, leicht unterschiedlich geschrieben
  • Uneinheitliche Formate: Mal “Str.”, mal “Straße”, mal “Strasse”
  • Fehlende Werte: Leere PLZ-Felder, fehlende Ansprechpartner
  • Tippfehler: “Hamubrg” statt “Hamburg”, vertauschte Ziffern

Das Ergebnis: Falsche Auswertungen, doppelte Mailings, peinliche Anschreiben und Mehrarbeit in jeder Abteilung, die mit diesen Daten arbeitet.

KI als dein Datenbereinigungs-Helfer

Sprachmodelle sind hervorragend darin, Muster zu erkennen und unstrukturierte Angaben zu vereinheitlichen. Sie erkennen, dass “Müller GmbH” und “Mueller G.m.b.H.” höchstwahrscheinlich dieselbe Firma sind - etwas, das eine starre Excel-Regel nicht leisten kann.

Für kleinere Datenmengen reicht oft schon ein KI-Tool mit Copy-Paste. Für große, regelmäßig anfallende Bestände kombiniert man die KI mit einem kleinen Skript oder einer Automatisierung - dazu später mehr.

So funktioniert’s in der Praxis

Schritt 1: Datenausschnitt vorbereiten (anonymisiert, falls nötig)

Schritt 2: Bereinigungsregeln im Prompt definieren

Schritt 3: KI vereinheitlichen und Dubletten markieren lassen

Schritt 4: Ergebnis prüfen und zurück ins System spielen

Mein bewährtes Prompt-Template für Datenbereinigung

Diesen Prompt nutze ich für die Normalisierung von Adress- und Kundendaten:

Du bist mein Datenbereinigungs-Assistent. Hier ist eine Liste von Datensätzen.

BEREINIGE NACH FOLGENDEN REGELN:
- Firmenname: Rechtsform einheitlich als "GmbH", "AG", "GbR" schreiben
- "Straße" immer ausschreiben (nicht "Str.")
- Städtenamen auf korrekte Schreibweise prüfen
- Offensichtliche Tippfehler korrigieren

Gib mir das Ergebnis als Tabelle zurück: Original | Bereinigt | Was wurde geändert

Markiere unsichere Fälle, die ich manuell prüfen sollte.

Beispiel: Dubletten finden

Hier ist eine Liste von Firmennamen mit Adressen.
Finde wahrscheinliche Dubletten - auch bei unterschiedlicher Schreibweise.
Gruppiere zusammengehörende Einträge und gib für jede Gruppe einen
empfohlenen "Master-Datensatz" an. Begründe kurz, warum du die Einträge
für identisch hältst.

Beispiel: Adressdaten normalisieren

Zerlege diese unformatierten Adressen in saubere Felder:
Straße, Hausnummer, PLZ, Ort, Land.
Wenn Angaben fehlen oder unklar sind, markiere das Feld als "PRÜFEN".

Beispiel: Daten validieren

Prüfe diese Liste auf Plausibilität:
- Sind die PLZ gültige deutsche Postleitzahlen (5 Stellen)?
- Passen PLZ und Ort zusammen?
- Sind die E-Mail-Adressen formal korrekt?
Liste nur die fehlerhaften Einträge mit dem jeweiligen Problem auf.

Worauf du achten solltest

Niemals ungeprüft überschreiben: KI macht Vorschläge - die finale Entscheidung, ob zwei Datensätze wirklich identisch sind, triffst du. Arbeite immer mit einer Kopie, nie direkt im Produktivsystem.

Datenschutz beachten: Kundendaten sind personenbezogene Daten. Für größere oder sensible Bestände nur DSGVO-konforme Tools mit Auftragsverarbeitungsvertrag nutzen - oder die Verarbeitung in deiner eigenen Umgebung halten.

In Häppchen arbeiten: Gib der KI nicht 10.000 Zeilen auf einmal. Arbeite in Blöcken von 50-100 Datensätzen, das reduziert Fehler und macht die Prüfung leichter.

Änderungen dokumentieren: Lass dir immer “Original | Bereinigt | Änderung” ausgeben. So kannst du jede Korrektur nachvollziehen und im Zweifel zurückrollen.

Grenzfälle markieren lassen: Echte Datenqualität entsteht, wenn die KI ehrlich sagt: “Das ist unsicher.” Fordere das explizit ein.

Checkliste: Datenbereinigung mit KI

  • Immer mit einer Kopie arbeiten, nie im Produktivsystem
  • DSGVO-konformes Tool wählen
  • Bereinigungsregeln klar im Prompt definieren
  • In Blöcken von 50-100 Datensätzen arbeiten
  • Ausgabe als “Original | Bereinigt | Änderung” verlangen
  • Unsichere Fälle manuell prüfen
  • Bereinigte Daten kontrolliert zurückspielen

Quick Win für heute

Teste das in 5 Minuten: Exportiere 50 Zeilen aus deinem CRM oder deiner Kundenliste (anonymisiert, wenn nötig). Kopiere den Dubletten-Prompt von oben und lass die KI nach doppelten Einträgen suchen. Ich verspreche dir: Du findest mindestens eine Dublette, von der du nichts wusstest.

Wenn Datenpflege zum Dauerthema wird

Eine einmalige Bereinigung per KI ist ein guter Start. Aber Datenqualität ist kein Projekt, sondern ein Zustand - und der hält nur, wenn neue Daten gar nicht erst verschmutzen. Genau hier kommt Systemintegration ins Spiel: Wenn CRM, ERP und Webshop sauber miteinander verbunden sind, werden Daten nur einmal erfasst und überall konsistent gehalten. Dubletten entstehen dann erst gar nicht.

Wir helfen Mittelständlern dabei, ihre Systeme so zu verbinden, dass Daten automatisch synchron und sauber bleiben. Wirf gern einen Blick auf unsere Systemintegration oder lass uns über deinen Datenbestand sprechen.

Probier zuerst den Quick Win oben aus - im nächsten Newsletter geht es darum, wie du eingehende Anfragen und Tickets mit KI automatisch kategorisierst.

Beste Grüße
Dennis

Dennis Pfeifer
Dennis Pfeifer
Gründer & IT-Berater
LinkedIn

Ähnliche Artikel

Mehr Praxiswissen?

Erhalten Sie neue Artikel direkt in Ihr Postfach. Kein Spam, jederzeit abmelden.

Kein Spam. Jederzeit abmelden.Datenschutz

Haben Sie Fragen?

Lassen Sie uns über Ihr Projekt sprechen.