Datenbereinigung mit KI: Stammdaten und Dubletten im Griff
Wie du mit KI Stammdaten bereinigst, Dubletten findest und Adressen normalisierst - mit Copy-Paste-Prompts für saubere Datenbestände.
“Müller GmbH”, “Mueller GmbH”, “Müller G.m.b.H.”, “Fa. Müller” - vier Einträge, ein Kunde. Kennst du das aus deinem CRM? Über die Jahre sammeln sich in jeder Datenbank Karteileichen, Dubletten und uneinheitliche Schreibweisen an. Und irgendwann ruft die Buchhaltung an, weil dieselbe Firma dreimal angemahnt wurde - unter drei verschiedenen Namen.
Bei einem Kunden im Großhandel haben wir kürzlich die Kundendatenbank durchleuchtet: Von 12.000 Datensätzen waren rund 1.800 Dubletten oder fehlerhaft. Das ist kein Einzelfall - das ist die Regel. Die gute Nachricht: KI ist erstaunlich gut darin, genau solches Chaos zu entwirren.
Das Stammdaten-Problem im Mittelstand
Saubere Daten sind die Grundlage für funktionierende Prozesse - und gleichzeitig die am meisten vernachlässigte Aufgabe im Unternehmen. Typische Probleme:
- Dubletten: Derselbe Kunde mehrfach angelegt, leicht unterschiedlich geschrieben
- Uneinheitliche Formate: Mal “Str.”, mal “Straße”, mal “Strasse”
- Fehlende Werte: Leere PLZ-Felder, fehlende Ansprechpartner
- Tippfehler: “Hamubrg” statt “Hamburg”, vertauschte Ziffern
Das Ergebnis: Falsche Auswertungen, doppelte Mailings, peinliche Anschreiben und Mehrarbeit in jeder Abteilung, die mit diesen Daten arbeitet.
KI als dein Datenbereinigungs-Helfer
Sprachmodelle sind hervorragend darin, Muster zu erkennen und unstrukturierte Angaben zu vereinheitlichen. Sie erkennen, dass “Müller GmbH” und “Mueller G.m.b.H.” höchstwahrscheinlich dieselbe Firma sind - etwas, das eine starre Excel-Regel nicht leisten kann.
Für kleinere Datenmengen reicht oft schon ein KI-Tool mit Copy-Paste. Für große, regelmäßig anfallende Bestände kombiniert man die KI mit einem kleinen Skript oder einer Automatisierung - dazu später mehr.
So funktioniert’s in der Praxis
Schritt 1: Datenausschnitt vorbereiten (anonymisiert, falls nötig)
Schritt 2: Bereinigungsregeln im Prompt definieren
Schritt 3: KI vereinheitlichen und Dubletten markieren lassen
Schritt 4: Ergebnis prüfen und zurück ins System spielen
Mein bewährtes Prompt-Template für Datenbereinigung
Diesen Prompt nutze ich für die Normalisierung von Adress- und Kundendaten:
Du bist mein Datenbereinigungs-Assistent. Hier ist eine Liste von Datensätzen.
BEREINIGE NACH FOLGENDEN REGELN:
- Firmenname: Rechtsform einheitlich als "GmbH", "AG", "GbR" schreiben
- "Straße" immer ausschreiben (nicht "Str.")
- Städtenamen auf korrekte Schreibweise prüfen
- Offensichtliche Tippfehler korrigieren
Gib mir das Ergebnis als Tabelle zurück: Original | Bereinigt | Was wurde geändert
Markiere unsichere Fälle, die ich manuell prüfen sollte.
Beispiel: Dubletten finden
Hier ist eine Liste von Firmennamen mit Adressen.
Finde wahrscheinliche Dubletten - auch bei unterschiedlicher Schreibweise.
Gruppiere zusammengehörende Einträge und gib für jede Gruppe einen
empfohlenen "Master-Datensatz" an. Begründe kurz, warum du die Einträge
für identisch hältst.
Beispiel: Adressdaten normalisieren
Zerlege diese unformatierten Adressen in saubere Felder:
Straße, Hausnummer, PLZ, Ort, Land.
Wenn Angaben fehlen oder unklar sind, markiere das Feld als "PRÜFEN".
Beispiel: Daten validieren
Prüfe diese Liste auf Plausibilität:
- Sind die PLZ gültige deutsche Postleitzahlen (5 Stellen)?
- Passen PLZ und Ort zusammen?
- Sind die E-Mail-Adressen formal korrekt?
Liste nur die fehlerhaften Einträge mit dem jeweiligen Problem auf.
Worauf du achten solltest
Niemals ungeprüft überschreiben: KI macht Vorschläge - die finale Entscheidung, ob zwei Datensätze wirklich identisch sind, triffst du. Arbeite immer mit einer Kopie, nie direkt im Produktivsystem.
Datenschutz beachten: Kundendaten sind personenbezogene Daten. Für größere oder sensible Bestände nur DSGVO-konforme Tools mit Auftragsverarbeitungsvertrag nutzen - oder die Verarbeitung in deiner eigenen Umgebung halten.
In Häppchen arbeiten: Gib der KI nicht 10.000 Zeilen auf einmal. Arbeite in Blöcken von 50-100 Datensätzen, das reduziert Fehler und macht die Prüfung leichter.
Änderungen dokumentieren: Lass dir immer “Original | Bereinigt | Änderung” ausgeben. So kannst du jede Korrektur nachvollziehen und im Zweifel zurückrollen.
Grenzfälle markieren lassen: Echte Datenqualität entsteht, wenn die KI ehrlich sagt: “Das ist unsicher.” Fordere das explizit ein.
Checkliste: Datenbereinigung mit KI
- Immer mit einer Kopie arbeiten, nie im Produktivsystem
- DSGVO-konformes Tool wählen
- Bereinigungsregeln klar im Prompt definieren
- In Blöcken von 50-100 Datensätzen arbeiten
- Ausgabe als “Original | Bereinigt | Änderung” verlangen
- Unsichere Fälle manuell prüfen
- Bereinigte Daten kontrolliert zurückspielen
Quick Win für heute
Teste das in 5 Minuten: Exportiere 50 Zeilen aus deinem CRM oder deiner Kundenliste (anonymisiert, wenn nötig). Kopiere den Dubletten-Prompt von oben und lass die KI nach doppelten Einträgen suchen. Ich verspreche dir: Du findest mindestens eine Dublette, von der du nichts wusstest.
Wenn Datenpflege zum Dauerthema wird
Eine einmalige Bereinigung per KI ist ein guter Start. Aber Datenqualität ist kein Projekt, sondern ein Zustand - und der hält nur, wenn neue Daten gar nicht erst verschmutzen. Genau hier kommt Systemintegration ins Spiel: Wenn CRM, ERP und Webshop sauber miteinander verbunden sind, werden Daten nur einmal erfasst und überall konsistent gehalten. Dubletten entstehen dann erst gar nicht.
Wir helfen Mittelständlern dabei, ihre Systeme so zu verbinden, dass Daten automatisch synchron und sauber bleiben. Wirf gern einen Blick auf unsere Systemintegration oder lass uns über deinen Datenbestand sprechen.
Probier zuerst den Quick Win oben aus - im nächsten Newsletter geht es darum, wie du eingehende Anfragen und Tickets mit KI automatisch kategorisierst.
Beste Grüße
Dennis
Tags
Ähnliche Artikel
PDF-Dokumente mit KI auswerten: Verträge & Rechnungen prüfen
Wie du Verträge, Rechnungen und Reports mit KI in Sekunden auswertest - mit Copy-Paste-Prompts für Vertragsprüfung und Datenextraktion.
Excel-Formeln mit KI erstellen: Nie wieder SVERWEIS-Frust
Wie du Excel-Formeln mit KI in Sekunden erstellst und erklärst - mit Copy-Paste-Prompts für SVERWEIS, XVERWEIS und Pivot-Tabellen.
KI Meeting Protokolle - Von Audio zu strukturierter Zusammenfassung
KI Meeting Protokolle automatisieren: Whisper + GPT verwandeln Audio in strukturierte Zusammenfassungen. Praxis-Guide für den Mittelstand mit Tools & Prompts.
Mehr Praxiswissen?
Erhalten Sie neue Artikel direkt in Ihr Postfach. Kein Spam, jederzeit abmelden.
Kein Spam. Jederzeit abmelden.Datenschutz