- Nutzen Sie SQL-zentrierte Plattformen wie Amazon Redshift ML und logistische Regression, um Abwanderungs- und Risikomodelle direkt in Ihrem Data Warehouse zu trainieren und einzusetzen.
- Entwickeln Sie verhaltensbasierte Merkmale aus Transaktionen und Webereignissen und definieren Sie dann klare Abwanderungskriterien (z. B. 90 Tage Inaktivität) für überwachtes Lernen.
- Evaluieren Sie Modelle anhand von für Kundenabwanderung geeigneten Metriken wie AUC-ROC, Präzision, Trefferquote und F1 und verbessern Sie sie durch Hyperparameter-Tuning und den Umgang mit Ungleichgewichten.
- Operationalisierung von Modellfunktionen in SQL zur Bewertung von Kunden in großem Umfang, Priorisierung gefährdeter Segmente und Durchführung datengestützter Kundenbindungsmaßnahmen mit hohem ROI.

Kundenabwanderung ist einer dieser stillen Gewinnkiller. Das bremst das Wachstum schleichend, wenn man es nicht richtig misst und rechtzeitig handelt. Die gute Nachricht: Heute lassen sich robuste Abwanderungsrisikomodelle direkt mit SQL auf Ihrem Data Warehouse erstellen. Dabei werden klassische Machine-Learning-Verfahren, Managed Cloud Services und praxisnahe Geschäftskennzahlen kombiniert.
Dieser Leitfaden führt Sie Schritt für Schritt durch die Bewertung des Kundenabwanderungsrisikos mit SQL. In verschiedenen Szenarien – von der Nutzung von Amazon Redshift ML und Amazon SageMaker zum Trainieren von Modellen mit reinem SQL über die Erstellung logistischer Regressionsmodelle zur Kundenabwanderungsprognose auf Basis von Web-Events bis hin zu fortgeschrittenen Techniken wie Hyperparameter-Optimierung und dem Umgang mit unausgewogenen Daten (Kundenabwanderung vs. Kundenbindung), inspiriert von Python-basierten Workflows – wird Ihnen detailliert gezeigt, wie Sie aus Rohdaten verwertbare Risikobewertungen erstellen, die Ihre Marketing-, Kundenerfolgs- und Finanzteams tatsächlich nutzen können.
Warum die Bewertung des Kundenabwanderungsrisikos mit SQL für Ihr Unternehmen wichtig ist
Die Vorhersage, welche Kunden wahrscheinlich abwandern werden, ist einer der Anwendungsfälle mit dem höchsten ROI. Für angewandtes maschinelles Lernen und Analytik. Der Verlust eines Kunden ist in der Regel weitaus teurer als dessen Bindung, und kleine Verbesserungen bei der Kundenbindung haben einen überproportionalen Einfluss auf den Umsatz und die langfristige Rentabilität.
SQL spielt in diesem Prozess eine zentrale Rolle. weil die meisten Transaktions-, Verhaltens- und Kundendaten bereits in Datenbanken und Cloud-Data-Warehouses gespeichert sind; Überblick über Datenspeichersysteme Dies hilft zu verstehen, wie man sie optimal nutzt. Wenn Ihre Teams Abwanderungsmodelle direkt aus SQL erstellen, trainieren und bereitstellen können, vermeiden sie ständige Datenexporte, Toolwechsel und komplexe Entwicklungsprozesse, wodurch die Wertschöpfungszeit drastisch verkürzt wird.
Moderne Cloud-Plattformen verwischen heute die Grenzen zwischen Analytik und maschinellem Lernen.Dienste wie Amazon Redshift ML ermöglichen es Datenanalysten und Entwicklern, ML-Modelle mithilfe vertrauter SQL-Anweisungen zu erstellen, zu trainieren und zu nutzen, während im Hintergrund vollständig verwaltete Dienste wie Amazon SageMaker und SageMaker Autopilot zum Einsatz kommen. So können Sie ML-Modelle zur Kundenabwanderung erstellen, ohne selbst hauptberuflich als ML-Ingenieur tätig sein zu müssen.
Neben der Technologie muss die Abwanderungsanalyse eng mit der Geschäftsrealität verknüpft bleiben.Wie Sie einen „aktiven“ Kunden definieren, welche Signale auf ein Risiko hinweisen, welche Inaktivitätsschwelle relevant ist (30, 60, 90 Tage usw.) und wie viel Sie basierend auf dem prognostizierten Risiko in Kundenbindungsmaßnahmen investieren möchten. Die vorgestellten Techniken sind flexibel genug, um sich an unterschiedlichste Branchen anzupassen: Bankwesen, Telekommunikation, SaaS, E-Commerce und mehr.
Verwendung von Amazon Redshift ML zum Erstellen von Abwanderungs- und Risikomodellen mit SQL
Amazon Redshift ML ist ein hervorragendes Beispiel dafür, wie man maschinelles Lernen dorthin bringen kann, wo die Daten bereits liegen.Es ermöglicht Ihnen, Modelle mithilfe von SQL-Befehlen innerhalb von Amazon Redshift zu erstellen, zu trainieren und bereitzustellen, während Amazon SageMaker die eigentliche Arbeit im Hintergrund erledigt.
In der Praxis stellt Redshift ML Ihr trainiertes Modell als SQL-Funktion bereit. Sie können Abfragen, Dashboards und ETL-Jobs aufrufen. Für Anwendungsfälle im Bereich Kundenabwanderung und Risikomanagement bedeutet dies, dass Sie Prognosen wie „Hochrisikokunde“, „Kreditausfallwahrscheinlichkeit“ oder „Abwanderungswahrscheinlichkeit“ nahtlos in Ihre Standardberichte und Datenpipelines einbetten können.
Redshift ML nutzt im Hintergrund Amazon SageMaker Autopilot.Autopilot untersucht automatisch verschiedene Algorithmen und Hyperparameter, trainiert und optimiert Kandidatenmodelle und wählt das beste Modell entsprechend Ihren Zielen und Daten aus. Sie behalten volle Transparenz und Kontrolle, müssen sich aber nicht mit den komplexen Grundlagen des maschinellen Lernens auseinandersetzen.
Das Endergebnis ist eine vertraute EntwicklererfahrungSie schreiben eine SQL CREATE MODEL-Anweisung für Ihre Redshift-Tabellen, verweisen auf einen S3-Bucket für Zwischenergebnisse und erhalten nach Abschluss des Trainings eine SQL-Skalarfunktion, die für Inferenz im großen Maßstab in Ihrem Data Warehouse verwendet werden kann.
Beispiel für den gesamten Prozess: Kreditrisiko- und Abwanderungsprognose in Redshift
Um die Konzepte zu veranschaulichen, wollen wir ein konkretes Beispiel anhand des Finanzrisikos durchgehen.Obwohl die Zielvariable in diesem Fall das Kreditrisiko (hoch vs. niedrig) ist, ist der Arbeitsablauf identisch mit einer klassischen Abwanderungsprognose: Sie verfügen über gekennzeichnete historische Daten, trainieren einen binären Klassifikator und bewerten dann neue oder bestehende Kunden auf Anfrage.
Der Beispieldatensatz stammt aus dem UCI Machine Learning Repository. Sie umfasst 1,001 Datensätze, die jeweils einen Bankkunden mit 14 Attributen zu seinem Finanzprofil und seiner Beziehung zum Institut beschreiben. Obwohl sie nach heutigen Maßstäben bescheiden ist, reicht sie aus, um den Prozess von den Rohdaten bis zum implementierten SQL-Modell zu veranschaulichen.
Die wichtigsten Attribute (Merkmale) in diesem Datensatz umfassen sowohl demografisches als auch finanzielles Verhalten.:
- bestehende Überprüfung: Status des bestehenden Girokontos.
- Dauer: Monate der Geschäftsbeziehung oder Kreditlaufzeit.
- Gutschriftsbetrag: angeforderter Kreditbetrag.
- Einsparungen zu erzielen: aktueller Sparstand.
- Beschäftigungen seitDauer der aktuellen Beschäftigung.
- Sex: Geschlecht des Kunden.
- StatusFamilienstand.
- AlterKundenalter.
- Gehäuse: Wohnsituation (Eigentum, Miete usw.).
- bestehende GuthabenAnzahl der bestehenden Guthaben.
- JobBeschäftigungsstatus.
- Jobtyp: Art der Stelle.
- Abhängige: Anzahl der Angehörigen.
- Risiko: Zielvariable; gibt an, ob der Kunde als Hochrisikokunde eingestuft wird.
Die Zielvariable, das Risiko, ist binär.Es handelt sich also um ein klassisches binäres Klassifizierungsproblem. Man kann sich „Risiko = WAHR“ analog zu einem Abwanderungslabel vorstellen, bei dem man Kunden identifizieren möchte, die wahrscheinlich in Zahlungsverzug geraten oder abwandern werden, um proaktiv handeln zu können.
Trotz des kleinen Datensatzes spiegelt das Setup einen realen ML-Workflow wider.Sie teilen die Daten weiterhin in Trainings- und Inferenzdatensätze auf, definieren ein geeignetes Schema in Redshift, erstellen einen S3-Bucket für Trainingsdaten und Artefakte und konfigurieren eine IAM-Rolle mit Zugriff auf S3 und SageMaker. Im Produktivbetrieb skalieren Sie dies einfach mit mehr Zeilen und umfangreicheren Merkmalsmengen.
Vorbereitung der Redshift-Umgebung und der Daten
Bevor Sie ein Modell trainieren, müssen Sie sicherstellen, dass der Redshift-Cluster und die entsprechenden Berechtigungen vorhanden sind.Sie können den Cluster entweder über die AWS Management Console erstellen oder eine CloudFormation-Vorlage verwenden, die die Netzwerk- und Sicherheitskonfiguration automatisiert.
Bei der Bereitstellung über die Konsole wählen Sie üblicherweise einen Knotentyp und die Anzahl der Knoten aus. (z. B. dc2.large mit zwei Knoten für eine Demo), legen Sie einen Datenbankport, einen Master-Benutzernamen und ein Master-Passwort fest und weisen Sie ganz wichtig eine IAM-Rolle zu, die dem Cluster Zugriff auf den S3-Bucket gewährt, in dem sich Ihre Trainings- und Inferenz-CSV-Dateien befinden.
Wenn Sie Infrastruktur als Code bevorzugen, kann eine CloudFormation-Vorlage den Redshift-Cluster starten. Zusammen mit den zugehörigen Sicherheitsgruppen, der Subnetzgruppe und der IAM-Rolle. Aus Sicht der Abwanderungsrisikomodellierung ist lediglich wichtig, dass der Cluster auf den vorgesehenen S3-Bucket zugreifen und in diesen schreiben kann.
Sobald der Cluster läuft, wechseln Sie zum Redshift Query Editor.Von dort aus stellen Sie eine Verbindung zur Datenbank her, überprüfen Ihre Zugangsdaten und beginnen mit der Erstellung zweier Tabellen: eine für das Training (historisch gekennzeichnete Kundendaten) und eine für die Inferenz (Datensätze, die Sie später zum Testen der Modellleistung verwenden).
Das Schema der Trainingstabelle spiegelt die CSV-Struktur weitgehend wider.:
- Textspalten für Attribute wie bestehendes Girokonto, Ersparnisse, Beschäftigungsdauer, Geschlecht, Status, Wohnsituation, Beruf und Berufsart.
- Numerische Spalten für Laufzeit, Kredithöhe, Alter, bestehende Kredite und Angehörige.
- Eine boolesche Spalte „Risiko“, die als Zielwert für die Vorhersage verwendet wird.
Das Laden von Daten erfolgt über den Redshift-Befehl COPY.Das Skript ruft Daten aus S3 mithilfe der IAM-Rolle ab, legt das CSV-Format, die Header-Behandlung und das Trennzeichen fest und füllt sowohl die Trainings- als auch die Inferenztabelle. Nach erfolgreichem Kopieren können Sie die Objektstruktur im Editor überprüfen, um die Tabellen und Zeilenanzahlen zu bestätigen.
Erstellung und Training eines Redshift ML-Modells mit SQL
Nachdem die Daten bereitgestellt wurden, besteht der nächste Schritt darin, ein Redshift ML-Modell mithilfe einer CREATE MODEL-Anweisung zu trainieren.An dieser Stelle kommt SageMaker Autopilot ins Spiel, um im Hintergrund mehrere Kandidatenalgorithmen und Hyperparameter für Ihr binäres Klassifizierungsproblem zu testen.
Der Befehl CREATE MODEL wählt alle relevanten Prädiktorspalten aus. aus risk_prediction_training, kennzeichnet die Risikospalte als TARGET und definiert den Namen der SQL-Funktion, die später für Schlussfolgerungen über Ihr Data Warehouse verwendet wird.
Zwei wichtige Einstellungen sind erforderlich: IAM_ROLE und S3_BUCKET.Die IAM-Rolle muss das Auflisten und Lesen des S3-Buckets erlauben. Redshift und SageMaker nutzen den S3-Bucket zum Austausch von Trainingsdaten und Modellartefakten. Sie können außerdem eine maximale Laufzeit (MAX_RUNTIME) in Sekunden festlegen, um die Dauer von Autopilot-Experimenten zu begrenzen.
Es ist nicht ungewöhnlich, beim ersten Mal auf Probleme in der Vertrauensbeziehung zu stoßen.Kann SageMaker die Ihrem Redshift-Cluster zugeordnete IAM-Rolle nicht annehmen, schlägt der Befehl CREATE MODEL fehl. In diesem Fall müssen Sie die Vertrauensrichtlinie der Rolle anpassen und sagemaker.amazonaws.com als vertrauenswürdigen Dienstprinzipal hinzufügen.
Falls bereits ein Vorgängermodell mit demselben Namen existiert, können Sie es löschen. Verwenden Sie DROP MODEL, bevor Sie es neu erstellen. Dadurch können Sie Ihre Modellierungsstrategie iterativ verbessern oder Einstellungen anpassen, ohne Ihre Umgebung mit veralteten Modellen zu überladen.
Überwachung des Trainings und Validierung des Redshift ML-Modells
Die Trainingszeit variiert je nach Datengröße und Laufzeitbeschränkungen.Für den Beispieldatensatz zum Kreditrisiko können Sie mit etwa einer Stunde rechnen. Während dieser Zeit können Sie den Modellstatus und die Metadaten überprüfen, indem Sie den Befehl SHOW MODEL mit dem Modellnamen ausführen.
Das Ausstellungsmodell enthüllt wichtige Informationen Dazu gehören beispielsweise der Trainingsstatus (z. B. TRAINING, BEREIT), der gewählte Algorithmus, die objektive Metrik und die Validierungsergebnisse. Bei der binären Klassifizierung ist die F1-Punktzahl, die zwischen 0 und 1 liegt und Präzision und Trefferquote in Einklang bringt, oft eine der wichtigsten Metriken.
Sobald der Modellstatus „BEREIT“ lautet, können Sie mit der Bewertung seiner Vorhersageleistung beginnen. Es wird ein separater Inferenzdatensatz verwendet, den das Modell während des Trainings nie gesehen hat. Dies spiegelt ein reales Szenario wider, in dem neue Kunden spontan bewertet werden.
Ein erster, einfacher Prüfpunkt ist die Berechnung der Gesamtgenauigkeit.Dies geschieht durch Ausführen einer SQL-Abfrage, die Folgendes bewirkt: Sie extrahiert die tatsächliche Risikobezeichnung, ruft die Modellfunktion (z. B. func_risk_prediction_model) auf, um die vorhergesagte Bezeichnung zu erhalten, kennzeichnet korrekte und inkorrekte Vorhersagen und berechnet anschließend die Anzahl der korrekten Vorhersagen geteilt durch die Gesamtzahl.
Über die reine Genauigkeit hinaus können Sie aggregierte Risikoverteilungen auf der Inferenzmenge berechnen.Beispielsweise können Sie zählen, wie viele Kunden jeder Risikokategorie (hoch, niedrig, unbestimmt) zugeordnet sind, um das Verhalten des Modells zu verstehen und um festzustellen, wie viele Fälle zur weiteren Überprüfung oder für proaktive Maßnahmen zur Kundenbindung gekennzeichnet würden.
Definition von Kundenverhaltensmerkmalen für SQL-Churn-Modelle
Beim Übergang vom Kreditrisiko zur tatsächlichen Kundenabwanderung gelten dieselben Geldwäscheprinzipien.Sie benötigen gekennzeichnete historische Daten und aussagekräftige Merkmale, die das Kundenverhalten und dessen Entwicklung im Zeitverlauf erfassen. Im E-Commerce oder bei digitalen Produkten bedeutet dies in der Regel die Aggregation von Kauf- und Interaktionsmetriken pro Kunde.
Ein typisches SQL-Churn-Modell beginnt mit einer Tabelle von Webereignissen oder Transaktionen., wobei jede Zeile einen Kauf- oder Handelsvorgang mit Feldern wie Zeitstempeln, Bestellnummern, Produktpreisen und -mengen sowie Benutzerkennungen darstellt.
Aus diesen Rohdaten lassen sich leistungsstarke Verhaltensmerkmale ableiten. die die Historie eines Kunden zusammenfassen:
- Gesamtkäufe: Gesamtzahl der abgeschlossenen Käufe pro Kunde.
- Gesamterlös: kumulierte Einnahmen, die von diesem Kunden generiert werden.
- durchschnittlicher_BestellwertDurchschnittlicher Warenkorbwert; Gesamterlös geteilt durch Gesamtkäufe.
- Kundenlebensdauer: Tage zwischen dem ersten und dem letzten Kauf.
- Tage seit dem letzten Kauf: Aktualität, gemessen in Tagen vom letzten Kauf bis zu einem Stichtag.
- Kaufhäufigkeit: Anzahl der verschiedenen Monate, in denen der Kunde eingekauft hat, um Regelmäßigkeiten zu erfassen.
Diese Merkmale sind entscheidend, da Kundenabwanderung selten zufällig erfolgt.Kunden, die immer seltener kaufen, weniger ausgeben und Ihre Marketingmaßnahmen ignorieren, senden in der Regel deutliche Signale, dass sie möglicherweise bald abwandern werden. Die Erfassung von Kaufhäufigkeit, Aktualität und Geldwert (das klassische RFM-Trio) in SQL ist typischerweise der erste Schritt.
Grundlage all dessen ist eine zuverlässige Kundenidentifizierung.In vielen Setups für digitale Analysen ermöglicht eine Experience Cloud ID (ECID) oder eine ähnliche ID, die in einem Feld wie identityMap.id gespeichert ist, das Zusammenführen von Ereignissen über Sitzungen und Geräte hinweg zu einer einzigen Kundenhistorie.
Datenanforderungen und Annahmen für webbasierte Abwanderungsmodellierung
Um ein Churn-Modell direkt aus Webereignissen zu trainieren, muss Ihr Datensatz bestimmte Mindestanforderungen erfüllen.Jede Zeile sollte eine Transaktion oder einen Kaufvorgang mit genügend Details darstellen, um zu Merkmalen auf Kundenebene aggregiert werden zu können.
Zu den typischen Pflichtfeldern gehören::
- identityMap.id: eine stabile, sitzungsübergreifende Kundenkennung.
- productListItems.priceTotal: Gesamtkosten der Artikel pro Transaktion.
- productListItems.quantity: Gesamtanzahl der Artikel.
- Zeitstempel: Ereignisdatum und -zeit in einem Format, das mit Datums-/Zeitfunktionen wie DATEDIFF kompatibel ist (z. B. YYYY-MM-DD HH:MM:SS).
- commerce.order.purchaseID: ein Wert ungleich Null, der einen abgeschlossenen Kauf bestätigt.
Historische Tiefe ist wichtigUm zwischen vorübergehender Inaktivität und tatsächlicher Kundenabwanderung zu unterscheiden, benötigt man Daten über genügend Monate, um mehrere Kaufzyklen pro Kunde zu erkennen, insbesondere in Branchen mit langen Kaufintervallen (Reisen, Versicherungen, B2B-Verträge usw.).
Das Modell setzt außerdem eine klare, operative Definition von Kundenabwanderung voraus.Eine gängige und praktische Regel im E-Commerce besagt, dass ein Kunde als abgewandert gilt, wenn er innerhalb der letzten 90 Tage vor einem bestimmten Stichtag keinen Kauf getätigt hat. Dieser Schwellenwert kann je nach Ihrem üblichen Kaufzyklus angepasst werden (30, 60, 180 Tage).
Sobald der Datensatz strukturiert und die Annahmen klar sind, können Sie mithilfe von SQL Labels erstellen. (Abwanderung vs. keine Abwanderung) durch Vergleich von days_since_last_purchase mit Ihrem Schwellenwert und anschließende Generierung der Trainingstabelle, die die logistische Regression oder einen anderen Klassifizierungsalgorithmus speist.
Erstellung eines logistischen Regressionsmodells zur Kundenabwanderung mit SQL
Die logistische Regression eignet sich hervorragend zur Abwanderungsprognose mit SQL. weil es Wahrscheinlichkeiten zwischen 0 und 1 ausgibt und in modernen Analysedatenbanken und Kundendatenplattformen oft nativ oder über ML-Erweiterungen unterstützt wird.
Der Modellierungsprozess verläuft typischerweise in drei Phasen.: Feature Engineering, Labelzuordnung und Modelltraining.
Zuerst aggregieren Sie Ihre Webereignisse zu Zeilen auf Kundenebene. Berechnung von Gesamtkäufen, Gesamtumsatz, durchschnittlichem Bestellwert, Kundenlebenszeit, Tagen seit dem letzten Kauf und Kaufhäufigkeit. Dies kann in einer einzigen SQL-Anweisung mit GROUP BY und Fensterfunktionen oder schrittweise mit Zwischentabellen erfolgen.
Zweitens erstellen Sie ein Abwanderungslabel basierend auf einer InaktivitätsregelBeispielsweise ist churned = 1, wenn days_since_last_purchase > 90, andernfalls churned = 0. Dieser gelabelte Datensatz dient als Eingabe für das Training der logistischen Regression, das über eine SQL-Anweisung CREATE MODEL oder eine herstellerspezifische Funktion aufgerufen werden kann.
Drittens trainieren Sie das logistische Regressionsmodell, indem Sie festlegen, welche Spalten Merkmale darstellen. und welche Spalte das Ziellabel (abgewandert) enthält. Die ML-Engine lernt Koeffizienten, die widerspiegeln, wie jedes Merkmal zum Abwanderungsrisiko beiträgt, was für die Verantwortlichen im Unternehmen sehr aufschlussreich sein kann.
Die Modellausgabe ist üblicherweise eine Tabelle oder Ansicht mit einer Zeile pro Kunde.einschließlich der definierten Merkmale und des Abwanderungsstatus. Wenn Sie das Modell später für Vorhersagen verwenden, erhalten Sie eine zusätzliche Spalte mit Vorhersagen, die entweder den vorhergesagten Status (0 oder 1) oder die Abwanderungswahrscheinlichkeit angibt.
Bewertung von Abwanderungsmodellen: Kennzahlen, die wirklich zählen
Das Training eines Abwanderungsmodells ist nur die halbe Miete; seine Leistung muss rigoros evaluiert werden. vor dem Einsatz in Produktionskampagnen. SQL-basierte ML-Frameworks stellen häufig Auswertungshilfsfunktionen bereit, wie beispielsweise eine model_evaluate-Funktion, die gängige Metriken berechnet.
Für die Kundenabwanderung ist es entscheidend, über die reine Genauigkeit hinauszublicken.Genauigkeit misst einfach den Prozentsatz korrekter Vorhersagen, aber bei unausgewogenen Problemen (bei denen die meisten Kunden nicht abwandern) kann ein Modell „genau“ sein, während es für Ihr Unternehmen nahezu nutzlos ist.
Zu den wichtigsten Kennzahlen für die Abwanderungsprognose gehören::
- AUC-ROC: misst die Fähigkeit des Modells, Abwanderungsbefürworter von Nicht-Abwanderungsbefürwortern über alle Klassifizierungsschwellenwerte hinweg zu unterscheiden; Werte näher an 1 deuten auf eine stärkere Unterscheidung hin.
- Präzision: Anteil der vorhergesagten Abwanderer, die tatsächlich abwandern; hohe Präzision bedeutet weniger Fehlalarme und effizientere Ausgaben für Kundenbindung.
- Erinnern: Anteil der tatsächlichen Abwanderer, die das Modell korrekt identifiziert; eine hohe Trefferquote stellt sicher, dass Sie nicht viele gefährdete Kunden verpassen.
- F1-Punktzahl: Harmonisches Mittel aus Präzision und Trefferquote, nützlich, wenn ein Gleichgewicht zwischen dem Aufspüren vieler Abwanderungsfälle und dem Vermeiden zu vieler falsch positiver Ergebnisse erforderlich ist.
In vielen realen Projekten zur Kundenabwanderung legen die beteiligten Unternehmen mehr Wert auf Präzision und die Erinnerung an die positiven Ergebnisse. (die prognostizierte Kundenabwanderung) ist wichtiger als die globale Genauigkeit. Schließlich geht es darum, Kundenbindungsangebote effizient auszurichten und nicht in einer einzelnen durchschnittlichen Kennzahl gut abzuschneiden.
Die SQL-gesteuerte Evaluierung erfolgt typischerweise anhand eines separaten Testdatensatzes. Dieser Datensatz wurde nicht für das Training verwendet. Sie übergeben ihn an die Funktion `model_evaluate` oder eine entsprechende Funktion, ermitteln AUC-ROC, Genauigkeit, Präzision und Trefferquote und optimieren anschließend basierend auf diesen Ergebnissen die Merkmale, Schwellenwerte oder Algorithmen.
Python-inspirierte Techniken zur Verbesserung von Abwanderungsmodellen
Viele Best Practices im Bereich der Churn-Modellierung stammen aus dem breiteren ML-Ökosystem.Hierbei werden Python und Bibliotheken wie scikit-learn, imbalanced-learn und andere häufig eingesetzt. Die Konzepte lassen sich jedoch auch auf SQL-zentrierte Workflows oder hybride Setups übertragen, bei denen SQL die Merkmalserstellung und Python die fortgeschrittene Modellierung übernimmt.
Ein gängiges Vorgehen besteht darin, die Kundenabwanderung anhand eines öffentlichen Datensatzes zu untersuchen. wie beispielsweise eine CSV-Datei mit Bankkundenabwanderungsdaten von Kaggle. Diese Datensätze enthalten typischerweise demografische Daten (Alter, Land, Geschlecht), Kontolaufzeit, Anzahl der Produkte, Kreditwürdigkeit und ob der Kunde gekündigt hat (Churn).
Der übliche Arbeitsablauf beginnt mit dem Laden und Überprüfen des Datensatzes.: Überprüfung der Anzahl der Zeilen und Spalten, Zusammenfassung numerischer Merkmale, Untersuchung der Zielverteilung und Identifizierung offensichtlich irrelevanter Attribute wie Kundennamen oder undurchsichtiger IDs, die für die Vorhersage nicht hilfreich sind.
Visuelle Erkundung ist besonders hilfreichDie Darstellung von Verteilungen und Boxplots stetiger Variablen (wie Alter oder Betriebszugehörigkeit), aufgeschlüsselt nach Abwanderungsrate, ermöglicht es, schnell zu erkennen, welche Merkmale Erklärungskraft besitzen. Histogramme für kategoriale Variablen (Geschlecht, Land) zeigen, ob bestimmte Kategorien mit einer höheren Abwanderungsrate korrelieren.
Während dieser Erkundungsphase suchen Sie auch nach Problemen mit der Datenqualität.Fehlende Werte, extreme Ausreißer, dominante Kategorien und verdächtige Muster können die Leistungsfähigkeit des nachfolgenden Modells beeinträchtigen und gegebenenfalls eine Bereinigung, Begrenzung oder Neukodierung erforderlich machen.
Kategorische Variablen sind ein weiterer entscheidender PunktML-Algorithmen erwarten typischerweise numerische Eingaben, daher müssen Textkategorien kodiert werden. Einfache ordinale Kodierungen ordnen Kategorien ganzen Zahlen zu, was zwar funktionieren kann, aber zu künstlichen Ordnungen führen kann (z. B. Farbcodes, bei denen 6 nicht im eigentlichen Sinne „größer als“ 2 ist). Anspruchsvollere Kodierungen wie One-Hot- oder Target-Encoding liefern in der Regel bessere Modelle, benötigen aber mehr Merkmale.
Vom ersten Abwanderungsmodell zur robusten Bewertung
Nach der grundlegenden Bereinigung und Kodierung kann ein erstes Abwanderungsmodell trainiert werden.—zum Beispiel ein Random-Forest-Klassifikator, der robust ist, nichtlineare Beziehungen gut bewältigt und relativ wenig Merkmalskalierung erfordert.
Anschließend teilen Sie die Daten in Trainings- und Testdatensätze auf. (z. B. 70 % Trainingsdaten, 30 % Testdaten) zur Simulation zukünftiger, unbekannter Kunden. Das Modell wird anhand der Trainingsdaten trainiert und anhand der Testdaten mithilfe von Metriken wie Genauigkeit, Präzision, Trefferquote und F1-Score evaluiert.
In dieser Phase ist es sehr leicht, sich von hohen Genauigkeitszahlen irreführen zu lassen.Bei Problemen mit unausgewogenen Abwanderungsraten kann ein Modell eine hohe Genauigkeit erzielen, indem es stets die Mehrheitsklasse (Nicht-Abwanderung) vorhersagt, während es tatsächliche Abwanderer kaum erfasst. Daher sind Präzision, Trefferquote und F1-Score speziell für die Abwanderungsklasse deutlich relevanter.
Die ROC-Kurve und ihre Fläche unter der Kurve (AUC) Sie bietet eine differenziertere Sichtweise und zeigt den Zielkonflikt zwischen Trefferquote und Falsch-Positiv-Rate über alle Schwellenwerte hinweg. Eine Kurve, die die diagonale Basislinie deutlich dominiert, deutet auf ein nützliches Modell hin; auch hier müssen Sie jedoch die Kosten-Nutzen-Abwägungen für Ihr Unternehmen berücksichtigen.
Die Wahl der richtigen Bewertungsmetrik ist eine unternehmerische Entscheidung.Wenn Maßnahmen zur Kundenbindung kostspielig sind, kann eine hohe Präzision (nur potenzielle Abwanderer ansprechen) sinnvoll sein. Ist der Verlust eines Kunden hingegen extrem teuer, kann man mehr Fehlalarme in Kauf nehmen und sich auf die Kundenbindung konzentrieren (möglichst viele Abwanderer erreichen), selbst wenn dies die Kontaktaufnahme mit mehr Kunden erfordert.
Hyperparameter-Optimierung und Umgang mit unausgewogenen Abwanderungs-Labels
Sobald ein grundlegendes Abwanderungsmodell implementiert ist, ergeben sich die nächsten großen Verbesserungen in der Regel durch die Optimierung der Hyperparameter.Hyperparameter sind Konfigurationswerte außerhalb des Trainingsprozesses (Anzahl der Bäume, Baumtiefe, Lernrate usw.), die die Modellqualität erheblich beeinflussen können.
Ein praktischer Ansatz besteht darin, einen Hyperparameter-Suchraum zu definieren. (Ein Raster oder zufällige Bereiche für jeden Parameter) und anschließend wird eine Teilmenge von Kombinationen mittels randomisierter Suche oder Bayes'scher Optimierung untersucht. Für jede Kandidatenkonfiguration wird eine Kreuzvalidierung mit den Trainingsdaten durchgeführt und ein Metrik wie der F1-Score zum Vergleich herangezogen.
Für die Kundenabwanderung ist der F1-Wert oft ein besseres Ziel als die reine Genauigkeit. weil es Präzision und Trefferquote in Einklang bringt, worauf es Ihnen typischerweise ankommt, wenn Sie gefährdete Kunden priorisieren.
Eine weitere große Herausforderung bei der Churn-Modellierung ist das Label-Ungleichgewicht.In Ihren historischen Daten gibt es üblicherweise deutlich mehr Kunden, die nicht abwandern, als solche, die abwandern. Bleibt dieses Problem unbehandelt, lernen die meisten Algorithmen, auf Nummer sicher zu gehen und in den meisten Fällen die Mehrheitsklasse vorherzusagen.
Es gibt verschiedene Strategien, um mit unausgewogenen Abwanderungsdaten umzugehen.:
- Überrepräsentation der Minderheitsklasse unter Verwendung von Techniken wie SMOTE, ADASYN oder SVMSMOTE, die neue Minderheitsbeispiele synthetisieren, indem sie zwischen bestehenden interpolieren.
- Unterrepräsentation der Mehrheitsklasse um den Datensatz zu verkleinern und gleichzeitig die Klassen besser auszugleichen (manchmal kombiniert mit Oversampling).
- Verwendung von Algorithmen oder Wrappern, die Klassengewichte oder balancierte Teilmengen intern verwaltenwie beispielsweise Balanced Random Forests, die jeden Baum anhand einer klassenbalancierten Bootstrap-Stichprobe trainieren.
Empirisch gesehen ist es entscheidend, dass Ihr Testdatensatz unverändert und unausgewogen bleibt.Dies spiegelt die tatsächliche Produktionsverteilung wider. Sie können das Trainingsset überabtasten oder anderweitig manipulieren; andernfalls sind die Bewertungsmetriken zu optimistisch und nicht repräsentativ für die reale Leistung.
In vielen Experimenten wurde eine Balance auf Algorithmusebene (wie z. B. ein balancierter Random Forest) verwendet, ohne die Rohdaten des Trainings zu verändern. hat zu deutlichen Verbesserungen bei Präzision und F1-Score geführt, teilweise um zehn Prozentpunkte oder mehr. Für ein Churn-Modell kann dies eine wesentlich bessere Zielgruppenansprache von gefährdeten Kunden und einen höheren ROI bei Kundenbindungsmaßnahmen bedeuten.
Bedenken Sie, dass jede prozentuale Verbesserung der effektiven Kundenbindung eine überaus große Wirkung haben kann. Es geht um wiederkehrende Umsätze und den Kundenwert. Die genaue Erkennung von Kundenabwanderung ist nicht das Endziel, aber sie verschafft Ihnen die Möglichkeit, Angebote, Serviceverbesserungen und personalisierte Maßnahmen dort einzusetzen, wo sie am wichtigsten sind.
Zusammenfassend lässt sich sagen, dass die Kombination von SQL-nativen ML-Funktionen (wie Amazon Redshift ML und SQL-gesteuerter logistischer Regression) mit soliden Machine-Learning-Methoden (Feature Engineering, geeignete Metriken, Hyperparameter-Optimierung und Umgang mit Datenungleichgewichten) ein leistungsstarkes Werkzeug zur direkten Bewertung des Abwanderungsrisikos dort bietet, wo Ihre Daten gespeichert sind. Ob Sie im Finanzwesen, in der Telekommunikation, im E-Commerce oder im SaaS-Bereich tätig sind – diese Techniken ermöglichen es Ihnen, Rohdaten aus Interaktionshistorien in aussagekräftige Abwanderungsrisiko-Scores umzuwandeln, auf deren Basis Marketing- und Betriebsteams fundierte Entscheidungen treffen können. So wird der Feedback-Kreislauf zwischen Analysen und Geschäftsentscheidungen optimiert.