Logistische Regression in Data Analytics

Blog

Fehlende Werte in logistischer Regression

Stefan Seltmann

Veröffentlicht am

11.3.2015

8.5.2025

Aktualisiert am

8.5.2025

Data Science & AI

Fehlende Werte in logistischer Regression

Die logistische Regression ist neben Entscheidungsbäumen das Arbeitspferd in der Modellierung, um das Eintreten eines Ereignisses vorherzusagen. Nun sind beide Verfahren zum Glück so ausgelegt, dass man im Grunde jede Art von Prädiktor für die Vorhersage einsetzen kann, egal ob dichotome Kategorien, mehrstufige Kategorien oder stetige Variablen auf Intervallskalenniveau.

Inhaltsverzeichnis

Flexibilität der logistischen Regression

Speziell die logistische Regression hat allerdings keine Möglichkeit, sinnvoll mit fehlenden Werten umzugehen. In der sozialwissenschaftlichen Forschung oder der Marktforschung behilft man sich häufig damit, Analysen nur auf vollständige Datensätze zu beschränken.
Dieses Vorgehen birgt immer die Gefahr, dass man systematisch eine Kundengruppe vernachlässigt. Allein die Tatsache, dass Werte fehlen, kann bereits Aufschluss über einen Kunden oder ein Untersuchungsereignis geben.

Im Umgang mit Unternehmensdaten sind die Fallzahlen in der Regel groß genug, um auch die fehlende Werte für ein Scoring zu verwenden. Bei Kategorien bildet man einfach eine neue Kategorie, welche diese Fälle umfasst.

Problematik stetiger Prädiktoren

Doch wie geht man hier mit Fehlenden bei stetigen Prädiktoren um? Angenommen man möchte einen Churn-Score entwickeln, verwendet das Kundenalter als Prädiktor und bemerkt, dass etwa ein Sechstel der Kunden kein Alter gepflegt haben. Häufig entdeckt man dann auch noch viele weitere Kunden mit fehlerhaften Dateneingaben, die man ebenfalls auf "fehlend" setzen muss.

Wäre das Alter vollständig, würde man es als stetigen Einfluss im Modell berücksichtigen, so dass jedes weitere Jahr das Chancenverhältnis zur Kündigung verändert. Diese Beziehung ist dabei stets linear steigend oder fallend.

In der Literatur gibt es eine Vielzahl von Techniken zum Umgang mit fehlenden Daten, die alle ihre Berechtigung und ihr Einsatzgebiet besitzen. Softwarepakete wie SPSS bieten an, fehlende Werte mit dem Median oder dem Mittelwert zu ersetzen. Je nach Anteil Fehlender an der Gesamtheit, setzt dieses Vorgehen viele, vielleicht falsche Annahmen voraus.

Best Practice: Transformation der stetigen Prädiktoren in gleich große diskrete Stufen

Ich empfehle klar als Best Practice, stetige Prädiktoren mit fehlenden Werten in der linearen Regression auf eine Anzahl Kategorien umzuschlüsseln. Die Variable Alter aus dem Beispiel würde ich zunächst auf 9 oder 10 gleich große Perzentile aufteilen und die Fehlenden als weitere Kategorie berücksichtigen. Für den Referenzpunkt, also welche Kategorie als Basis zählt, wählt man am besten eine Randkategorie, also höchster oder niedrigster Rand. Wenn tatsächlich eine deutliche stetige Beziehung zwischen dem Alter und der Churn-Wahrscheinlichkeit besteht, dann wird man sie auch anhand der Koeffizienten der 9 bzw. 10 Einzelkategorien entdecken. Wenn sich benachbarte Kategorien nicht unterscheiden, ist es sinnvoll, sie zu einer größeren Kategorie zusammenzufassen. Diese Vorgehen birgt auch den Vorteil, eventuell Zusammenhänge mit Minima und Maxima, also kurvilineare Zusammenhänge, zu entdecken. Es könnte ja sein, dass vor allem junge und alte Kunden Churn-gefährdet sind und die Mitte sich eher durch Stabilität auszeichnet. Unabhängig davon kann man mit diesem Ansatz auch Vorhersagen für die Kunden mit fehlendem Alter treffen. Sollte sich der Koeffizient für diese Kategorie deutlich von den anderen Alterskoeffizienten unterscheiden, deutet es sehr auf einen systematischen Effekt hin. In diesem Fall hat man eine eigene Kundengruppe identifiziert, die man durch andere Methoden unter den Teppich kehren würde.

Diese Vorgehensweise ist allerdings nicht ganz frei von Nachteilen. Abgesehen davon, dass man seine Datensätze mit horrenden Mengen von Dummy-Variablen vollmüllt (heute kein Problem mehr), besteht immer noch die Gefahr von Overfitting. Genauso kann man bei der drastisch erhöhten Menge an Prädiktoren schnell der Alpha-Inflation und damit falschen Zufallsergebnissen auf den Leim gehen. Das Verfahren wählt man am besten nur bei ordentlichen Fallzahlen und man löst sich dabei besser von der kindischen Jagd nach 5%-Signifikanzen. Alles über p von 0.1% ist in meinen Augen dabei uninteressant.

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du willst datengetrieben arbeiten, Prozesse optimieren oder innovative Technologien nutzen? Unser Blog gibt Dir wertvolle Impulse – aber Deine spezifischen Fragen klären wir am besten direkt.

Sprich mit uns – wir sind nur einen Klick entfernt!

Du hast Fragen? Kontaktiere uns

Dr. Sebastian Petry

Domain Lead Data Science & AI

Wer ist b.telligent?

Du willst den IoT Core durch eine Multi-Cloud-Lösung ersetzen und die Vorteile weiterer IoT-Services von Azure oder Amazon Web Services nutzen? Dann melde Dich bei uns und wir unterstützen Dich bei der Umsetzung mit unserer Expertise und dem b.telligent Partnernetzwerk.

Erfahre mehr über uns

The top of an office building on a bright day

Vorheriger Beitrag

Alle Beiträge

Nächster Beitrag

Kein vorheriger Beitrag

Kein nächster Beitrag

Fehlende Werte in logistischer Regression

Inhaltsverzeichnis

Flexibilität der logistischen Regression

Problematik stetiger Prädiktoren

Best Practice: Transformation der stetigen Prädiktoren in gleich große diskrete Stufen

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München

Fehlende Werte in logistischer Regression

Inhaltsverzeichnis

Flexibilität der logistischen Regression

Problematik stetiger Prädiktoren

Best Practice: Transformation der stetigen Prädiktoren in gleich große diskrete Stufen

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

Ähnliche Beiträge

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Azure-KI-Suche dimensionieren und skalieren

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München