Blog

Handfestes Know-how, Tipps & Tricks und die Insights unserer Datenprofis findest Du hier in unseren Blogbeiträgen

Nahaufnahme von Händen auf einer Laptop-Tastatur
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
HOWTO: Große Dateien verarbeiten mit Standard-Python
HOWTO: Große Dateien verarbeiten mit Standard-Python

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Häufig werde ich mit bereitgestellten Rohdaten für Analysen konfrontiert, welche sich unkomprimiert durchaus auf Dateien von einem halben Gigabyte oder mehr erstrecken. Ab einem Gigabyte kommen die Desktop-gestützten Statistik-Tools langsam ins Schwitzen. Es gibt natürlich je nach Tool Möglichkeiten, nur einen Teil der Spalten zu selektieren oder nur die ersten 10.000 Zeilen zu laden usw.

Aber was macht man, wenn man aus der Datenlieferung nur eine zufällige Stichprobe ziehen möchte? Man darf sich nie darauf verlassen, dass die Datei zufällig sortiert ist. Sie kann durch Prozesse im Datenbankexport bereits systematische Reihenfolgeeffekte beinhalten. Es kann aber auch vorkommen, dass man z.B. nur ein Zehntel einer Gruppierung analysieren möchte, wie etwa die Einkäufe jedes zehnten Kunden. Dazu muss die komplette Datei gelesen werden, sonst kann man nie sicherstellen, dass alle Einkäufe der gefilterten Kunden berücksichtigt wurden.

Mehr lesen
Uplift-Modeling als Zusatz zum klassischen Response-Modeling
Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling kann Kampagnenmanager bei der Kampagnensteuerung und -planung unterstützen, da es das klassische Response-Modell des Kampagnenscorings ergänzt. Uplift-Modeling geht von der Grundidee aus, dass man die Kampagnenreagierer in zwei Gruppen einteilt: diejenigen, die auch ohne die Kampagne reagiert hätten, und die, die das ohne die Kampagne nicht getan hätten. Während klassisches Scoring unterschiedslos auf beide Gruppen abzielt, versucht das Uplift-Scoring, exklusiv nur die zweite Gruppe zu isolieren und dabei die erste möglichst zu ignorieren. Zu diesem Zweck werden die Responseinformationen aus der Kontrollgruppe verwendet, die im klassischen Kampagnenscoring ungenutzt bleiben.

Mehr lesen
Anleitung: HICHERT (IBCS) out of the Box
Anleitung: HICHERT (IBCS) out of the Box

Anleitung: HICHERT (IBCS) out of the Box

arcplan ist das erste Software-Tool für Business Intelligence (BI), das von der BARC und HICHERT+FAISST das renommierte HICHERT®IBCS-Gütesiegel erhalten hat. Durch die ausgesprochen hohe Flexibilität des Tools arcplan Enterprise war es möglich, jede Anforderung an Grafiken, Tabellen, Strukturen und Kommentare zu 100 % zu erfüllen. Seitdem hat arcplan weitere Entwicklungsarbeit investiert, um dem Anwender (Berichtsentwickler) das Erstellen von "IBCS-konformen" Berichten zu erleichtern und somit viel Zeit und Ressourcen bei der Berichtserstellung einzusparen. arcplan 8.5 bietet nun ein Portfolio von fertigen und zu 100 % IBCS-konformen Grafiken an, die mit wenigen Klicks in die Applikation eingebunden werden können. Selbstverständlich bieten auch die "Quicksteps" die volle arcplan-Flexibilität und können verändert, erweitert und an die spezifischen Anforderungen angepasst werden.

Mehr lesen
HOWTO: Einfaches Web Scraping mit Python
HOWTO: Einfaches Web Scraping mit Python

HOWTO: Einfaches Web Scraping mit Python

Erschlagendes Angebot im Webshop

Vor zwei Wochen wurde ich von einem oft genutzten Online-Versand, dessen Namen an ein Fluss in Südamerika erinnert, per freundlicher Info-Mail auf eine Aktion aufmerksam gemacht. Und zwar wurden mir drei Musik-CDs aus einer großen Auswahl für 15€ angeboten.

Ich erwerbe immer noch gerne, wie früher, Musik auf physischen Tonträgern und wollte mir das Angebot genauer ansehen. Nun stellte sich heraus, dass etwa 9,000 CDs offeriert wurden, und das über etwa 400 Seiten im Online-Shop. Dieser Shop bietet mir die Möglichkeit, das Angebot nach Beliebtheit oder nach Kundenbewertung zu sortieren. Wenn ich jedoch die Beliebtheit absteigend betrachte, finde ich viele Titel, die nicht mehr ganz meiner Altersklasse entsprechen. Andererseits, wenn ich nach Kundenbewertung sortiere, stellt sich heraus, dass der Shop die Bewertungen ungewichtet verarbeitet. D.h. irgendeine CD mit volkstümlichen Schlagern wird mit nur einer 5-Sterne Bewertung vor einer anderen CD mit 4.9 Sternen auf 1000 Bewertungen aufgeführt.

Mehr lesen
Howto: Transaktionssichere Eingaben
Howto: Transaktionssichere Eingaben

Howto: Transaktionssichere Eingaben

arcplan-Applikationen bieten oft die Möglichkeit, dass ein Benutzer durch Eingaben in die Applikation bzw. in die dahinter liegende Datenbank zurückschreibt. Dies ist im Besonderen bei Planungsapplikationen, aber auch vereinfacht bei Kommentareingaben der Fall.

Mehr lesen
R Tipps und Tricks - Teil 1
R Tipps und Tricks - Teil 1

R Tipps und Tricks - Teil 1

R, der Open-Source-Allrounder mit schwerem Einstieg

Vor etwa drei Jahren bin ich von kommerziellen Statistiklösungen, wie SPSS, auf R umgestiegen. Mittlerweile kann ich mit Überzeugung sagen, dass ich erstmal kein anderes Tool mehr für Advanced Analytics brauche. Vor allem in Verbindung mit der IDE "R-Studio" hat die Software einen Reifegrad erreicht, um sie bedenkenlos in großen Data-Science-Projekten einzusetzen.

Man braucht sich allerdings nicht vormachen, dass man R einfach installiert und loslegt. Die Lernkurve ist vergleichsweise steil und es gibt nicht nur in Bezug auf die verschiedenen Pakete viele unterschiedliche Wege, dasselbe zu tun. Nicht selten hab ich mich geärgert, dass ich mitten im Auswerten plötzlich über einen banalen Schritt gestolpert bin, dessen Umsetzung ich für R erst recherchieren musste. Ich möchte daher in diesem und hoffentlich vielen folgenden Teilen Tipps und Tricks für R aufgreifen, die ich gerne schon früher als Einsteiger gekannt hätte.

Mehr lesen
Kampagnenmanagement im Mobile-Engagement-Umfeld
Kampagnenmanagement im Mobile-Engagement-Umfeld

Kampagnenmanagement im Mobile-Engagement-Umfeld

Schaffung von Kampagnenintelligenz im Mobile-App-Kanal

Mobile Engagement ist das nächste große Thema im BI-Umfeld - zu Recht. Potentielle Kundenkontakte an jedem Ort und in verschiedensten Kontexten bieten riesige Chancen für relevante Kommunikation und hochwirksames Beziehungsmanagement. Vor diesem Hintergrund sollte der Kanal "Mobile App" mit all seinen Möglichkeiten in die intelligente Steuerung von Kampagnen einbezogen werden. Bestehende Mobile-App-Engagement-Lösungen bieten dafür (nur) die Grundvoraussetzungen - und bedürfen damit professioneller Integration in die bestehende CRM-Strategie und zentrale Kampagnenintelligenz.

Mehr lesen
Der Customer Lifetime Value: Populäre Irrtümer und ungeschminkte Wahrheiten
Der Customer Lifetime Value: Populäre Irrtümer und ungeschminkte Wahrheiten

Der Customer Lifetime Value: Populäre Irrtümer und ungeschminkte Wahrheiten

Lange Zeit war der Customer Lifetime Value in wissenschaftlichen Veröffentlichungen wesentlich häufiger anzutreffen als in der Realität. Doch mittlerweile findet er seinen Weg in die praktische Anwendung. Triebfeder ist vor allem die Digitalwirtschaft. Die zunehmende Verbreitung des Customer Lifetime Values eröffnet große Chancen für eine gezielte Akquisition und Steuerung von Kundenbeziehungen. Sie legt aber auch die Tatsache offen, dass gewisse Missverständnisse weit verbreitet sind.

Mehr lesen
Fehlende Werte in logistischer Regression
Fehlende Werte in logistischer Regression

Fehlende Werte in logistischer Regression

Die logistische Regression ist neben Entscheidungsbäumen das Arbeitspferd in der Modellierung, um das Eintreten eines Ereignisses vorherzusagen. Nun sind beide Verfahren zum Glück so ausgelegt, dass man im Grunde jede Art von Prädiktor für die Vorhersage einsetzen kann, egal ob dichotome Kategorien, mehrstufige Kategorien oder stetige Variablen auf Intervallskalenniveau.

Mehr lesen
Die arcplan-Funktion ZUORDNEN
Die arcplan-Funktion ZUORDNEN

Die arcplan-Funktion ZUORDNEN

Ein sehr häufiger Anwendungsfall im Reporting ist das Verknüpfen und Anzeigen von Informationen, die entweder aus unterschiedlichen Tabellen oder sogar aus unterschiedlichen Datenquellen stammen. Häufig ist dazu entweder ein Datenbank-View oder sogar ein Zwischenschritt über ein Datenbank-Layer notwendig, in dem die Daten aus den unterschiedlichen Quellen gemergt werden. arcplan bietet mit der Funktion "Zuordnen" eine einfache und schnelle Möglichkeit, Daten im Bericht und in Realtime zu verknüpfen.

Mehr lesen
Wandflächenberechnung vektorisiert in R
Wandflächenberechnung vektorisiert in R

Wandflächenberechnung vektorisiert in R

Ich bin vor kurzem umgezogen und wurde von meiner alten Hausverwaltung gebeten, die Wände und die Decken der verlassenen Wohnung zu streichen. Ich habe mich sogleich im Internet um Vergleichsangebote von Malerbetrieben bemüht. Dort sollte ich gleich zu Beginn die zu streichende Fläche in Quadratmetern angeben ... mmh, ich hätte natürlich sofort die Grundfläche und die Anzahl Räume angeben können und gehofft, dass die Betriebe eine einfache Hochrechnung für die Angebotserstellung verwenden. Aber direkt die zu streichende Fläche zu ermitteln, schien mir etwas komplexer als eine Schätzung aus dem Stegreif.

Mehr lesen
Standardisierung eines Erfolgskontrollprozesses in einem Versicherungsunternehmen
Standardisierung eines Erfolgskontrollprozesses in einem Versicherungsunternehmen

Standardisierung eines Erfolgskontrollprozesses in einem Versicherungsunternehmen

Im Direktmarketing-Umfeld ist es bei vielen Unternehmen immer noch der Fall, dass die Erfolgsmessung der gefahrenen Kampagnen eine nur untergeordnete Rolle spielt. Dabei vermitteln gut durchgeführte Kampagnen-Erfolgsmessungen Wissen über die Effektivität bestimmter Kampagnen und ermöglichen fundierte Entscheidungen über deren Ausgestaltung und zukünftige Optimierung. Ziel sollte es sein, für Direktmarketing-Maßnahmen eine standardisierte Erfolgsmessung einzuführen und mit dem generierten Wissen neue Kampagnen zu verbessern und somit mehr Umsatz bzw. Gewinn zu erzielen.

Mehr lesen