Blog

Handfestes Know-how, Tipps & Tricks und die Insights unserer Datenprofis findest Du hier in unseren Blogbeiträgen

Nahaufnahme von Händen auf einer Laptop-Tastatur
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Best Practice für SQL-Statements in Python
Best Practice für SQL-Statements in Python

Best Practice für SQL-Statements in Python

Best Practice für SQL-Statements in Python

Dank eines verpflichtenden Interfaces für Datenbank-Connectors, der "Python Database API Specification v2.0, PEP249", wurden alle aktuellen Connectors so entwickelt, dass Datenbankverbindungen und die SQLs für Datenabrufe und Datentransaktionen über dieselben Befehle gestartet werden können. Mehr oder weniger erhält man auch überall im gleichen Format Ergebnisse zurück. In diesem Punkt gibt es gefühlt noch die größten Abweichungen von der geforderten Vereinheitlichung.
Das sollte aber niemanden davon abschrecken, Python-Skripte als eine flexible Methode für Automatisierungen von Datenbankoperationen zu verwenden.

Mehr lesen
Aufbau eines schlagkräftigen Data-Science-Teams
Aufbau eines schlagkräftigen Data-Science-Teams

Aufbau eines schlagkräftigen Data-Science-Teams

Data Science erlebt in den letzten Jahren eine zunehmende Professionalisierung und Standardisierung. Der oft intrinsisch motivierte Datenbastler und Frickler, der die Nische "Analyse" in seinem Unternehmen mit sehr hohem unternehmensinternen Daten- und Prozesswissen besetzt, kommt an seine Grenzen. Zunehmende Anforderungen, gerade im Zuge der stärkeren Kundenfokussierung über alle Branchen hinweg, zwingen Unternehmen dazu, die Strukturen im Bereich Data Science zu professionalisieren: Dies reicht vom Wissen über zur Verfügung stehende Datenquellen und deren Aufbereitung bis zu schon im Unternehmen genutzten Data-Science-Produkte.

Mehr lesen
Von SAS zu R und zurück: SAS-Daten nach R transferieren
Von SAS zu R und zurück: SAS-Daten nach R transferieren

Von SAS zu R und zurück: SAS-Daten nach R transferieren

SAS und R sind Themen, die dicht beieinanderliegen: Beides sind populäre Werkzeuge für Leute wie uns, die Probleme aus dem Umfeld von Statistik und Machine Learning auf mehr oder weniger großen Datenmengen lösen möchten. Trotz dieser scheinbaren Nähe gibt es wenig Berührungspunkte zwischen den beiden Communitys, und nur wenige arbeiten mit beiden Werkzeugen. Als passionierte Über-den-Tellerrand-Blicker finden wir das schade und möchten mit diesem Blogeintrag eine Miniserie starten, in der wir uns in loser Folge mit Themen beschäftigen, die beide Welten miteinander verbinden. Für diesen ersten Blogeintrag werden wir uns mit den Möglichkeiten beschäftigen, Daten zwischen den Systemen auszutauschen. Da es eine große Vielzahl an Wegen gibt, beschränken wir uns für diese Folge auf den Transfer von SAS zu R; der entgegengesetzte Weg folgt in einem späteren Eintrag.

Mehr lesen
Best Practice: Kampagnendurchführung
Best Practice: Kampagnendurchführung

Best Practice: Kampagnendurchführung

Um eine Kampagne erfolgreich durchführen zu können, ist es wichtig, auf einen geschlossenen Prozess im Unternehmen für die Kampagnenplanung zurückgreifen zu können. Liegt ein derartiger definierter und einheitlicher Prozess nicht vor, wird nicht nur wertvolles Potential verschenkt, sondern auch das Risiko eingegangen, dass Erfolge auf lange Sicht ausbleiben.

Mehr lesen
Boosting für den naiven Bayes-Klassifikator
Boosting für den naiven Bayes-Klassifikator

Boosting für den naiven Bayes-Klassifikator

Es gibt viele Bereiche, in denen sich die Neurowissenschaft und das maschinelle Lernen überlappen. Einer davon ist das Kombinieren des Lernens während mehrerer Lernepisoden mit kleinen Erfolgen, um am Ende ein daraus verschmolzenes, stärkeres, gelerntes Modell für eine bestimmte Aufgabe zu nutzen. Dieser Vorgang wird im maschinellen Lernen als "Boosting" (auf Deutsch "Verstärken") bezeichnet. Gerade in der IT-Branche ist das Entwickeln von Lösungen dieser Art ein sehr interessantes Thema, weshalb nachstehend eine kurze Einführung in das maschinelle Lernen erfolgen soll, die die Grundideen sowie die Anwendung des naiven Bayes-Klassifikators in R darstellt.

Mehr lesen
Ein Korb voller Schlangen: Python Module für Data Science
Ein Korb voller Schlangen: Python Module für Data Science

Ein Korb voller Schlangen: Python Module für Data Science

Wer meine früheren Blogeinträge gesehen hat, der weiß, dass ich sowohl ein großer Fan von R als auch von Python in der täglichen Arbeit bin.

So mächtig R auch im Funktionsumfang für Datenanalyse und Modellierung ist, so schnell wird der Elan beim "number crunching" auch gedämpft, wenn der Arbeitsspeicher auf Oberkante läuft.

Eine schöne Serverinstallation mit viel Blech (z. B. 96 Gig-RAM) wirkt dabei Wunder.

Da diese Option nicht immer zur Verfügung steht, habe ich aus der Not eine Tugend gemacht und mich der performanteren Alternative, nämlich den Python-basierten R-Alternativen zugewandt, zumal ich eh schon seit langem Python für ETLs und Datenaufbereitungen einsetze.

Mehr lesen
Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool
Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Ausgangssituation

Bei einem Telekommunikationsunternehmen soll der Bereich Controlling bei der Prognose der monatlichen Entwicklung von Gross-Adds-Zahlen unterstützt werden. "Gross Adds" ist die Kennzahl, die die Brutto-Neukundenzuwächse innerhalb einer bestimmten Periode wiedergibt, wobei die Zahl der verlorenen Kunden nicht berücksichtigt wird. Die Kennzahl "Gross Adds" wird vor allem in der Telekommunikationsbranche verwendet und gibt die Anzahl der neu abgeschlossenen Verträge (Postpaid und Prepaid) wieder.

Mehr lesen
HowTo: Verbinden von Zellen mit arcplan 8.6
HowTo: Verbinden von Zellen mit arcplan 8.6

HowTo: Verbinden von Zellen mit arcplan 8.6

arcplan ermöglicht es, einheitliche Berichte zu erstellen, die die tägliche Arbeit der Mitarbeiter eines Unternehmens unterstützen und somit auch effizienter gestalten. Dies ist insbesondere der Fall, wenn Berichte ihre enthaltenden Daten aussagekräftig, prägnant und benutzerfreundlich darstellen. Große Mengen an Informationen werden auch deswegen oft strukturiert und in Form von Tabellen aufbereitet. Um Beziehungen beziehungsweise Hierarchien der Daten innerhalb der Tabelle abzubilden und Redundanzen zu vermeiden, ist es notwendig, geeignete Spalten und Zeilenüberschriften auszuwählen, welche darüber hinaus auch noch zielführend platziert sein sollten.

Mehr lesen
Hochleistungs(denk)sport mit R
Hochleistungs(denk)sport mit R

Hochleistungs(denk)sport mit R

Dieser Beitrag beschäftigt sich grundsätzlich und in sehr kurzer Form mit folgenden drei Fragen:

  • Woran denkt ein datengetriebener Mensch, wenn er Behauptungen hört?
  • Welches Tool ist für Datenanalysen praktischer: R, Python, Java, MATLAB?
  • Können Sportdisziplinen das nächste Gebiet zur Anwendung der Datenanalysen und des maschinellen Lernens sein?
Mehr lesen
HOWTO: Große Dateien verarbeiten mit Standard-Python
HOWTO: Große Dateien verarbeiten mit Standard-Python

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Häufig werde ich mit bereitgestellten Rohdaten für Analysen konfrontiert, welche sich unkomprimiert durchaus auf Dateien von einem halben Gigabyte oder mehr erstrecken. Ab einem Gigabyte kommen die Desktop-gestützten Statistik-Tools langsam ins Schwitzen. Es gibt natürlich je nach Tool Möglichkeiten, nur einen Teil der Spalten zu selektieren oder nur die ersten 10.000 Zeilen zu laden usw.

Aber was macht man, wenn man aus der Datenlieferung nur eine zufällige Stichprobe ziehen möchte? Man darf sich nie darauf verlassen, dass die Datei zufällig sortiert ist. Sie kann durch Prozesse im Datenbankexport bereits systematische Reihenfolgeeffekte beinhalten. Es kann aber auch vorkommen, dass man z.B. nur ein Zehntel einer Gruppierung analysieren möchte, wie etwa die Einkäufe jedes zehnten Kunden. Dazu muss die komplette Datei gelesen werden, sonst kann man nie sicherstellen, dass alle Einkäufe der gefilterten Kunden berücksichtigt wurden.

Mehr lesen
Uplift-Modeling als Zusatz zum klassischen Response-Modeling
Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling kann Kampagnenmanager bei der Kampagnensteuerung und -planung unterstützen, da es das klassische Response-Modell des Kampagnenscorings ergänzt. Uplift-Modeling geht von der Grundidee aus, dass man die Kampagnenreagierer in zwei Gruppen einteilt: diejenigen, die auch ohne die Kampagne reagiert hätten, und die, die das ohne die Kampagne nicht getan hätten. Während klassisches Scoring unterschiedslos auf beide Gruppen abzielt, versucht das Uplift-Scoring, exklusiv nur die zweite Gruppe zu isolieren und dabei die erste möglichst zu ignorieren. Zu diesem Zweck werden die Responseinformationen aus der Kontrollgruppe verwendet, die im klassischen Kampagnenscoring ungenutzt bleiben.

Mehr lesen
Anleitung: HICHERT (IBCS) out of the Box
Anleitung: HICHERT (IBCS) out of the Box

Anleitung: HICHERT (IBCS) out of the Box

arcplan ist das erste Software-Tool für Business Intelligence (BI), das von der BARC und HICHERT+FAISST das renommierte HICHERT®IBCS-Gütesiegel erhalten hat. Durch die ausgesprochen hohe Flexibilität des Tools arcplan Enterprise war es möglich, jede Anforderung an Grafiken, Tabellen, Strukturen und Kommentare zu 100 % zu erfüllen. Seitdem hat arcplan weitere Entwicklungsarbeit investiert, um dem Anwender (Berichtsentwickler) das Erstellen von "IBCS-konformen" Berichten zu erleichtern und somit viel Zeit und Ressourcen bei der Berichtserstellung einzusparen. arcplan 8.5 bietet nun ein Portfolio von fertigen und zu 100 % IBCS-konformen Grafiken an, die mit wenigen Klicks in die Applikation eingebunden werden können. Selbstverständlich bieten auch die "Quicksteps" die volle arcplan-Flexibilität und können verändert, erweitert und an die spezifischen Anforderungen angepasst werden.

Mehr lesen