Blog

Handfestes Know-how, Tipps & Tricks und die Insights unserer Datenprofis findest Du hier in unseren Blogbeiträgen

Nahaufnahme von Händen auf einer Laptop-Tastatur

Blogposts im Rampenlicht

Automatisierung von Microsoft Fabric mit Terraform: Ein umfassender Einblick in unsere aktuellen Erfahrungen

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

Alle Filter zurücksetzen

Best Practice für SQL-Statements in Python

30.6.2016

8.5.2025

Best Practice für SQL-Statements in Python

Dank eines verpflichtenden Interfaces für Datenbank-Connectors, der "Python Database API Specification v2.0, PEP249", wurden alle aktuellen Connectors so entwickelt, dass Datenbankverbindungen und die SQLs für Datenabrufe und Datentransaktionen über dieselben Befehle gestartet werden können. Mehr oder weniger erhält man auch überall im gleichen Format Ergebnisse zurück. In diesem Punkt gibt es gefühlt noch die größten Abweichungen von der geforderten Vereinheitlichung.
Das sollte aber niemanden davon abschrecken, Python-Skripte als eine flexible Methode für Automatisierungen von Datenbankoperationen zu verwenden.

Aufbau eines schlagkräftigen Data-Science-Teams

19.5.2016

8.5.2025

Aufbau eines schlagkräftigen Data-Science-Teams

Data Science erlebt in den letzten Jahren eine zunehmende Professionalisierung und Standardisierung. Der oft intrinsisch motivierte Datenbastler und Frickler, der die Nische "Analyse" in seinem Unternehmen mit sehr hohem unternehmensinternen Daten- und Prozesswissen besetzt, kommt an seine Grenzen. Zunehmende Anforderungen, gerade im Zuge der stärkeren Kundenfokussierung über alle Branchen hinweg, zwingen Unternehmen dazu, die Strukturen im Bereich Data Science zu professionalisieren: Dies reicht vom Wissen über zur Verfügung stehende Datenquellen und deren Aufbereitung bis zu schon im Unternehmen genutzten Data-Science-Produkte.

Von SAS zu R und zurück: SAS-Daten nach R transferieren

21.4.2016

8.5.2025

Von SAS zu R und zurück: SAS-Daten nach R transferieren

SAS und R sind Themen, die dicht beieinanderliegen: Beides sind populäre Werkzeuge für Leute wie uns, die Probleme aus dem Umfeld von Statistik und Machine Learning auf mehr oder weniger großen Datenmengen lösen möchten. Trotz dieser scheinbaren Nähe gibt es wenig Berührungspunkte zwischen den beiden Communitys, und nur wenige arbeiten mit beiden Werkzeugen. Als passionierte Über-den-Tellerrand-Blicker finden wir das schade und möchten mit diesem Blogeintrag eine Miniserie starten, in der wir uns in loser Folge mit Themen beschäftigen, die beide Welten miteinander verbinden. Für diesen ersten Blogeintrag werden wir uns mit den Möglichkeiten beschäftigen, Daten zwischen den Systemen auszutauschen. Da es eine große Vielzahl an Wegen gibt, beschränken wir uns für diese Folge auf den Transfer von SAS zu R; der entgegengesetzte Weg folgt in einem späteren Eintrag.

9.3.2016

8.5.2025

Best Practice: Kampagnendurchführung

Um eine Kampagne erfolgreich durchführen zu können, ist es wichtig, auf einen geschlossenen Prozess im Unternehmen für die Kampagnenplanung zurückgreifen zu können. Liegt ein derartiger definierter und einheitlicher Prozess nicht vor, wird nicht nur wertvolles Potential verschenkt, sondern auch das Risiko eingegangen, dass Erfolge auf lange Sicht ausbleiben.

Boosting für den naiven Bayes-Klassifikator

11.2.2016

8.5.2025

Boosting für den naiven Bayes-Klassifikator

Es gibt viele Bereiche, in denen sich die Neurowissenschaft und das maschinelle Lernen überlappen. Einer davon ist das Kombinieren des Lernens während mehrerer Lernepisoden mit kleinen Erfolgen, um am Ende ein daraus verschmolzenes, stärkeres, gelerntes Modell für eine bestimmte Aufgabe zu nutzen. Dieser Vorgang wird im maschinellen Lernen als "Boosting" (auf Deutsch "Verstärken") bezeichnet. Gerade in der IT-Branche ist das Entwickeln von Lösungen dieser Art ein sehr interessantes Thema, weshalb nachstehend eine kurze Einführung in das maschinelle Lernen erfolgen soll, die die Grundideen sowie die Anwendung des naiven Bayes-Klassifikators in R darstellt.

Ein Korb voller Schlangen: Python Module für Data Science

21.1.2016

8.5.2025

Ein Korb voller Schlangen: Python Module für Data Science

Wer meine früheren Blogeinträge gesehen hat, der weiß, dass ich sowohl ein großer Fan von R als auch von Python in der täglichen Arbeit bin.

So mächtig R auch im Funktionsumfang für Datenanalyse und Modellierung ist, so schnell wird der Elan beim "number crunching" auch gedämpft, wenn der Arbeitsspeicher auf Oberkante läuft.

Eine schöne Serverinstallation mit viel Blech (z. B. 96 Gig-RAM) wirkt dabei Wunder.

Da diese Option nicht immer zur Verfügung steht, habe ich aus der Not eine Tugend gemacht und mich der performanteren Alternative, nämlich den Python-basierten R-Alternativen zugewandt, zumal ich eh schon seit langem Python für ETLs und Datenaufbereitungen einsetze.

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

19.1.2016

8.5.2025

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Ausgangssituation

Bei einem Telekommunikationsunternehmen soll der Bereich Controlling bei der Prognose der monatlichen Entwicklung von Gross-Adds-Zahlen unterstützt werden. "Gross Adds" ist die Kennzahl, die die Brutto-Neukundenzuwächse innerhalb einer bestimmten Periode wiedergibt, wobei die Zahl der verlorenen Kunden nicht berücksichtigt wird. Die Kennzahl "Gross Adds" wird vor allem in der Telekommunikationsbranche verwendet und gibt die Anzahl der neu abgeschlossenen Verträge (Postpaid und Prepaid) wieder.

HowTo: Verbinden von Zellen mit arcplan 8.6

21.12.2015

8.5.2025

HowTo: Verbinden von Zellen mit arcplan 8.6

arcplan ermöglicht es, einheitliche Berichte zu erstellen, die die tägliche Arbeit der Mitarbeiter eines Unternehmens unterstützen und somit auch effizienter gestalten. Dies ist insbesondere der Fall, wenn Berichte ihre enthaltenden Daten aussagekräftig, prägnant und benutzerfreundlich darstellen. Große Mengen an Informationen werden auch deswegen oft strukturiert und in Form von Tabellen aufbereitet. Um Beziehungen beziehungsweise Hierarchien der Daten innerhalb der Tabelle abzubilden und Redundanzen zu vermeiden, ist es notwendig, geeignete Spalten und Zeilenüberschriften auszuwählen, welche darüber hinaus auch noch zielführend platziert sein sollten.

‍

22.10.2015

8.5.2025

Hochleistungs(denk)sport mit R

Dieser Beitrag beschäftigt sich grundsätzlich und in sehr kurzer Form mit folgenden drei Fragen:

Woran denkt ein datengetriebener Mensch, wenn er Behauptungen hört?
Welches Tool ist für Datenanalysen praktischer: R, Python, Java, MATLAB?
Können Sportdisziplinen das nächste Gebiet zur Anwendung der Datenanalysen und des maschinellen Lernens sein?

HOWTO: Große Dateien verarbeiten mit Standard-Python

19.8.2015

8.5.2025

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Häufig werde ich mit bereitgestellten Rohdaten für Analysen konfrontiert, welche sich unkomprimiert durchaus auf Dateien von einem halben Gigabyte oder mehr erstrecken. Ab einem Gigabyte kommen die Desktop-gestützten Statistik-Tools langsam ins Schwitzen. Es gibt natürlich je nach Tool Möglichkeiten, nur einen Teil der Spalten zu selektieren oder nur die ersten 10.000 Zeilen zu laden usw.

Aber was macht man, wenn man aus der Datenlieferung nur eine zufällige Stichprobe ziehen möchte? Man darf sich nie darauf verlassen, dass die Datei zufällig sortiert ist. Sie kann durch Prozesse im Datenbankexport bereits systematische Reihenfolgeeffekte beinhalten. Es kann aber auch vorkommen, dass man z.B. nur ein Zehntel einer Gruppierung analysieren möchte, wie etwa die Einkäufe jedes zehnten Kunden. Dazu muss die komplette Datei gelesen werden, sonst kann man nie sicherstellen, dass alle Einkäufe der gefilterten Kunden berücksichtigt wurden.

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

24.7.2015

8.5.2025

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Uplift-Modeling kann Kampagnenmanager bei der Kampagnensteuerung und -planung unterstützen, da es das klassische Response-Modell des Kampagnenscorings ergänzt. Uplift-Modeling geht von der Grundidee aus, dass man die Kampagnenreagierer in zwei Gruppen einteilt: diejenigen, die auch ohne die Kampagne reagiert hätten, und die, die das ohne die Kampagne nicht getan hätten. Während klassisches Scoring unterschiedslos auf beide Gruppen abzielt, versucht das Uplift-Scoring, exklusiv nur die zweite Gruppe zu isolieren und dabei die erste möglichst zu ignorieren. Zu diesem Zweck werden die Responseinformationen aus der Kontrollgruppe verwendet, die im klassischen Kampagnenscoring ungenutzt bleiben.

Anleitung: HICHERT (IBCS) out of the Box

22.6.2015

8.5.2025

Anleitung: HICHERT (IBCS) out of the Box

arcplan ist das erste Software-Tool für Business Intelligence (BI), das von der BARC und HICHERT+FAISST das renommierte HICHERT®IBCS-Gütesiegel erhalten hat. Durch die ausgesprochen hohe Flexibilität des Tools arcplan Enterprise war es möglich, jede Anforderung an Grafiken, Tabellen, Strukturen und Kommentare zu 100 % zu erfüllen. Seitdem hat arcplan weitere Entwicklungsarbeit investiert, um dem Anwender (Berichtsentwickler) das Erstellen von "IBCS-konformen" Berichten zu erleichtern und somit viel Zeit und Ressourcen bei der Berichtserstellung einzusparen. arcplan 8.5 bietet nun ein Portfolio von fertigen und zu 100 % IBCS-konformen Grafiken an, die mit wenigen Klicks in die Applikation eingebunden werden können. Selbstverständlich bieten auch die "Quicksteps" die volle arcplan-Flexibilität und können verändert, erweitert und an die spezifischen Anforderungen angepasst werden.

Blog

Blogposts im Rampenlicht

Automatisierung von Microsoft Fabric mit Terraform: Ein umfassender Einblick in unsere aktuellen Erfahrungen

Best Practice für SQL-Statements in Python

Best Practice für SQL-Statements in Python

Aufbau eines schlagkräftigen Data-Science-Teams

Von SAS zu R und zurück: SAS-Daten nach R transferieren

Best Practice: Kampagnendurchführung

Boosting für den naiven Bayes-Klassifikator

Ein Korb voller Schlangen: Python Module für Data Science

Zeitreihenanalyse leicht gemacht – ganz ohne Analysetool

Ausgangssituation

HowTo: Verbinden von Zellen mit arcplan 8.6

Hochleistungs(denk)sport mit R

Dieser Beitrag beschäftigt sich grundsätzlich und in sehr kurzer Form mit folgenden drei Fragen:

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Uplift-Modeling als Zusatz zum klassischen Response-Modeling

Anleitung: HICHERT (IBCS) out of the Box

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Wien - Postanschrift

Wien - Besucheranschrift

Cluj

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München