Blog Posts: Data Science & AI

Blog

Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur

Quantilregression mit Gradient Boosted Trees

13.12.2021

8.5.2025

Quantilregression mit Gradient Boosted Trees

Wenn wir einfache deskriptive Analysen durchführen, beschränken wir uns nur selten auf die Mittelwerte. Häufiger werfen wir einen Blick auf die ganze Verteilung, sehen uns Histogramme, Quantile und Ähnliches an. Mittelwerte allein führen oft zu falschen Schlussfolgerungen und unterschlagen wichtige Informationen. Warum vergessen wir das, sobald wir Vorhersagemodelle erstellen? Diese zielen meist nur auf Mittelwerte – und die lügen.

Large Language Models – ein Überblick über die Modelllandschaft

10.8.2023

8.5.2025

Large Language Models – ein Überblick über die Modelllandschaft

Seit der Veröffentlichung von ChatGPT und der Aufmerksamkeit, die auf Large Language Models gelenkt wurde, erleben wir einen rasanten Anstieg an Veröffentlichungen weiterer Modelle und einen sich schnell entwickelnden Markt mit der Nutzung von LLMs. Die Eignung eines Modells für die Nutzung im Unternehmenskontext ist stark abhängig vom jeweiligen Use Case. In diesem Blogbeitrag wollen wir die derzeit wichtigsten Modelle genauer ansehen und anhand unternehmensrelevanter Kriterien vergleichen, sodass Du einen besseren Überblick behalten kannst.

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

25.6.2020

8.5.2025

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Neulich habe ich gegen meinen sechsjährigen Sohn „Wer ist es?“ gespielt, ein klassisches Spiel für Kinder von ca. 6 bis 9 Jahren. Dabei wollten wir natürlich beide wissen, wie man das Spiel gewinnt. Aus der Frage ist diese Artikelreihe entstanden. Dieser Teil richtet sich an die ganze Familie. Also: Lasst uns gewinnen!

Mit Python Ibis Analytics-Projekte schneller ausliefern

7.11.2022

8.5.2025

Mit Python Ibis Analytics-Projekte schneller ausliefern

Wenn eine Datenanalyse-Pipeline nach erfolgreichem Proof of Concept (POC) in Produktion gehen soll, ist dies oft ein langer Weg. Ibis bietet die Möglichkeit, diesen Prozess zu vereinfachen und somit schneller Mehrwert zu erzeugen.

Nach der erfolgreichen lokalen Entwicklung einer Analyse-Datenpipeline in Python muss der Code oftmals umgeschrieben werden, um in Produktion laufen zu können. Aber muss das eigentlich so sein? Die Python-Ibis-Bibliothek, die der Hauptautor der Python-Pandas-Bibliothek Wes McKinney programmiert hat, bietet eine spannende Lösung, um Datenverarbeitung zwischen Produktions- und Entwicklungsumgebungen anzugleichen und es somit dem Analytics-Team zu ermöglichen, schneller in Produktion zu gehen. Wir zeigen Dir in diesem Blogbeitrag, wie das funktioniert.

Dein Leitfaden für die Nutzung von generativer KI und LLMs

13.10.2023

8.5.2025

Dein Leitfaden für die Nutzung von generativer KI und LLMs

Seit der Einführung von ChatGPT Ende 2022 sind wir alle von den Möglichkeiten der generativen KI und Large Language Models (LLMs) begeistert. Was die Leute faszinierte, war die unglaubliche Leichtigkeit, mit der qualitativ hochwertige Texte, Antworten auf Fragen, Codefragmente usw. generiert werden können. Alles, was man braucht, ist eine Eingabeaufforderung, d. h. eine Texteingabe, die man in die ChatGPT-API einspeist, und voilà, man erhält seine Antwort. Wir befinden uns immer noch in dem Hype um die generative KI, bei dem die Vorteile einer Technologie überbewertet werden. Für Unternehmen ist es wichtig, die Fallstricke zu vermeiden und zu verstehen, wann und wie sie ChatGPT oder generative KI-Lösungen einsetzen sollten. In diesem Blogbeitrag blicken wir über den Hype hinaus und zeigen einen Ansatz zur Evaluierung und Implementierung von LLM-basierten Gen-KI-Anwendungsfällen.

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

6.7.2017

8.5.2025

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

R ist eine der populärsten Open-Source-Programmiersprachen für Predictive Analytics. Ihr großer Vorteil ist das Comprehensive R Archive Network (CRAN) mit über 10.000 Paketen für verschiedenste Modelllösungen. Ein Hindernis ihrer Anwendung besteht jedoch in der häufig paketspezifischen Syntax (im Gegensatz zu z. B. Python). Das Paket Caret versucht, durch ein einheitliches Interface auf verschiedene Trainings- und Vorhersagefunktionen den Modellierungsprozess zu vereinfachen. Durch seine Datenvorbereitungs-, Merkmalsselektions- und Modell-Tuning-Funktionalität erleichtert Caret die Bildung und Evaluierung von prädiktiven Modellen. Dieser Blogeintrag zeigt auf, wie wir mit Caret verschiedenen Herausforderungen des Modellierungsprozesses begegnen können, insbesondere bei der Selektion und dem Tuning von Modellen.

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

12.3.2020

8.5.2025

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Algorithmen für personalisierte Empfehlungen

Nicht immer hinterlassen Nutzer ausreichend personalisierte Informationen entlang ihrer Customer Journey. Beispielsweise können neue Nutzer hinzukommen oder bestehende Kunden beim Surfen von Online-Angeboten nicht angemeldet sein. Nicht personalisierte Empfehlungssysteme, wie der Vorschlag häufig gemeinsam gekaufter Produkte, bieten Unternehmen in diesem Fall trotzdem Möglichkeiten für Empfehlungen. Je individueller diese jedoch auf den Kunden zugeschnitten werden, desto besser. Deshalb werden im Folgenden Verfahren vorgestellt, die deutlich stärker personalisiert sind und die Präferenzen der Kunden erlernen. Zum Verständnis dieser Methoden ist es hilfreich, sich das Problem als dünnbesetzte Matrix vorzustellen.

Nutzen von privaten Python Packages in Vertex AI - 3

7.6.2022

8.5.2025

Nutzen von privaten Python Packages in Vertex AI - 3

Als Data Scientists trainieren wir regelmäßig unterschiedliche Machine-Learning-Modelle in der Cloud. Wie Du Dein Modelltraining mithilfe von Python Packages nun strukturierst, erfährst Du hier. Denn obwohl jedes Modell seinen eigenen, individuellen Anwendungszweck hat, fällt irgendwann auf, dass Codeschnipsel von einem Projekt in das andere kopiert werden. Bei mir ist es häufig Code für das Einlesen von Daten aus einer Datenbank oder für einen Preprocessing-Schritt. Um genau dieses Kopieren von Code zu vermeiden, sind Python-Pakete ideal geeignet – oft genutzte Funktionen lassen sich an einem Ort sammeln. Dies bringt viele Vorteile bei der Wartung und dem Testing des Codes.Im folgenden Blogartikel wollen wir uns ansehen, wie ein Python-Paket in der GCP nutzbar gemacht und in einen Vertex-AI-Training-Job eingebunden werden kann.

HOWTO: Große Dateien verarbeiten mit Standard-Python

19.8.2015

8.5.2025

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

Häufig werde ich mit bereitgestellten Rohdaten für Analysen konfrontiert, welche sich unkomprimiert durchaus auf Dateien von einem halben Gigabyte oder mehr erstrecken. Ab einem Gigabyte kommen die Desktop-gestützten Statistik-Tools langsam ins Schwitzen. Es gibt natürlich je nach Tool Möglichkeiten, nur einen Teil der Spalten zu selektieren oder nur die ersten 10.000 Zeilen zu laden usw.

Aber was macht man, wenn man aus der Datenlieferung nur eine zufällige Stichprobe ziehen möchte? Man darf sich nie darauf verlassen, dass die Datei zufällig sortiert ist. Sie kann durch Prozesse im Datenbankexport bereits systematische Reihenfolgeeffekte beinhalten. Es kann aber auch vorkommen, dass man z.B. nur ein Zehntel einer Gruppierung analysieren möchte, wie etwa die Einkäufe jedes zehnten Kunden. Dazu muss die komplette Datei gelesen werden, sonst kann man nie sicherstellen, dass alle Einkäufe der gefilterten Kunden berücksichtigt wurden.

Data Science & AI

Quantilregression mit Gradient Boosted Trees

Large Language Models – ein Überblick über die Modelllandschaft

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Mit Python Ibis Analytics-Projekte schneller ausliefern

Dein Leitfaden für die Nutzung von generativer KI und LLMs

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Algorithmen für personalisierte Empfehlungen

Nutzen von privaten Python Packages in Vertex AI - 3

HOWTO: Große Dateien verarbeiten mit Standard-Python

Vorgefertigte Datensätze, die den Rahmen sprengen

München

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Basel

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München