Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Vertex AI Pipelines – Die ersten Schritte
Vertex AI Pipelines – Die ersten Schritte

Vertex AI Pipelines – Die ersten Schritte

Nachdem wir in den ersten Artikeln einen Ausflug in die Welt von Ray gemacht haben, wollen wir uns jetzt Vertex AI – dem Schlüsselbereich aller Machine Learning Services in GCP – widmen. Pipelines sollen das Leben in der Machine-Learning-Welt einfacher machen. Sie versprechen, durch ein hohes Maß an Automatisierung Entwicklungszyklen zu verkürzen. Außerdem soll das Team durch eine Abstraktion der Infrastruktur keine Expertise mit Microservices etc. benötigen und kann sich stattdessen auf seine Kernkompetenzen fokussieren.

In diesem Blogbeitrag wollen wir uns an einem einfachen Beispiel ansehen, wie eine Machine Learning Pipeline in Vertex AI aufgesetzt werden kann.

Quantilregression mit Gradient Boosted Trees
Quantilregression mit Gradient Boosted Trees

Quantilregression mit Gradient Boosted Trees

Wenn wir einfache deskriptive Analysen durchführen, beschränken wir uns nur selten auf die Mittelwerte. Häufiger werfen wir einen Blick auf die ganze Verteilung, sehen uns Histogramme, Quantile und Ähnliches an. Mittelwerte allein führen oft zu falschen Schlussfolgerungen und unterschlagen wichtige Informationen. Warum vergessen wir das, sobald wir Vorhersagemodelle erstellen? Diese zielen meist nur auf Mittelwerte – und die lügen.

Large Language Models – ein Überblick über die Modelllandschaft
Large Language Models – ein Überblick über die Modelllandschaft

Large Language Models – ein Überblick über die Modelllandschaft

Seit der Veröffentlichung von ChatGPT und der Aufmerksamkeit, die auf Large Language Models gelenkt wurde, erleben wir einen rasanten Anstieg an Veröffentlichungen weiterer Modelle und einen sich schnell entwickelnden Markt mit der Nutzung von LLMs. Die Eignung eines Modells für die Nutzung im Unternehmenskontext ist stark abhängig vom jeweiligen Use Case. In diesem Blogbeitrag wollen wir die derzeit wichtigsten Modelle genauer ansehen und anhand unternehmensrelevanter Kriterien vergleichen, sodass Du einen besseren Überblick behalten kannst.

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?
Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Data Science für Kids: Wie gewinne ich bei „Wer ist es“?

Neulich habe ich gegen meinen sechsjährigen Sohn „Wer ist es?“ gespielt, ein klassisches Spiel für Kinder von ca. 6 bis 9 Jahren. Dabei wollten wir natürlich beide wissen, wie man das Spiel gewinnt. Aus der Frage ist diese Artikelreihe entstanden. Dieser Teil richtet sich an die ganze Familie. Also: Lasst uns gewinnen!

Mit Python Ibis Analytics-Projekte schneller ausliefern
Mit Python Ibis Analytics-Projekte schneller ausliefern

Mit Python Ibis Analytics-Projekte schneller ausliefern

Wenn eine Datenanalyse-Pipeline nach erfolgreichem Proof of Concept (POC) in Produktion gehen soll, ist dies oft ein langer Weg. Ibis bietet die Möglichkeit, diesen Prozess zu vereinfachen und somit schneller Mehrwert zu erzeugen.

Nach der erfolgreichen lokalen Entwicklung einer Analyse-Datenpipeline in Python muss der Code oftmals umgeschrieben werden, um in Produktion laufen zu können. Aber muss das eigentlich so sein? Die Python-Ibis-Bibliothek, die der Hauptautor der Python-Pandas-Bibliothek Wes McKinney programmiert hat, bietet eine spannende Lösung, um Datenverarbeitung zwischen Produktions- und Entwicklungsumgebungen anzugleichen und es somit dem Analytics-Team zu ermöglichen, schneller in Produktion zu gehen. Wir zeigen Dir in diesem Blogbeitrag, wie das funktioniert.

Dein Leitfaden für die Nutzung von generativer KI und LLMs
Dein Leitfaden für die Nutzung von generativer KI und LLMs

Dein Leitfaden für die Nutzung von generativer KI und LLMs

Seit der Einführung von ChatGPT Ende 2022 sind wir alle von den Möglichkeiten der generativen KI und Large Language Models (LLMs) begeistert. Was die Leute faszinierte, war die unglaubliche Leichtigkeit, mit der qualitativ hochwertige Texte, Antworten auf Fragen, Codefragmente usw. generiert werden können. Alles, was man braucht, ist eine Eingabeaufforderung, d. h. eine Texteingabe, die man in die ChatGPT-API einspeist, und voilà, man erhält seine Antwort. Wir befinden uns immer noch in dem Hype um die generative KI, bei dem die Vorteile einer Technologie überbewertet werden. Für Unternehmen ist es wichtig, die Fallstricke zu vermeiden und zu verstehen, wann und wie sie ChatGPT oder generative KI-Lösungen einsetzen sollten. In diesem Blogbeitrag blicken wir über den Hype hinaus und zeigen einen Ansatz zur Evaluierung und Implementierung von LLM-basierten Gen-KI-Anwendungsfällen.

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R
Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

Caret: ein Blumenstrauß an Funktionen für die prädiktive Modellbildung in R

R ist eine der populärsten Open-Source-Programmiersprachen für Predictive Analytics. Ihr großer Vorteil ist das Comprehensive R Archive Network (CRAN) mit über 10.000 Paketen für verschiedenste Modelllösungen. Ein Hindernis ihrer Anwendung besteht jedoch in der häufig paketspezifischen Syntax (im Gegensatz zu z. B. Python). Das Paket Caret versucht, durch ein einheitliches Interface auf verschiedene Trainings- und Vorhersagefunktionen den Modellierungsprozess zu vereinfachen. Durch seine Datenvorbereitungs-, Merkmalsselektions- und Modell-Tuning-Funktionalität erleichtert Caret die Bildung und Evaluierung von prädiktiven Modellen. Dieser Blogeintrag zeigt auf, wie wir mit Caret verschiedenen Herausforderungen des Modellierungsprozesses begegnen können, insbesondere bei der Selektion und dem Tuning von Modellen.

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation
Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Recommender Systems – Teil 3: Personalisierte Empfehlungssysteme, Machine Learning und Evaluation

Algorithmen für personalisierte Empfehlungen

Nicht immer hinterlassen Nutzer ausreichend personalisierte Informationen entlang ihrer Customer Journey. Beispielsweise können neue Nutzer hinzukommen oder bestehende Kunden beim Surfen von Online-Angeboten nicht angemeldet sein. Nicht personalisierte Empfehlungssysteme, wie der Vorschlag häufig gemeinsam gekaufter Produkte, bieten Unternehmen in diesem Fall trotzdem Möglichkeiten für Empfehlungen. Je individueller diese jedoch auf den Kunden zugeschnitten werden, desto besser. Deshalb werden im Folgenden Verfahren vorgestellt, die deutlich stärker personalisiert sind und die Präferenzen der Kunden erlernen. Zum Verständnis dieser Methoden ist es hilfreich, sich das Problem als dünnbesetzte Matrix vorzustellen.

Nutzen von privaten Python Packages in Vertex AI - 3
Nutzen von privaten Python Packages in Vertex AI - 3

Nutzen von privaten Python Packages in Vertex AI - 3

Als Data Scientists trainieren wir regelmäßig unterschiedliche Machine-Learning-Modelle in der Cloud. Wie Du Dein Modelltraining mithilfe von Python Packages nun strukturierst, erfährst Du hier. Denn obwohl jedes Modell seinen eigenen, individuellen Anwendungszweck hat, fällt irgendwann auf, dass Codeschnipsel von einem Projekt in das andere kopiert werden. Bei mir ist es häufig Code für das Einlesen von Daten aus einer Datenbank oder für einen Preprocessing-Schritt. Um genau dieses Kopieren von Code zu vermeiden, sind Python-Pakete ideal geeignet – oft genutzte Funktionen lassen sich an einem Ort sammeln. Dies bringt viele Vorteile bei der Wartung und dem Testing des Codes.Im folgenden Blogartikel wollen wir uns ansehen, wie ein Python-Paket in der GCP nutzbar gemacht und in einen Vertex-AI-Training-Job eingebunden werden kann.