Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur
Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren
Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren

Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren

RAG implementiert – und jetzt? Embeddings sind das Fundament von RAG-Systemen. In diesem Blogbeitrag zeigen wir anhand eines CV-Matching Use Cases, wie Du mit der Analyse von Text-Embeddings die Vektorsuche effektiver und das Retrieval in GenAI Projekten qualitativer und fairer gestalten kannst.

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente
Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Mit Snowflake Document AI können innerhalb der Datenplattform ganz einfach Informationen aus Dokumenten, zum Beispiel Rechnungen oder handgeschriebenen Dokumenten, extrahiert werden. Document AI ist unkompliziert und leicht zu nutzen: entweder via grafische Benutzeroberfläche, via Code in einer Pipeline oder integriert in eine Streamlit-Applikation. In diesem Beitrag erklären wir Dir das Feature, beschreiben, wie die Integration in die Plattform funktioniert, und stellen interessante Anwendungsmöglichkeiten vor.

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0
Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Neuronale Netze werden erfolgreich auf so ziemlich jeden Datentyp angewandt: Bilder, Audio, Texte, Videos, Graphen usw. Nur wenn es um Tabellendaten geht, sind baumbasierte Ensembles wie Random Forests und Gradient Boosted Trees immer noch sehr viel verbreiteter. Wenn man diese erfolgreichen Klassiker durch neuronale Netze ersetzen will, dürfte Ensemble Learning immer noch eine Schlüsselidee sein. Dieser Blogbeitrag erklärt, warum das so ist. Dazu gibt’s ein Notebook mit den praktischen Details.

Azure-KI-Suche dimensionieren und skalieren
Azure-KI-Suche dimensionieren und skalieren

Azure-KI-Suche dimensionieren und skalieren

Azure AI Search, Microsofts serverloses Angebot für das R in RAG, hat seine eigene Skalierungslogik. Sie verbirgt viel von der Komplexität serverbasierter Lösungen, erfordert aber spezifische Kenntnisse.

Effiziente Abstands-Joins in Polars
Effiziente Abstands-Joins in Polars

Effiziente Abstands-Joins in Polars

Polars: schneller entwickeln, schneller ausführen

Polars, der in Rust geschriebene Pandas-Herausforderer, sorgt für erhebliche Beschleunigung nicht nur in der Ausführung des Codes, sondern auch in der Entwicklung. Pandas krankt seit jeher an einer API, die an vielen Stellen „historisch gewachsen“ ist. Ganz anders Polars: Eine API, die von Anfang an auf logische Konsistenz ausgelegt ist und deren Stringenz mit jedem Release sorgfältig gepflegt wird (im Zweifelsfall auch unter Verlusten an Rückwärtskompatibilität), sorgt für eine erheblich schnellere Entwicklung. An vielen Stellen, wo man bisher Pandas eingesetzt hat, kann man es problem los durch Polars ersetzen: In Ibis-Analytics-Projekten, und natürlich einfach für die tägliche Datenaufbereitung aller Art. Gut macht sich die überlegene Performance auch in interaktiven Umfeldern wie PowerBI .

Wie ausgereift ist Dein ML-Ansatz?
Wie ausgereift ist Dein ML-Ansatz?

Wie ausgereift ist Dein ML-Ansatz?

Was sind MLOps?

Machine Learning Operations (MLOps) sind eine Praxis für die Zusammenarbeit und Kommunikation zwischen Datenwissenschaftler:innen und Betriebsexpert:innen, um die Lebenszyklen von Machine Learning (ML) in der Produktion zu verwalten. Dabei werden die Grundsätze von DevOps in den ML-Lebenszyklus einbezogen, um den Prozess von der Modellentwicklung bis zur Bereitstellung und Überwachung zu rationalisieren und zu automatisieren. Ziel von MLOps ist es, ML-Modelle auf strukturierte und effiziente Art und Weise schneller bereitzustellen und zu skalieren.

Automatisierte Bildverarbeitung: Eine Standard-Architektur
Automatisierte Bildverarbeitung: Eine Standard-Architektur

Automatisierte Bildverarbeitung: Eine Standard-Architektur

Der PoC ist gemacht, ein produktionsreifes Modell wurde trainiert und der Showcase hat alle Stakeholder:innen begeistert. Doch damit sich nun auch Business Cases mit dem Modell realisieren lassen, bedarf es einer Einbettung des Modells (und der Prozessierung) in die bestehende (Cloud-)Landschaft.

LightGBM auf Vertex AI
LightGBM auf Vertex AI

LightGBM auf Vertex AI

In der Google Cloud ist Vertex AI das MLOps-Framework. Es ist sehr flexibel und kann grundsätzlich mit jedem beliebigen Modellierungs-Framework verwendet werden. Einige sind jedoch etwas einfacher zu nutzen als andere: TensorFlow, XGBoost und scikit-learn beispielsweise werden mit vorgefertigten und durchaus hilfreichen Container-Images unterstützt. nDieser Blogbeitrag zeigt, wie Du andere Frameworks einsetzen kannst. Wir verwenden ein LightGBM-Modell als Beispiel, der Arbeitsablauf kann aber recht leicht auf jedes andere Modellierungspaket übertragen werden.

Wie installiert man Ray unter Windows?
Wie installiert man Ray unter Windows?

Wie installiert man Ray unter Windows?

Ray erfreut sich in der Machine-Learning-Community wachsender Beliebtheit. Es unter Windows zum Laufen zu bringen, kann jedoch knifflig sein. Wir zeigen Dir, wie es trotzdem funktioniert.