Blog Posts: Data Science & AI

Nahaufnahme von Händen auf einer Laptop-Tastatur

Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren

3.11.2025

Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren

RAG implementiert – und jetzt? Embeddings sind das Fundament von RAG-Systemen. In diesem Blogbeitrag zeigen wir anhand eines CV-Matching Use Cases, wie Du mit der Analyse von Text-Embeddings die Vektorsuche effektiver und das Retrieval in GenAI Projekten qualitativer und fairer gestalten kannst.

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

7.3.2025

8.5.2025

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Mit Snowflake Document AI können innerhalb der Datenplattform ganz einfach Informationen aus Dokumenten, zum Beispiel Rechnungen oder handgeschriebenen Dokumenten, extrahiert werden. Document AI ist unkompliziert und leicht zu nutzen: entweder via grafische Benutzeroberfläche, via Code in einer Pipeline oder integriert in eine Streamlit-Applikation. In diesem Beitrag erklären wir Dir das Feature, beschreiben, wie die Integration in die Plattform funktioniert, und stellen interessante Anwendungsmöglichkeiten vor.

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

28.10.2019

8.5.2025

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Neuronale Netze werden erfolgreich auf so ziemlich jeden Datentyp angewandt: Bilder, Audio, Texte, Videos, Graphen usw. Nur wenn es um Tabellendaten geht, sind baumbasierte Ensembles wie Random Forests und Gradient Boosted Trees immer noch sehr viel verbreiteter. Wenn man diese erfolgreichen Klassiker durch neuronale Netze ersetzen will, dürfte Ensemble Learning immer noch eine Schlüsselidee sein. Dieser Blogbeitrag erklärt, warum das so ist. Dazu gibt’s ein Notebook mit den praktischen Details.

Azure-KI-Suche dimensionieren und skalieren

4.9.2024

8.5.2025

Azure-KI-Suche dimensionieren und skalieren

Azure AI Search, Microsofts serverloses Angebot für das R in RAG, hat seine eigene Skalierungslogik. Sie verbirgt viel von der Komplexität serverbasierter Lösungen, erfordert aber spezifische Kenntnisse.

30.7.2024

8.5.2025

Effiziente Abstands-Joins in Polars

Polars: schneller entwickeln, schneller ausführen

‍Polars, der in Rust geschriebene Pandas-Herausforderer, sorgt für erhebliche Beschleunigung nicht nur in der Ausführung des Codes, sondern auch in der Entwicklung. Pandas krankt seit jeher an einer API, die an vielen Stellen „historisch gewachsen“ ist. Ganz anders Polars: Eine API, die von Anfang an auf logische Konsistenz ausgelegt ist und deren Stringenz mit jedem Release sorgfältig gepflegt wird (im Zweifelsfall auch unter Verlusten an Rückwärtskompatibilität), sorgt für eine erheblich schnellere Entwicklung. An vielen Stellen, wo man bisher Pandas eingesetzt hat, kann man es problem los durch Polars ersetzen: In Ibis-Analytics-Projekten, und natürlich einfach für die tägliche Datenaufbereitung aller Art. Gut macht sich die überlegene Performance auch in interaktiven Umfeldern wie PowerBI .

13.6.2024

8.5.2025

Wie ausgereift ist Dein ML-Ansatz?

Was sind MLOps?

Machine Learning Operations (MLOps) sind eine Praxis für die Zusammenarbeit und Kommunikation zwischen Datenwissenschaftler:innen und Betriebsexpert:innen, um die Lebenszyklen von Machine Learning (ML) in der Produktion zu verwalten. Dabei werden die Grundsätze von DevOps in den ML-Lebenszyklus einbezogen, um den Prozess von der Modellentwicklung bis zur Bereitstellung und Überwachung zu rationalisieren und zu automatisieren. Ziel von MLOps ist es, ML-Modelle auf strukturierte und effiziente Art und Weise schneller bereitzustellen und zu skalieren.

Automatisierte Bildverarbeitung: Eine Standard-Architektur

3.4.2024

8.5.2025

Automatisierte Bildverarbeitung: Eine Standard-Architektur

Der PoC ist gemacht, ein produktionsreifes Modell wurde trainiert und der Showcase hat alle Stakeholder:innen begeistert. Doch damit sich nun auch Business Cases mit dem Modell realisieren lassen, bedarf es einer Einbettung des Modells (und der Prozessierung) in die bestehende (Cloud-)Landschaft.

8.6.2022

8.5.2025

LightGBM auf Vertex AI

In der Google Cloud ist Vertex AI das MLOps-Framework. Es ist sehr flexibel und kann grundsätzlich mit jedem beliebigen Modellierungs-Framework verwendet werden. Einige sind jedoch etwas einfacher zu nutzen als andere: TensorFlow, XGBoost und scikit-learn beispielsweise werden mit vorgefertigten und durchaus hilfreichen Container-Images unterstützt. nDieser Blogbeitrag zeigt, wie Du andere Frameworks einsetzen kannst. Wir verwenden ein LightGBM-Modell als Beispiel, der Arbeitsablauf kann aber recht leicht auf jedes andere Modellierungspaket übertragen werden.

8.11.2021

8.5.2025

Wie installiert man Ray unter Windows?

Ray erfreut sich in der Machine-Learning-Community wachsender Beliebtheit. Es unter Windows zum Laufen zu bringen, kann jedoch knifflig sein. Wir zeigen Dir, wie es trotzdem funktioniert.

Data Science & AI

Text-Embeddings & Vektorsuche: Retrieval in RAG-Systemen optimieren

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Azure-KI-Suche dimensionieren und skalieren

Effiziente Abstands-Joins in Polars

Polars: schneller entwickeln, schneller ausführen

Wie ausgereift ist Dein ML-Ansatz?

Was sind MLOps?

Automatisierte Bildverarbeitung: Eine Standard-Architektur

LightGBM auf Vertex AI

Wie installiert man Ray unter Windows?

München

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Basel

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München