Python-Paket im Vertex-AI-Training-Job und der GCP

Blog

Nutzen von privaten Python Packages in Vertex AI - 3

Laurenz Reitsam

Veröffentlicht am

7.6.2022

8.5.2025

Aktualisiert am

8.5.2025

Data Science & AI

Nutzen von privaten Python Packages in Vertex AI - 3

Als Data Scientists trainieren wir regelmäßig unterschiedliche Machine-Learning-Modelle in der Cloud. Wie Du Dein Modelltraining mithilfe von Python Packages nun strukturierst, erfährst Du hier. Denn obwohl jedes Modell seinen eigenen, individuellen Anwendungszweck hat, fällt irgendwann auf, dass Codeschnipsel von einem Projekt in das andere kopiert werden. Bei mir ist es häufig Code für das Einlesen von Daten aus einer Datenbank oder für einen Preprocessing-Schritt. Um genau dieses Kopieren von Code zu vermeiden, sind Python-Pakete ideal geeignet – oft genutzte Funktionen lassen sich an einem Ort sammeln. Dies bringt viele Vorteile bei der Wartung und dem Testing des Codes.Im folgenden Blogartikel wollen wir uns ansehen, wie ein Python-Paket in der GCP nutzbar gemacht und in einen Vertex-AI-Training-Job eingebunden werden kann.

Inhaltsverzeichnis

Erstellen eines Python Packages

Bevor wir unseren Python-Code als Package zur Verfügung stellen können, müssen wir sicherstellen, dass unser Python-Modul dafür die notwendigen Voraussetzungen erfüllt:

Das Modul verfügt über mindestens eines der Files setup.py, setup.cfg oder pyproject.toml. Diese können individuell oder auch kombiniert dafür genutzt werden, zu definieren, wie das Python-Paket später installiert werden soll. So können z. B. Voraussetzungen wie eine Python-Version ≥ 3.9 gesetzt werden.
Der Code sollte eine Ordnerstruktur aufweisen, wie in folgendem Snippet dargestellt ist: Es gibt einen Hauptordner, der alle Konfigurationsdateien und einen Unterordner beinhaltet. Der Unterordner enthält den tatsächlichen Python-Code

structure of package: ├── setup.py # or setup.cfg or pyproject.toml ├── my_package │ ├── __init__.py │ └── example.py

Nachdem wir sichergestellt haben, dass diese Voraussetzungen erfüllt sind, können wir uns aus unserem Modul Paketdistributionen erstellen:

cd my-package python3 -m pip install --upgrade build python3 -m build ls ./dist

Dieser Code installiert uns das Python-native Build-Tool und erstellt uns damit die Python-Distributionen. Das Ergebnis ist eine WHEEL-Datei und ein TAR-Archiv.

Aufsetzen der Google Artifact Registry

Google bietet mit der Artifact Registry eine Komplettlösung für Images und Code Libraries an. Wir werden diese nutzen, um unsere Python-Pakete zu versionieren und zu verwalten. Die Registry lässt sich einfach über die UI oder mit gcloud erstellen.

Einbinden der Google Artifact Registry

Bevor wir unser Package in die Registry laden können, müssen wir noch ein paar Vorbereitungen treffen:

Als Erstes wird ein pypirc-File benötigt. Dieses File enthält Spezifikationen für den Upload von Paketen in private Registries. Hier listen wir unsere neu erstellte Artifact Registry und geben deren URL an.

# ~/.pypirc [distutils] index-servers = my-repository [my-repository] repository =

‍

Jetzt müssen wir uns noch für den Zugriff auf die Google Artifact Registry autorisieren. Dies erfolgt über Pythons Keyring Service. Hierfür brauchen wir noch Googles eigene Keyring Library, die uns erlaubt, unsere GCP-Credentials für die Anmeldung zu verwenden. Durch das Login bei gcloud und die Installation der Library müssen wir uns nicht mehr weiter um Zugriffsrechte kümmern.

gcloud auth login python3 -m pip install keyrings.google-artifactregistry-auth

Upload des Packages in die Google Artifact Registry

Unsere Distributionen sind gebaut, unsere Registry bereit und wir sind für den Zugriff autorisiert. Jetzt können wir unser Paket in die Registry laden. Der Upload erfolgt mit dem Python-Standard-Tool Twine. Nachdem wir Twine installiert haben, können wir über die Kommandozeile das Paket in die Registry hochladen.

python3 -m pip install twine twine upload --repository-url ./dist/*

Geschafft! Unser Package ist in der Cloud. Von jetzt an ist es für all unsere Services erreichbar.

Nutzung des privaten Packages in einem Docker-Container

Jetzt können wir das Package direkt in einem neuen Service nutzen. Das geht am einfachsten in containerbasierten Lösungen wie zum Beispiel Vertex-AI-Training-Jobs mit Custom-Containern.

Hierfür listen wir das Package in den Requirements des Docker-Dienstes. Das Einzige, was hier zu beachten ist, ist, dass wir die URL unserer Registry angeben müssen. So wissen Tools wie Pip, wo sie nach den gelisteten Dependencies suchen müssen.

Achtung! Die URL benötigt das Suffix „/simple“. So wissen Dependency-Management-Tools (Pip), wie mit dem Server zu kommunizieren ist. Für mehr Infos siehe PEP 503.

# requirements.txt --extra-index-url /simple/ my-package ...

Im Docker-Build-Prozess ist es anschließend noch mal notwendig, Googles Keyring Library zu installieren. So stehen auch dem Docker-Daemon die Rechte zu, mit der Registry zu kommunizieren.

# Dockerfile FROM python:3.9-slim WORKDIR /app COPY ./train.py . RUN pip install keyrings.google-artifactregistry-auth RUN pip install -r requirements.txt CMD python ./train.py

Fertig! Das Image kann gebaut und gepusht werden.

Fazit

Wir haben gerade gesehen, wie man Python-Pakete mit der Google Cloud Registry verfügbar machen kann und wie diese aus Vertex AI heraus genutzt werden können. Welche Funktionalitäten sind es, die Du häufig von einem Projekt in andere kopierst? Ein perfekter Ausgangspunkt, um aufzuräumen – schiebe den Code in ein Paket und mache ihn für Deine zukünftigen Projekte nutzbar.

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du willst datengetrieben arbeiten, Prozesse optimieren oder innovative Technologien nutzen? Unser Blog gibt Dir wertvolle Impulse – aber Deine spezifischen Fragen klären wir am besten direkt.

Sprich mit uns – wir sind nur einen Klick entfernt!

Du hast Fragen? Kontaktiere uns

Dr. Sebastian Petry

Domain Lead Data Science & AI

Wer ist b.telligent?

Du willst den IoT Core durch eine Multi-Cloud-Lösung ersetzen und die Vorteile weiterer IoT-Services von Azure oder Amazon Web Services nutzen? Dann melde Dich bei uns und wir unterstützen Dich bei der Umsetzung mit unserer Expertise und dem b.telligent Partnernetzwerk.

Erfahre mehr über uns

The top of an office building on a bright day

Vorheriger Beitrag

Alle Beiträge

Nächster Beitrag

Kein vorheriger Beitrag

Kein nächster Beitrag

Nutzen von privaten Python Packages in Vertex AI - 3

Inhaltsverzeichnis

Erstellen eines Python Packages

Aufsetzen der Google Artifact Registry

Einbinden der Google Artifact Registry

Upload des Packages in die Google Artifact Registry

Nutzung des privaten Packages in einem Docker-Container

Fazit

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München

Nutzen von privaten Python Packages in Vertex AI - 3

Inhaltsverzeichnis

Erstellen eines Python Packages

Aufsetzen der Google Artifact Registry

Einbinden der Google Artifact Registry

Upload des Packages in die Google Artifact Registry

Nutzung des privaten Packages in einem Docker-Container

Fazit

Lass uns gemeinsam mehr aus Deinen Daten machen!

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

Ähnliche Beiträge

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Azure-KI-Suche dimensionieren und skalieren

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München