Laufwerke katalogisieren in Python: Eine Einführung von b.telligent.

Blog

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

Stefan Seltmann

Veröffentlicht am

4.3.2019

8.5.2025

Aktualisiert am

8.5.2025

Data Science & AI

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

Immer noch das Problem: Ordner oder Laufwerke katalogisieren

Im letzten Eintrag haben wir in einer Lösung von weniger als zehn Zeilen mit einer rekursiven Funktion die Möglichkeit geschaffen, Ordner zu scannen und die Dateien nach Änderungsdatum und Dateigröße auswertbar zu machen.

Aufbauend auf diesem Beispiel möchte ich die Latte nochmal etwas höher legen und noch bessere Alternativen aufzeigen.

Inhaltsverzeichnis

Pfade verketten mit Pathlib

Alter Wein in neuen Schläuchen?

Die finale Lösung für Pfadverkettung sah im früheren Beispiel so aus:

path_file = os.sep.join([path_dir, filename])

Das Positive daran ist, dass die Lösung unabhängig vom Betriebssystem funktioniert und Strings nicht direkt mit „+“-Zeichen oder String-Formatierungen kombinieren muss.

Es besteht jedoch noch ein Fehlerpotential, nämlich wenn jemand den Verzeichnispfad versehentlich oder aus falscher Überzeugung mit einem abschließenden Pfadtrenner definiert.

path_dir: str = r"C:/Users/sselt/Documents/blog_demo/"  # abschließender Trenner

filename: str = "some_file"

path_file = os.sep.join([path_dir, filename])

# C:/Users/sselt/Documents/blog_demo/\some_file

Dieses Beispiel zeigt zwar funktionierenden Code, der Aufruf des Pfades wird aufgrund des letzten fehlerhaften Trenners jedoch einen Fehler verursachen. Solche Fehler können ständig auftauchen, wenn User die Pfade in Config-Files, weit weg vom Code, pflegen und nicht auf die Konventionen achten.

Seit Python 3.4 gibt es jedoch eine bessere Lösung in Form des pathlib-Moduls. Es deckt die datei- und ordnerbezogenen Funktionen des os-Moduls von Python über einen objektorientierten Ansatz ab.

Hier zunächst die alte Variante:

import os

path = "C:/Users/sselt/Documents/blog_demo/"

os.path.isdir(path)

os.path.isfile(path)

os.path.getsize(path)

Und hier die neue Alternative

from pathlib import Path

path: Path = Path("C:/Users/sselt/Documents/blog_demo/")

path.is_dir()

path.is_file()

path.stat().st_size

Beides liefert hier genau dieselben Ergebnisse. Warum ist die zweite Variante so viel besser?

Objektorientiert und fehlertoleranter

Zunächst einmal sind die Aufrufe objektorientiert, was Geschmackssache sein kann, aber mir persönlich sehr viel besser gefällt. Es gibt hier ein Objekt wie die Pfaddefinition, und die hat Eigenschaften und Methoden.

Spannender ist aber ein hier angewendetes Beispiel für das Überladen von Operatoren:

filename: Path = Path("some_file.txt")

path: Path = Path("C:/Users/sselt/Documents/blog_demo")

print( path / filename )

# C:\Users\sselt\Documents\blog_demo\some_file.txt

Die Division von zwei Pfaden sieht hier zunächst wie ungültiger Code aus. Tatsächlich wurde lediglich im Path-Objekt der Divisionsoperator so überladen, dass er wie eine Pfadverkettung funktioniert.

Neben diesem Syntactic Sugar werden über Path-Objekte noch andere typische Fehler abgefangen:

filename: Path = Path("some_file.txt")

# hier path mit überflüssigem Trenner am Schluss

path: Path = Path("C:/Users/sselt/Documents/blog_demo/")

# hier path mit doppeltem Trenner

path: Path = Path("C:/Users/sselt/Documents/blog_demo//")

# hier path völlig durcheinander

path: Path = Path("C:\\Users/sselt\\Documents/blog_demo")  # hier ein wilder Mix

# alle Varianten führen zum selben Ergebnis

print(path/filename)

# C:\Users\sselt\Documents\blog_demo\some_file.txt

Diese Variante ist also nicht nur schöner, sondern auch robuster gegenüber Falscheingaben. Neben anderen Vorteilen ist der Code auch völlig unabhängig vom Betriebssystem. Man definiert zwar nur ein generisches Path-Objekt, auf einem Windows-System manifestiert sich dieses aber als „WindowsPath“ und auf einem Linux-System als „PosixPath“.

Die meisten Funktionen, die sonst einen String als Pfad erwarten, kommen auch direkt mit einem „Path“ klar. In den seltenen Ausnahmen kann man einfach mit „str(Path)“ das Objekt wieder auflösen.

Ablaufen der Pfade mit os.walk

In der Lösung des letzten Blogs verwendete ich os.listdir, os.path.isdir und eine rekursive Funktion, um durch den Pfadbaum zu iterieren und zwischen Ordnern und Dateien zu unterscheiden.

Eine schönere Lösung bietet os.walk. Die Methode erzeugt keine Liste, sondern erstmal einen Iterator, den man Zeile für Zeile abrufen kann. Die Ergebnisse beinhalten dann jeweils den Ordnerpfad und in einer Liste alle Dateinamen unter diesem Pfad. Das Ganze passiert von sich aus rekursiv, so dass man mit einem Aufruf alle Daten erhält.

Die bessere Lösung mit os.walk und Pathlib

Wenn man beide eben vorgestellten Techniken kombiniert, erhält man eine neue Lösung, die schlanker ist, völlig betriebssystemunabhängig, robuster gegenüber inkonsequenten Pfadformaten und frei von explizten Rekursionen:

Wenn man hier in Bezug auf Best Practice noch eins nachlegen kann, dann schreibt mir! Ich freu mich auf Feedback.

Lese hier den ersten Teil des Blogbeitrags.

Du hast Fragen? Kontaktiere uns

Dr. Sebastian Petry

Domain Lead Data Science & AI

Wer ist b.telligent?

Du willst den IoT Core durch eine Multi-Cloud-Lösung ersetzen und die Vorteile weiterer IoT-Services von Azure oder Amazon Web Services nutzen? Dann melde Dich bei uns und wir unterstützen Dich bei der Umsetzung mit unserer Expertise und dem b.telligent Partnernetzwerk.

Erfahre mehr über uns

The top of an office building on a bright day

Vorheriger Beitrag

Alle Beiträge

Nächster Beitrag

Kein vorheriger Beitrag

Kein nächster Beitrag

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

Immer noch das Problem: Ordner oder Laufwerke katalogisieren

Inhaltsverzeichnis

Pfade verketten mit Pathlib

Alter Wein in neuen Schläuchen?

Und hier die neue Alternative

Objektorientiert und fehlertoleranter

Ablaufen der Pfade mit os.walk

Die bessere Lösung mit os.walk und Pathlib

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München

VERY Best Practice: Arbeiten in Python mit Pfaden - Teil 2

Immer noch das Problem: Ordner oder Laufwerke katalogisieren

Inhaltsverzeichnis

Pfade verketten mit Pathlib

Alter Wein in neuen Schläuchen?

Und hier die neue Alternative

Objektorientiert und fehlertoleranter

Ablaufen der Pfade mit os.walk

Die bessere Lösung mit os.walk und Pathlib

Du hast Fragen? Kontaktiere uns

Your contact person

Dr. Sebastian Petry

Wer ist b.telligent?

Ähnliche Beiträge

Snowflake Document AI – Einfache Extraktion und Verarbeitung von Daten unstrukturierter Dokumente

Neural Averaging Ensembles für Tabellendaten mit TensorFlow 2.0

Azure-KI-Suche dimensionieren und skalieren

München

Basel

Berlin

Cluj

Düsseldorf

Frankfurt

Hamburg

Nürnberg

Wien

Zürich

Cluj

Wien - Postanschrift

Wien - Besucheranschrift

Basel

Zürich

Nürnberg

Frankfurt

Düsseldorf

Hamburg

Berlin

München