Zum Hauptinhalt springen

Ein Blick in die Data-Science-Werkzeugkiste

In diesem Eintrag möchte ich gemeinsam mit Ihnen einen Blick in unsere Werkzeugkiste werfen. Das Thema bietet Stoff für mehr als einen Eintrag, und wir werden in diesem Blog immer mal wieder darauf zurückkommen.

Als Berater hat man es immer dann leicht, wenn der Kunde bereits eine umfangreiche Data-Science-Infrastruktur besitzt. Aber wie praktiziere ich Data Science, wenn mein Kunde nicht bereits über eine etablierte Softwareumgebung mit Statistiktools, Datenbanken und Visualisierungswerkzeugen verfügt? Für diesen Zweck benutzen wir unser „Data Science Survival Kit“. Das ist eine Zusammenstellung von Softwaretools, die darauf ausgelegt ist,  schnell mit unserer Arbeit beginnen zu können, wenn auf Kundenseite wenig zur Verfügung steht. Es handelt sich um Tools, die idealerweise mit geringem Installationsaufwand und ohne Lizenzprobleme daherkommen, die aber dennoch leistungsfähig sind und gut miteinander zusammenspielen.

Da gibt’s natürlich die üblichen Verdächtigen wie Python, über die wir auch noch schreiben werden – einsteigen ins Survival Kit möchte ich jedoch an einer ganz anderen Stelle: mit der Geovisualisierung. Landkartendarstellungen sind äußerst wertvoll, um Ergebnisse handhabbar zu machen. Moderne Geofinformationssysteme sind darüber hinaus nicht nur Visualisierungs- sondern auch mächtige Verarbeitungswerkzeuge. Unsere Werkzeugkiste enthält an dieser Stelle das Geoinformationssystem QGIS (siehe Screenshot). QGIS ist Open Source, schnell installiert und sehr mächtig.

 

geovisualisierung-geoinformationssystem-qgis

 

Besonders wichtig ist uns die hervorragende Datenbankintegration sowie die Möglichkeit, das Tool mit Hilfe von Python selbst zu erweitern. Einfache Visualisierungen wie der postleitzahlbasierte Screenshot sind damit zügig zu erstellen, aber auch komplexe und ungewöhnliche Kartendarstellungen sind machbar.

Neben der reinen Geovisualisierung eignet sich QGIS hervorragend zur Aufbereitung von Geodaten vor weiteren Analyseschritten außerhalb von QGIS. Es stehen diverse Geoalgorithmen zur Verfügung, von kürzesten Wegen über die Festellung von geometrischen Beziehungen (Zuordnungen von geographischen Punkten zu Flächenstücken wie PLZ-Gebieten zum Beispiel) bis hin zu verschiedenen Trendberechnungen. Da QGIS auch Zugriff auf die Algorithmen anderer Open-Source-Projekt wie SAGA bietet, lassen sich damit auch anspruchsvolle Geo-Data-Science-Aufgaben wie die Klassifizierung von Satellitenbildern durchführen.

Das nur als Appetithappen -- in späteren Einträgen werden wir von konkreten Beispielen berichten, wie sich QGIS in Projekte einbinden lässt.

Dr. Michael Allgöwer
Dr. Michael Allgöwer
Management Consultant
Machine Learning ist Michaels langjährige Spielwiese. Michael ist überzeugt, dass gutes Machine Learning eine Menge Branchenverständnis voraussetzt, und er liebt es, sich dieses Verständnis immer wieder zu erarbeiten. Sein neuestes Lieblingsthema ist Reinforcement Learning.
#MachineLearning #ReinforcementLearning #HumanIntelligence