Die Highlights des Spark Summit Europe 2017

Ich freue mich, dieses Jahr mit diesem Blog-Eintrag wieder live vom Spark Summit Europe berichten zu können. Es ist der dritte Summit für den europäischen Raum und findet nach Amsterdam 2015 und Brüssel 2016 dieses Jahr in Dublin statt.

Die Veranstaltung

Der Summit erstreckt sich über drei Tage, beginnend mit einem Tag für eine Reihe von angebotenen Intensivschulungen. Die offizielle Eröffnung findet jedoch am Morgen des zweiten Tages mit den ersten Keynote Speeches statt. Eröffnet wird der Teil der Veranstaltung wie immer vom ursprünglichen Spark-Entwickler Matei Zaharia persönlich.

Dieses Jahr sind etwa 1.200 Teilnehmer vor Ort bei einem Angebot von 100 Vorträgen in 5 separaten Tracks mit den Schwerpunkten Developer, Streaming, Data Science, Technical Deep Dives und Data Engineering. Trotz allem ist es, finde ich, noch eine nahezu familiäre Veranstaltung, wo sich die ursprüngliche Spark-Crew in den Pausen unters Volk mischt. Während der Keynote Speech saß schräg hinter mir beispielsweise Holden Karau, Entwicklerin der ersten Stunde und Autorin mehrerer Spark-Bücher.

Aber zurück zu den angebotenen Inhalten. Vor meinem ersten Spark Summit habe ich ihn mir sehr Big-Data-lastig vorgestellt. Tatsächlich ist es im Kern jedoch eine spezialisierte Data-Science-Veranstaltung. Nahezu jeder praxisbezogene Vortrag birgt einen komplexen Anwendungsfall für Machine Learning. Alle Anwendungen beinhalten Big-Data-Quellen, aber es ist genau der Benefit von Spark, diesen Aspekt durch die Performance und Usability in den Hintergrund treten zu lassen.

Update von Matei

In der ersten Keynote Speech von Matei Zaharia wurden die neuesten Features für das kommende Spark 2.3 vorgestellt. Es gibt dabei zwei aktuelle Entwicklungsschwerpunkte von Databricks und der Spark-Community: Streaming und Deep Learning. Beides soll durch Spark für den Enduser nochmal vereinfacht werden.

Structured Streaming

Ziel ist es, eine „High Level End-to-End API“ mit einem sehr simplen Interface zur Verfügung zu stellen. Ein Stream soll dadurch analog einem Data Frame abrufbar sein. Also auch in Form von Spark SQL und verknüpfbar mit Data Frames aus Batch-Berechnungen. Abgerundet wird Structured Streaming mit dem Versprechen eines „Exactly once Processing“, also einer ausfallrobusten Stream-Verarbeitung

Deep Learning

Auch hier soll mit Spark 2.3 eine neue API bereitgestellt werden, die Deep Learning Pipelines. Dadurch sollen mehr User in die Lage versetzt werden, Deep Learning produktiv einzusetzen. Die API basiert auf den ML Pipelines und unterstützt vor allem Tensorflow and Keras.

Eine Databricks-Mitarbeiterin führte hierzu ein Deep-Learning-Beispiel mit der Klassifikation von Schuhen über die Bilder aus Online-Shops vor. Das Beispiel benötigt nur 7 Zeilen Code (!) und war in wenigen Minuten gut vermittelbar.

Weitere Improvements

PySpark-Nutzer werden sich riesig über die Ankündigung freuen, dass ab Spark 2.3 eine der größten PySpark-Performance-Bremsen gelöst wird. Und zwar wird es möglich sein, vektorisierte Pandas-ähnliche Funktionen als UDFs (User Defined Functions) zu verwenden. Darüber hinaus wird es weitere Performance-Steigerungen für Python und R sowie einen besseren Support für Kubernetes geben.

Databricks Delta

Der CEO von Databricks, Ali Ghodsi, konnte das Publikum mit der Premiere von Databricks Delta überraschen.

Delta ist ein vereinheitlichtes System für Datenmanagement und erweitert das bisherige Databricks-Ökosystem. Es wird dabei auf Basis einfacher Massenspeicher (z. B. S3, HDFS mit Parquet) eine strukturierte Abstraktionsschicht geboten, die ACID-Konformität, hohe Performance und niedrige Latenz verspricht.

In den Worten von Ali: „A Unified Management System for Real-time Big Data: Combining the best of data warehouses, data lakes and streaming.“

In einer Live-Demo konnte eindrucksvoll gezeigt werden, wie mit SQL ein Kafka-Topic abgefragt wurde und sich die Ergebnisse in Echtzeit aktualisierten.

Programmschwerpunkte

Streaming und Deep Learning sind auch die Schwerpunkte in den weiteren Vorträgen der beiden Tage. Gerade beim Streaming gibt es gegenüber Spark mittlerweile ernste Konkurrenz (Kafka Streaming, Apache Flink). Laut Databricks wird Spark mit dem nächsten Release 2.3 wieder enorm aufholen und in Bezug auf Performance sogar deutlich überholen. Es bleibt spannend, welche Technologie sich bei Streaming durchsetzen wird. In Bezug auf komplette „End-to-End“-Anwendungen, die über das Streaming hinaus auch Machine-Learning-Modelle beinhalten, sehe ich Spark allerdings jetzt schon konkurrenzlos.

Damit verabschiede ich mich aus Dublin und eile zum nächsten Vortrag!