Predictive Analytics World, Zweiter Tag

Der zweite Tag der Predictive Analytics World begann gleich mit einem Höhepunkt. Der Vortrag von Phil Winters war das Resultat einer Wette mit einem der Konferenzveranstalter; dieser hatte Winters herausgefordert, er könne sicher keinen Vortrag über das Internet of Things halten. Nun ja, diese Wette hat der Veranstalter krachend verloren.

Internet of Things

Allerdings war die Herausforderung groß. Phil hatte sich zum Ziel gesetzt, einen Vortrag zu halten, dessen Methoden und Daten im Detail nachvollziehbar sind. Die Daten mussten also öffentlich zugänglich sein. Nun ist es höchst schwierig, passende Daten für das Thema „Internet of Things“, Sensordaten also, zu finden, die öffentlich zugänglich sind. Fündig wurde er, nach mehrwöchiger Recherche, schließlich in Washington, D.C. Dort gibt es einen Fahrradverleiher, der ähnlich funktioniert wie der hierzulande von der Bahn in einigen Großstädten angebotene Service. Dieser Verleiher wird vom District of Columbia finanziert, und Bestandteil des Vertrages ist es, dass der Verleiher die anfallenden Daten frei ins Internet stellen muss. Dabei handelt es sich um Daten von Sensoren, die an den Fahrrädern und Verleihstationen die Anmietung und Rückgabe von Fahrrädern registrieren. Jeder einzelne Entleihvorgang lässt sich damit samt Start- und Zielstation nachvollziehen. Für diejenigen, die gern selbst mal mit den Daten spielen möchten, kommt hier der Link: http://www.capitalbikeshare.com/system-data

Wer das allerdings möchte, tut gut daran, Phils Warnung in Bezug auf Sensordaten zu beherzigen: Man könnte meinen, diese müssten in schön einheitlichen, aufgeräumten Formaten vorliegen, weil sie ja automatisch erzeugt werden. Wer das glaubt, hat die Rechnung ohne den Wirt gemacht, der hier in Gestalt der Betreiber auftritt und in unvorhersehbaren Zeitabständen aus unklaren Gründen Änderungen am Datenformat vornimmt. Die lästige Datenbereinigung kostet also genauso viel Zeit wie sonst auch.

Die zweite Erkenntnis in Bezug auf Sensordaten ist etwas weniger überraschend: Ohne Anreicherung sind sie eher langweilig. In diesem Kontext bieten sich insbesondere geographische Daten an, die sich über Googles API und die passenden KNIME-Knoten (es gibt fertige Knoten für REST-Abfragen) bequem akquirieren lassen.

Und natürlich kann man die Daten nicht nur aufbereiten und akquirieren, sondern auch für Vorhersagen nutzen. Das Vorhersageziel hatte in diesem Fall mit einer besonderen Regelung in dem Vertrag des Verleihers mit dem District of Columbia zu tun: Wenn eine Station ganz leer oder ganz voll ist (also entweder Ausleihe oder Rückgabe unmöglich ist), muss der Verleiher innerhalb einer Stunde Abhilfe schaffen. Da wäre es natürlich schön, diesen Zustand schon vorher kommen zu sehen, konkret: mit einer Stunde Vorlauf. Dieses Ziel ließ sich bequem und ohne methodische Klimmzüge erreichen. Dabei fielen ein paar interessante Erkenntnisse ab, insbesondere dass das Wetter für die Prognose irrelevant war. Auf den ersten Blick ist das überraschend. Es bestätigt aber, was ich als Hamburger schon lange weiß: Es gibt kein schlechtes Wetter, sondern nur falsche Kleidung. Die Washingtoner Radfahrer scheinen eine ähnliche Einstellung zu haben.

Realtime Text Analytics

Der zweite herausragende Vortrag des Tages folgte gleich auf den ersten. Es handelte sich um den Vortrag der Baader Bank über eine herausragende Small-Data-Anwendung, die paradoxerweise einen Preis als bestes Big-Data-Projekt gewonnen hat. Hier geht es um ein System, das die Finanznachrichten von Bloomberg automatisiert auswertet und auf Nachrichten hin untersucht, die größere Kursbewegungen auslösen können.

Die Beschränkung auf Bloomberg hat dabei drei Gründe. Zum einen ist es eine journalistisch sorgfältig bearbeitete Quelle, es besteht also eine wesentlich geringere Gefahr, Kursmanipulationsversuchen aufzusitzen, als wenn man zum Beispiel Twitter oder Blogs mit einbezieht. Zum anderen kann man sich so auf englischsprachige Texte beschränken, die obendrein verhältnismäßig einheitlich formuliert sind und dem Natural-Language-Processing-Modul viele Fallstricke ersparen, die in umgangssprachlicheren Quellen zu finden sind. Die Beschränkung auf Bloomberg mit einigen hunderttausend Nachrichten pro Tag hilft ferner dabei, die Verarbeitung in einem Geschwindigkeitsbereich zu halten, in dem man von Realtime sprechen kann. Dieser letzte Punkt wäre allerdings auch mit deutlich größeren Datenmengen noch machbar; die verwendete Hardware ist nicht wesentlich stärker als ein besserer Desktoprechner.

Die Ergebnisse der Textanalyse einschließlich Sentiment werden in einem Wissensnetzwerk miteinander in Beziehung gesetzt. Hier werden die Genauigkeitsbeschränkungen, denen eine Sentimentanalyse heute unweigerlich unterliegt, elegant abgefedert, indem man sich weniger für das Sentiment selbst interessiert, sondern dafür, ob das Sentiment für ein bestimmtes Unternehmen in den vorliegenden Nachrichten eher stabil ist oder sich gerade destabilisiert. Im letzteren Fall werden die Händler vor einer instabilen Marktsituation gewarnt. Diese Stabilitätsanalyse berücksichtigt die Sentimentfortpflanzung innerhalb des Wissensnetzwerks. Wenn beispielsweise Apple Samsung verklagt, so hat das auch Auswirkungen beispielsweise auf die Konkurrenten von Samsung. Besonders gefallen haben mir als Mathematiker die Anleihen bei der Chaostheorie für die Stabilitätsanalyse. Es ist erfrischend zu sehen, dass jemand diesen Zweig der Mathematik für das benutzt, wofür er gedacht ist, nämlich zum Beispiel chaotische von nichtchaotischen Systemen zu unterscheiden, anstatt ihn nur als einen Steinbruch von Begriffen zu benutzen, mit denen man Eindruck schinden kann. Insgesamt war der Vortrag ein weiteres schönes Beispiel für die Substanz und den Tiefgang der Veranstaltung.