Daten- oder zufallsgetrieben – wie treffen Sie Ihre Entscheidungen?

Datenbasierte Entscheidungsfindung gehört zu den wichtigsten Merkmalen moderner Organisationen. Anders als die Managementtheorie besagt, enthalten Daten in der Praxis aber immer auch Messfehler. Mit anderen Worten: Daten sind nie zu 100 Prozent korrekt. So weit, so bekannt. Trotzdem: nur die wenigsten handeln nach diesem Wissen. Finden Sie in diesem Blogbeitrag heraus, was passiert, wenn das Problem von Messfehlern ernstgenommen wird. Lassen Sie uns die bittere Pille gemeinsam schlucken.

Datenbasierte Entscheidungen – ein empfehlenswertes Beispiel

Stellen Sie sich das folgende fiktive, aber durchaus realistische Szenario vor: Ein großes Unternehmen nutzt regelmäßig Daten zum Marktanteil auf den Märkten, auf denen es vertreten ist. Dazu kauft es Marktforschungsdaten zu den weltweiten Branchenumsätzen, die detailliert nach Produktkategorien aufgeschlüsselt sind. Die Daten werden im gesamten Unternehmen genutzt, um wichtige Entscheidungen zur Vertriebsmethode, zu Produktionsstandorten und weiteren wichtigen Themen zu treffen. Die am häufigsten herangezogene Kennzahl ist das prozentuale Umsatzwachstum im Vergleich zum Vorjahr. Diese Zahl kann für das Gesamtgeschäft oder für einzelne Produkte und Länder betrachtet werden – je nachdem, welche Entscheidung es zu treffen gilt. Alle Beteiligten sind froh, über diese harten Fakten zu verfügen, und stolz darauf, ihre Entscheidungen datenbasiert und nicht nach dem eigenen Bauchgefühl zu treffen.

Agile, datengetriebene Entscheidungen

Unterhält man sich mit Mitarbeitern dieses Unternehmens, erzählen sie, wie lehrreich die genutzten Daten seien. Markus, der als Country Manager tätig ist, sagt: „Bevor wir diese Daten hatten, war ich davon überzeugt, mein Geschäft wie meine Westentasche zu kennen. Die Märkte, für die ich zuständig bin, sind alle gesättigt und unsere Branche ist sehr stabil. Die Wachstumsrate bleibt also Jahr für Jahr mehr oder weniger gleich – zumindest dachte ich das. Aber als ich erstmals die tatsächlichen Marktdaten vorliegen hatte, war ich mehr als überrascht! Ich stellte fest, dass die Märkte immer in Bewegung und alles andere als beständig sind. Zunächst hat mich das geschockt und ich erkannte, dass ich dringend meinen Ansatz ändern musste. Bis dahin hatte ich immer versucht, mit ruhiger Hand zu agieren. Aber wenn Märkte tatsächlich nie stillstehen, darf man das selbst auch nicht. Heute treffe ich meine Entscheidungen viel schneller und bin durchaus bereit, mich ebenso schnell umzuentscheiden. Jeder Einzelne im Team ist wesentlich agiler geworden. Zwar hadern manche noch mit dem Verlust von Sicherheit und Vorhersehbarkeit. Aber um zu überleben, muss man schnell und flexibel sein.“ Markus wirkt stolz, als er seinen kleinen Vortrag hält. Aber er sieht auch erschöpft aus. Die aktuellen Zahlen sind letzte Woche reingekommen und zeigen einen plötzlichen Geschäftsrückgang in Markusʼ Märkten. Massenentlassungen stehen im Raum und Markus ist nicht sicher, ob diese noch abzuwenden sind.

Daten- oder zufallsgetrieben?

Wenn man Markus fragt, warum die Zahlen für einen Markt so schlecht ausfallen, zuckt er mit den Schultern. „Ehrlich gesagt konnte ich das noch nicht ermitteln. Mit der gesamtwirtschaftlichen Situation hängt es nicht zusammen: Die Menschen haben genug Geld, um es auszugeben. Bevor wir die Daten vorliegen hatten, wäre ich von einem Wachstum von fünf Prozent ausgegangen. Der Markt ist zwar gesättigt, aber die Menschen verfügen über eine hohe Kaufkraft und wollen häufig neue und bessere Produkte kaufen.“ Was macht man in einem solchen Fall? Man schluckt die bittere Pille. Nur dann ist man in der Lage, nicht nur die Daten zu sehen, sondern auch den darin enthaltenen Messfehler. Man fängt also an, genauer hinzusehen: Welche Daten liegen hier vor? Es sind Marktforschungsdaten, die im Rahmen einer Umfrage unter Unternehmen aus der Branche erhoben wurden. Welche Art von Fehler ist in diesem Fall wahrscheinlich? Auch ohne genaue Kenntnis der Datenerhebung lässt sich sicher sagen, dass zwei Prozent der Befragten zu den Optimisten zählen. Nehmen wir also an, Markus liegt richtig und der Markt wächst tatsächlich jährlich um fünf Prozent. Was würde herauskommen, wenn man dies aus der verzerrten Perspektive eines zweiprozentigen Messfehlers betrachten würde? Eine schnelle Simulation bringt Klarheit:

import altair as alt
import pandas as pd
import numpy as np
np.random.seed(9876)  # you might want to try other values here

def error_simulation(measurement_error: float, growth: float, start_value_abs: int = 100000, 
                     first_year: int = 2004, last_year: int = 2018) -> pd.DataFrame:
    '''Simulate growth at a constant rate, with and without measurement error.    
    :param measurement_error: Measurement error (between 0 and 1, e.g., 0.02 for 2%)
    :param growth: Growth rate (usually values like 0.01 for 1%, 0.05 for 5%, etc)
    :param start_value_abs: absolut value in the first year
    :param first_year: starting year of simulation
    :param last_year: last year of simulation
    :return: Pandas dataframe with observed and error-free data for absolute and relative simulated values
    '''
    current_wo_error_abs_value = start_value_abs
    growth_factor = 1 + growth
    wo_error_abs_value = []  # error-free absolute value
    wo_error_rel_value = [np.nan]  # error-free relative value (percentage growth against previous year)
    observed_abs_value = []  # observed absolute value, including measurement error
    observed_rel_value = [np.nan]   # observed relative value, including measurement error
    for i in range(last_year - first_year + 1):
        wo_error_abs_value.append(current_wo_error_abs_value)
        rand_error = np.random.uniform(low=-measurement_error, high=measurement_error)
        observed_abs_value.append(round(current_wo_error_abs_value + current_wo_error_abs_value * rand_error))
        if i > 0:
            observed_rel_value.append((observed_abs_value[i] - observed_abs_value[i-1])/observed_abs_value[i-1])
            wo_error_rel_value.append((wo_error_abs_value[i] - wo_error_abs_value[i-1])/wo_error_abs_value[i-1])
        current_wo_error_abs_value = round(current_wo_error_abs_value * growth_factor)

    return pd.DataFrame({'year': range(first_year, last_year + 1), 'observed_abs_value': observed_abs_value, 
                         'observed_rel_value': observed_rel_value, 'wo_error_abs_value': wo_error_abs_value, 
                         'wo_error_rel_value': wo_error_rel_value})

simulation = error_simulation(measurement_error=0.02, growth=0.05)

# define charts without error
wo_error_abs_chart = alt.Chart(simulation).mark_line().encode(
    x='year:Q',
    y='wo_error_abs_value:Q'
)

wo_error_rel_chart = alt.Chart(simulation).mark_line().encode(
    x='year:Q',
    y='wo_error_rel_value:Q'
)


# define charts with error
observed_abs_chart = alt.Chart(simulation).mark_line().encode(
    x='year:Q',
    y='observed_abs_value:Q'
)

observed_rel_chart = alt.Chart(simulation).mark_line().encode(
    x='year:Q',
    y='observed_rel_value:Q'
)


# put all charts next to and below each other into a single figure
(wo_error_abs_chart|wo_error_rel_chart) & (observed_abs_chart|observed_rel_chart)

Narren des Zufalls

Die Simulationsergebnisse sind überraschend (siehe Diagramm unten). Obwohl wir wissen, dass die tatsächliche Wachstumsrate in unserer Simulation fünf Prozent beträgt und die Messabweichung bei lediglich zwei Prozent liegt, schwanken die gemessenen Wachstumsraten heftig zwischen knapp drei und über acht Prozent. Diese extremen Schwankungen sind nicht das Resultat unglücklich gewählter Startwerte des Zufallsgenerators, sondern tatsächlich repräsentativ für einen gewöhnlichen Simulationslauf – was sich ganz leicht feststellen lässt, wenn man ein wenig mit den Startwerten spielt. Was also ist hier passiert? Wie sich unten links im Diagramm ablesen lässt, wirkt sich der Messfehler auf die absoluten Daten nur geringfügig aus. Bezogen auf die Wachstumsrate wird der Fehler jedoch verstärkt und führt zu einer variablen Kurve. Stützt man sich in seinen Entscheidungen auf diese Daten, lässt man sich also in Wirklichkeit vom Rauschen leiten: Die getroffenen Entscheidungen fallen ebenso variabel aus wie die Kurve selbst. Die Bezeichnung „agil“ macht das Ganze nicht besser.

Vertrauen Sie keiner Statistik, die Sie nicht selbst verstehen

Was kann man tun? Zunächst einmal gilt es zu verstehen, dass diese Art der Überinterpretation häufig vorkommt und sich keineswegs nur auf Wachstumsraten beschränkt. In seinem lesenswerten Buch „Narren des Zufalls“ (Original: „Fooled by Randomness“) nennt der sehr empfehlenswerte Autor Nassim Nicholas Taleb viele weitere Beispiele. Die Lösung dieses Problems ist jedoch deutlich älter. Sie stammt von Immanuel Kant, dem wichtigsten Denker der Aufklärung im 18. Jahrhundert. Sein Leitspruch war das alte lateinische Sprichwort „Sapere aude!“, das er folgendermaßen übersetzte: „Habe Mut, dich deines eigenen Verstandes zu bedienen!“.

Sapere aude!

Genau darauf kommt es an: Daten erst zu nutzen, wenn man sie auch wirklich verstanden hat – einschließlich ihrer Mängel und Beschränkungen. Manchmal bedeutet das, dass man die vorliegenden Daten nicht so nutzen kann, wie man es gerne würde. Dann gilt es, entweder eine andere Methode zu finden – oder bessere Daten. Einer Versuchung sollte man jedoch niemals nachgeben: Fehler einfach zu ignorieren.