Advanced Analytics zum Naschen - der Candy Show Case

Veröffentlicht am

2. November 2020

Bei Steadforce gehört es zum täglichen Ritual, dass nach dem Mittagessen ein paar Schälchen mit Süßem und Salzigem in der Küche bereitstehen, an denen sich alle bedienen dürfen. Das ist nicht nur lecker, sondern steigert auch die Arbeitsmoral. Doch welche Süßigkeiten und Knabbereien sind die beliebtesten? Unser Analytics Team wollte das ganz genau wissen.

Die Herausforderung

Steadforce war auf der Suche nach einem geeigneten Show Case, an dem unseren Kunden exemplarisch gezeigt werden kann, wie wir mit Daten und den damit verbundenen komplexen Fragestellungen umgehen können.

Da unterschiedlichste Use Cases von verschiedenen Kunden häufig einen gemeinsamen Kern haben, wurde ein Thema gesucht, anhand dessen die Algorithmen und Modelle eines typischen Data Science-Projekts anschaulich erklärt werden können.

Der Weg zum Ziel

Für das Projekt war die Analyse des Süßigkeitenverbrauch bestens geeignet. Im Laufe der Datenerfassung mit Waagen der Marke Eigenbau wurde immer klarer, wie anfangs noch einfach gehaltene Modelle angepasst werden müssen, um optimale Ergebnisse zu erhalten.

Das Analytics Team griff hier auf Modelle zurück, die ursprünglich aus der Versicherungsmathematik und der medizinischen Statistik stammen.

Die Vorteile für Kunden

Natürlich kann nicht nur der Süßwareneinkauf von Steadforce optimiert werden. Auch zum Beispiel bei Einkauf und Lagerhaltung von Medikamenten in Krankenhäusern oder im Bereich Predictive Maintenance finden diese Methoden Anwendung.

Welche Süßigkeiten bei Steadforce am beliebtesten sind und wie gut der Verbrauch vorhergesagt werden kann, erfahren Sie im nachfolgenden Artikel.

Schon seit längerer Zeit war Steadforce auf der Suche nach einem geeigneten Show Case, an dem unseren Kunden exemplarisch gezeigt werden kann, wie wir mit Daten und den damit verbundenen komplexen Fragestellungen umgehen können. Das Ziel dabei war, den Ablauf eines solchen Projekts beispielhaft darzustellen sowie eventuell auftretende Probleme zu identifizieren. Da unterschiedlichste Use Cases von verschiedenen Kunden häufig einen gemeinsamen Kern haben, wurde ein Thema gesucht, anhand dessen die Algorithmen und Modelle eines typischen Data Science-Projekts anschaulich erklärt werden können.

Bei einem Brainstorming in der Steadforce-Küche hatten Federica und Jonathan vom Analytics Team schließlich die Idee, den Süßigkeitenverbrauch im Haus detailliert zu analysieren und auszuwerten. Da der Fall sämtliche Parameter eines klassischen Data Science-Projekts beinhaltet, war er für die Aufbereitung als Show Case bestens geeignet.

Erklärtes Ziel war, am Ende Vorhersagen treffen zu können, mit welcher Wahrscheinlichkeit wann welche Art von Süßigkeiten gegessen wird. Natürlich kann nicht nur der Süßwareneinkauf von Steadforce optimiert werden. Auch bei Einkauf und Lagerhaltung von zum Beispiel Medikamenten in Krankenhäusern oder im Bereich Predictive Maintenance finden diese Methoden Anwendung. Zusätzlich sollte der Umgang mit verrauschten und unvollständigen Daten trainiert werden.

Der Nebel im Datenwald lichtet sich

Doch der Reihe nach. Um die Menge der verzehrten Candies überhaupt messen zu können, war zunächst handwerkliches Geschick gefordert, denn das Analytics Team setzte auf Waagen der Marke Eigenbau.

Neben ein paar Sperrholzplatten, Pappkartons, Waagensensoren und etwas Löt-Zinn kamen zwei Raspberry Pi zum Einsatz.

An diese Minicomputer in der Größe einer Packung Schafkopfkarten wurden jeweils zwei selbstgebaute Waagen angeschlossen, auf die die Schälchen mit den Süßigkeiten gestellt wurden. Die Technik dahinter: In jeder handelsüblichen Waage befindet sich ein Sensor, der sich je nach Gewicht leicht verbiegt und dadurch unterschiedliche Spannungen abgibt.

Die Erfassung der Daten, also die Messung des Verbrauchs anhand der Gewichtsunterschiede, konnte nun mit den vier zur Verfügung stehenden Waagen gestartet werden.

Über einen Zeitraum von vier Wochen wurden die Daten zusammengetragen und die verschiedenen Arten an Süßigkeiten zur besseren Analysierbarkeit in mehrere Kategorien zusammengefasst. Wie dies auch bei anderen Projekten oft der Fall ist, begannen Federica und Jonathan mit einer einfachen Datenmodellierung, dem sogenannten Baseline Model. Von diesem wussten sie, dass am Ende ein konkretes Ergebnis vorliegt, auch wenn es noch nicht zwingend optimal ist.

Das Baseline Model dient generell als Grundlage für weitere Ausbaustufen der Modellierung. Es gibt Aufschluss darüber, ob ein vielschichtiges Vorgehen einen Mehrwert bietet oder ob umfangreichere Modelle nur unnötig mehr Komplexität verursachen. Ist das Baseline Model etabliert, so können weitere Parameter, Modelltypen und Algorithmen ausprobiert werden, um bestmögliche Ergebnisse zu erhalten und somit eine brauchbare Vorhersage zu ermöglichen.

Im Laufe der vierwöchigen Datenerhebung wurde Federica und Jonathan schließlich immer klarer, wie die „Überlebenswahrscheinlichkeit“ der Süßigkeiten bestmöglich vorhergesagt werden kann und die Herangehensweise dementsprechend verfeinert. Hier kamen unter anderem Modelle zum Einsatz, die ursprünglich aus der Versicherungsmathematik und der medizinischen Statistik stammen.

Probleme sind da, um gelöst zu werden

Natürlich gab es auch unvorhersehbare Faktoren im Prozess der Erfassung. Beispielsweise dann, wenn bei einem Kundentermin gleich mehr als ein Dutzend Personen bei Steadforce waren und alle beherzt in die Schälchen griffen, was uns im Allgemeinen natürlich freut. Denn: Mi candy es su candy!

Doch nicht nur Besucher im Haus, sondern verschiedenste äußere Einflussfaktoren waren entscheidend für das Projekt.

So sind an Montagen klassischerweise mehr Kollegen im Büro als an Freitagen, was selbstverständlich Auswirkungen auf die Daten hat. Manche brachten aufgrund ihres Geburtstags Kuchen mit ins Büro, wodurch ansonsten weniger Süßes verzehrt wurde. Auch gibt es bei Steadforce jede Woche einen Pasta-Tag sowie einen Salat-Tag, an dem man auf Wunsch teilnehmen kann. Hier konnten Federica und Jonathan zweifelsfrei nachvollziehen, dass die Belegschaft nach einem Pasta-Tag weniger, nach einem Salat-Tag mehr Süßigkeiten isst als sonst.

Einige hier nicht näher genannte Kolleginnen und Kollegen haben unser Analytics Team zudem auf die Probe gestellt und für kleinere Manipulationen gesorgt. Schließlich kann das auch in „echten Fällen“ durchaus vorkommen.

So wurden hin und wieder Schälchen von den Waagen genommen oder die verschiedenen Süßigkeiten zusammengeschüttet.

Da hätten diese Scherzkekse aber früher aufstehen müssen, denn unsere Analysten konnten die Manipulationen natürlich aufdecken und größtenteils bereinigen.

Ebenfalls zu korrigieren waren Ausschläge der Messkurven, die beispielsweise durch das Hineingreifen in die Schälchen und die damit kurzzeitig höhere Belastung der Sensoren entstanden. Hierfür schrieb das Team kurzerhand eine eigene Software zur Glättung der Kurven.

Vollmilch-Schokolade und Gummibärchen überleben meist nur kurz

Dass es bei Steadforce immer was zu Naschen gibt, erfreut die Kollegen natürlich. Aber Butter (-Kekse) bei die Fische: Wie viel Süßes verzehren unsere Mitarbeiter denn nun wirklich?

„Ich glaube, es hält sich in gesunden Maßen“, bestätigt Jonathan auf Nachfrage. „Aber man sieht tatsächlich in unseren Daten so einen kleinen Knick kurz bevor die Leute nach Hause gehen. Dann wird nochmal deutlich mehr zugegriffen. Ein bisschen Stärkung für den Heimweg muss sein.“

Im Hinblick auf die verschiedenen Arten an Naschereien stellten Federica und Jonathan fest, dass besonders Vollmilch-Schokolade und Gummibärchen aller Art besonders beliebt sind. Weniger gut gingen hingegen Schaumgummi und dunkle Schokolade.

Erfolgreich war das Projekt allemal, denn am Ende des Projekts war es möglich, den Süßigkeitenverbrauch mit einer Vorhersagegüte von rund 70 % zu berechnen. Und die Einkäufer wissen jetzt ganz genau, wie sie sich bei den Kollegen beliebt machen können.

‍