Der Butterfly Effect der Künstlichen Intelligenz
Winzige Datenbewegung – riesiges KI-Chaos
Daten gelten als der wichtigste Überlebensfaktor für Unternehmen im Zeitalter der Digitalisierung. Allerdings weiß niemand, wie man den Wert von Daten ermittelt. Es gibt weder Byte-Rating-Agenturen noch Daten-Börsen oder hochprofessionelle Expertisen, die Daten in Karat und Unzen bemessen könnten. Um ganz sicher zu gehen setzen die meisten auf Masse. Das „Big“ in „Big Data“ heißt: „So viel wie nur geht“. Ganz nach dem Motto: viel hilft viel.
Datenminimalismus statt „Big Data“
Bei OTTO wollen wir lieber Datenminimalisten werden. Weniger Daten bedeuten schnellere Skalierung, mehr Nachhaltigkeit, weniger Kosten und mehr Verantwortung für die Privatsphäre der Kunden. Bevor wir zu Datenminimalisten werden können, müssen wir aber eins wissen: Welche Daten bringen uns wieviel?
Daten sind nur so viel wert wie das, was man aus ihnen macht. Die prominentesten datengetriebenen Prozesse sind gerade in aller Munde: künstliche Intelligenzen (KIs). Und für die ist längst nicht die Masse entscheidend: Ein paar Monate Datenmaterial von einer Plattform wie otto.de, aus denen der Algorithmus lernen kann, sind zwar eine KI-Goldgrube. Aber wo genau sich in den Massen aus unnützem Datenschlick und -sand die Goldnuggets verbergen, welche die KI also am besten voranbringen – das ist unklar. Manche Experten behaupten, man könne das so detailliert gar nicht messen.
Wir haben in einem Experiment das Gegenteil bewiesen: Als Versuchskaninchen (wobei wir Tierversuche auch in der Künstlichen Intelligenz ablehnen) diente uns ein Recommender-Algorithmus, der unseren Kunden bei ausverkauften oder nicht lieferbaren Artikeln passende Alternativen empfiehlt. Er schlägt zum Beispiel Produkte vor, die andere Kunden häufig vor oder nach dem nicht verfügbaren Artikel angeschaut haben. Welche Alternativen am besten passen, berechnet ein neuronales Netz (mit einem von Google entwickelten Algorithmus) aus vielen, vielen Nutzer-Sessions. Das sind etwa 100 Millionen, also 6 Monate Klickdaten.
Unsere Frage: Kann ein einziger Besuch eines Nutzers, also eine Session, an den Empfehlungen für alle anderen etwas ändern?
Ein Datensatz kann ganz schön viel ändern
Um die Antwort vorweg zu nehmen: Eine Session kann sogar viel ändern, in unseren Tests bis zu 40 Prozent der Alternativen, obwohl sich weniger als 0,001 Prozent der Daten ändern! Ein echter „Butterfly Effect“ also. Dass so kleine Änderungen so viel Effekt haben, hat selbst uns überrascht.
Unser KI-Algorithmus ist ein ziemlich launisches Sensibelchen. Die kleinsten Änderungen können große Wirkung haben.
Unser KI-Algorithmus hat sich bei den Tests als ziemlich launisches Sensibelchen herausgestellt und hat diese Erkenntnis nicht leicht preisgegeben: Selbst wenn wir ihn zweimal mit auf die gleiche Weise trainieren, unterscheiden sich ein Viertel der Empfehlungen. Schlechte Voraussetzungen. Schließlich wollten wir den Daten-Einfluss messen, und nicht die Instabilität des Algorithmus.
Das Problem: Die KI muss mit der enormen Datenmenge fertig werden – Stichwort „Big Data“. Hierzu entscheidet sie ab und zu zufällig zwischen für sie gleichwertigen Alternativen. Diesen Zufall mussten wir aus dem Experiment eliminieren. Das geht nur mit einer stark verkleinerten Datenbasis, in diesem Fall: 1,3 Millionen Sessions, also etwa 2 Tage.
Aus dieser Mini-Version des Recommenders haben wir 500 Varianten gebaut, und in jeder einen anderen Datensatz weggelassen. Die Ergebnisse haben wir dann verglichen und geschaut, inwiefern sie sich durch einzelne veränderte Datensätze unterschieden. Das Ergebnis: lange Besuche auf der Website ändern mehr an den Gesamtergebnissen, aber nicht immer. Bevorzugt lernt die KI aus Sessions mit vielen unterschiedlichen Produktgruppen oder seltenen Produkten. Außerdem ändert sich viel durch Sessions mit Spontankäufen (z.B. durch Gutschein).
Da dieser Weg, den Wert eines Datenpunktes zu bestimmen, so neu ist, haben wir dazu einen wissenschaftlichen Artikel geschrieben und beim internationalen Workshop on Explainable AI vorgestellt.
Als nächstes wollen wir zeigen, was der Daten-Schmetterlingseffekt in Euro bedeutet. Hierfür müssen wir testen, ob sich die Ergebnisse nur inhaltlich oder auch qualitativ verändern – da gibt es noch viel zu erforschen. Und wir werden unserem launischen KI-Sensibelchen sicherlich noch das eine oder andere Geheimnis abringen …