Visual Search: „Das Potenzial ist riesig“
Wie künstliche Intelligenz das bildbasierte Suchen ermöglicht
Hallo Benjamin, hallo Cynthia, ihr beiden beschäftigt euch bei OTTO mit Visual Search. Erklärt bitte mal: Was genau ist das?
BENJAMIN: Bei der visuellen Suche dient anstelle eines Begriffs ein Bild als Ausgangspunkt der Suche. Passend zum Foto, Screenshot oder Livebild liefert die visuelle Suche ähnliche Motive und weitere Informationen zurück.
CYNTHIA: Anders als bei der bekannten Bildersuche wird keine Textsuche ausgeführt und dann ein visuelles Suchergebnis ausgegeben, sondern ein Bild als Dateneingabe genutzt, dass man etwa mit dem Smartphone oder Tablet aufnimmt. Bekannte Visual-Search-Applikationen sind zum Beispiel Google Lens oder auch Pinterest Lens.
Wie funktioniert das technisch?
BENJAMIN: Im Grunde bringen wir dem Smartphone das Sehen bei. Im ersten Schritt zerlegt ein Algorithmus dafür das Bild in seine Einzelteile und analysiert diese. Dazu müssen Vorder- und Hintergrund eines Bildes voneinander getrennt und das Hauptobjekt mit seinen Eigenschaften identifiziert werden. Der Algorithmus gleicht im Anschluss diese Eigenschaften mit anderen Objekten aus einer großen Datenbank ab, die bereits zuvor analysiert worden sind. So wird exakt das gesuchte Objekt ermittelt oder zumindest eine Liste mit den ähnlichsten Objekten zurückgegeben.
Wo kann Visual Search sinnvoll eingesetzt werden – und wo vielleicht auch nicht?
CYNTHIA: Visual Search ist überall dort sinnvoll, wo Worte nicht ausreichen, um Dinge zu beschreiben. Im Handel kommt die visuelle Suche zum Einsatz, um Produkte einfacher auffindbar zu machen oder weitere Empfehlungen zu geben. Im Stadtmarketing etwa wird Visual Search genutzt, um Tourist*innen Informationen zu Sehenswürdigkeiten zu geben. Ich finde auch eine App toll, mit der man Pflanzen erkennen kann. Ob andere das auch praktisch finden, weiß ich nicht. (lacht)
BENJAMIN: Spannend ist der Einsatz aus meiner Sicht auch im Fashion-Bereich sowie insbesondere bei Einrichtungsgegenständen. Details eines Möbelstücks beispielsweise lassen sich nur schwer in Worte fassen, da ist Visual Search eine gute Hilfe.
Setzt ihr Visual Search bereits aktiv ein?
CYNTHIA: Ja. Mit „alike“, einer App-basierten Bildersuche für Möbel und Deko, haben wir bei OTTO schon 2018 eine Anwendung auf Basis der visuellen Suche entwickelt und veröffentlicht. Nutzer*innen nehmen mit unserer kostenlosen App (iOS / Android) einfach ein Foto eines Möbelstück auf oder laden einen Screenshot ihres Wunschgegenstandes hoch. Die App zeigt dann das Produkt oder eine ähnliche Alternative aus über 100 Onlineshops an.
BENJAMIN: Für „alike“ arbeiten wir eng mit unserer Business Intelligence zusammen, die die technischen Grundlagen für die visuelle Suche entwickelt hat. Genutzt wird die Technologie bei OTTO aber auch an anderen Stellen, etwa in der Klassifizierung von Bildern auf otto.de.
Welche Rolle könnte Bilderkennung im stationären Handel spielen, Stichwort virtuelle Umkleidekabinen?
BENJAMIN: Im stationären Handel gibt es bereits eine ganze Reihe von Anwendungsbeispielen. So ist es heute schon möglich, mit dem Smartphone ein Produkt zu fotografieren und dann weitergehende Informationen zu Nährwerten, zur Lieferkette oder bei Lebensmitteln auch Vorschläge zur Zubereitung zu bekommen.
CYNTHIA: Auch virtuelle Umkleidekabinen könnten per Bilderkennung funktionieren. Denkbar wäre, dass zur getragenen Kleidung, die von einer Kamera erkannt wird, passende Accessoires oder Kombinationsmöglichkeiten vorgeschlagen werden. Interessant für virtuelle Fitting Rooms sind aber vor allem die technologischen Möglichkeiten von Augmented Reality. Damit könnten z.B. verschiedene Farbvarianten, die im Geschäft nicht alle aushängen, anprobiert werden. Bis so etwas im Massenmarkt ankommt, wird aber sicher noch etwas Zeit vergehen.
Wie zuverlässig funktionieren Visual-Search-Systeme? Wo seht ihr Verbesserungsbedarf?
CYNTHIA: Treffergenauigkeit ist das A und O. Die Qualität der Algorithmen für die visuelle Suche hat sich in den letzten Jahren bereits stark verbessert und wird sich weiter verbessern. Für uns ist aber auch wichtig, den Umgang unserer Nutzer*innen mit der visuellen Suche zu verstehen. Wird so eine Technik überhaupt genutzt? Und wenn ja wie? Und was müssen wir tun, damit sie wirklich intuitiv nutzbar ist und gute Ergebnisse bringt? Keine triviale Aufgabe.
BENJAMIN: Ähnlich wie bei der semantischen Suche lernt auch die visuelle Suche mittels künstlicher Intelligenz und Deep Learning. Je mehr Suchanfragen, desto besser funktioniert die Erkennung. Pinterest zum Beispiel verfügt über eine Menge Bilddaten, die zum Training genutzt werden können. Daher ist Pinterest Lens schon sehr gut, liefert allerdings oft nur Bilder als Ergebnisse ohne Verknüpfungen zu kaufbaren Produkten. Da sind wir mit „alike“ schon weiter, da bei uns jedes Ergebnis auch shoppable ist.
Wie schätzt ihr das Potenzial von Visual Search ein? Top oder Flop?
CYNTHIA: Definitiv top. Ich persönlich glaube, dass das Potenzial riesig ist. Ich bin der Überzeugung, dass sich Visual Search zu einem Standard weiterentwickeln und eines Tages so selbstverständlich wie die Textsuche verwendet werden wird.
BENJAMIN: Die Technologie der visuellen Suche hat in den letzten Jahren große Fortschritte gemacht. Deshalb wird es aus meiner Sicht nur noch wenige Jahre dauern, bis sie sich als Standard am Markt etabliert hat. Ich glaube aber nicht, dass die visuelle Suche die klassische Textsuche komplett ablösen wird. Beides hat seine Berechtigung. Aber viele Probleme, die Nutzer*innen heute noch umständlich mit Textsuchen lösen, werden zukünftig viel einfacher und schneller über Visual Search gelöst werden können.