Es ist keine Frage mehr, ob künstliche Intelligenz (KI) kreativ sein kann. Die Frage lautet: Welche Bedeutung übernimmt KI künftig im kreativen Prozess? Wird sich Ihre Rolle auf die eines Werkzeugs vergleichbar mit der eines Pinsels oder eine Fotokamera beschränken? Oder wird sie zur Muse? Zum eigenständigen Schöpfer neuer Kreationen? Ersetzt sie vielleicht gar den Art Director? Und wann wird das sein?

Für meine KollegInnen kann ich – vorerst noch – Entwarnung geben. Aber sie sollten sich schon mal langsam mit Kollege KI anfreunden. Auch wenn die Entwicklung künstlicher Intelligenzen ihre Anfänge bereits in den 1950er Jahre hatte, ermöglichen erst heute die exponentielle Entwicklung der drei ABC-Faktoren, dass sie so richtig in Fahrt kommt: A wie Algorithmen, B wie Big Data und C wie Computerchips. Deshalb muss sich jede Branche und jedes Unternehmen die Frage stellen, wie die Umsetzung und Integration von Artificial Intelligence in unseren Arbeitsalltag geschehen soll.

Im Marketing konzentrieren sich die Anwendungsszenarien für KI bisher hauptsächlich auf die Bereiche Predictive Analytics (zum Beispiel für Empfehlungen in Online Shops), Personalisierung (zum Beispiel für die individualisierte Ansprache in Newslettern), der Nutzung von Sprachassistenten und der Automatisierung (beispielsweise in der Mediaplanung). Ein wichtiger Bereich des Marketings wird bisher meist komplett ausgeklammert: die Kreativität. Sie wird oft fest in Menschenhand gewähnt und als uneinnehmbare Bastion dargestellt. Raffinierte Wortspiele, Gedichte, rührselige Melodien, großartige Grafiken bzw. alles was mit Emotion zu tun hat, kann schließlich nicht in einer kalten Maschine via Prozessor entstehen – oder?

Zu sicher sollten wir uns da nicht sein. Denn es gibt schon heute zahlreiche Beispiele dafür, wie künstliche Intelligenz menschliche Kreativität unterstützen, erweitern oder sogar nachahmen kann. Und es werden täglich mehr.

KI kann schreiben

Welcher Journalist hat schon Lust, die immer gleichen Börsen-News, Sportergebnisse und Wetterberichte mühsam herunterzutippen? Kein Problem, mittlerweile können Maschinen solche Texte, die nach einem bestimmten Schema aufgebaut sind, übernehmen. Ohne, dass der Leser etwas davon merkt. Wer weiß, wann nach dem Robo-Journalismus auch die ersten Anzeigentexte von Maschinen (den Copy-Cads) verfasst werden?

KI kann sprechen

Adobe hat mit Photoshop nicht nur das wichtigste Programm zur Bildbearbeitung erstellt, sondern widmet sich auch der menschlichen Sprache: Adobe VoCo ist das Photoshop für Sprachdateien. Nachdem sie 20 Minuten einer Person beim Reden zugehört hat, kann die KI die Stimme komplett nachahmen. Nicht, indem sie Wortschnipsel zusammenschneidet, sondern komplett neue Wörter, die eingetippt werden, ausspricht.

KI kann komponieren

Ein Team der University of Toronto konnte eine KI so programmieren, dass sie Musik zum Mitsingen selbst komponieren und texten kann. Das Programm namens Neural Karaoke wurde mit über 100 Stunden Musik gefüttert und hat darauf ein komplettes Weihnachtslied inklusive Text und Cover-Grafik erstellt.

KI kann Bilder und Grafiken erstellen

Sogenannte Generative Adversarial Networks können verblüffend echte Bilder aus von Menschen geschriebenen Beschreibungen erstellen. Sie funktionieren grob gesagt so, dass ein „Generator“ zufallsgenerierte Bilder produziert, die dann von einem Diskriminator, der anhand von echten Bildern gelernt hat Objekte zu bestimmen, bewertet werden. Aus „Ein kleiner Vogel mit kurzem, spitzen, orangefarbenem Schnabel“ wird dann ein fotorealistisches Bild.

KI kann malen

Die KI Vincent des Produktdesign-Unternehmens Cambridge Consultants basiert ebenfalls auf Generative Adversarial Networks und hat die Stile der wichtigsten Maler des 19. und 20. Jahrhunderts studiert. Vincent lässt jede Skizze, die per Tablet gezeichnet wird, wie ein Gemälde eines bestimmten Renaissance-Künstlers aussehen.

KI kann Produktdesign

Das intelligente CAD-System Dreamcatcher von Autodesk kann tausende Designoptionen für ein Bauteil, beispielsweise aus Metall oder Kunststoff, mit denselben Funktionen generieren. Diese sehen dabei erstaunlich organisch und überhaupt nicht „mechanisch“ oder „logisch“ aus.

KI kann Videos drehen

Das kanadische Unternehmen Nvidia hat gemeinsam mit dem MIT Computer Science & Artificial Intelligence Laboratory eine Technologie entwickelt, die komplette hochauflösende Video-Sequenzen synthetisch herstellen kann. Die Videos mit einer Auflösung von 2K sind bis zu 30 Sekunden lang und können komplette Straßenszenen mit Autos, Häusern, Bäumen, etc. enthalten.

KI wird zum Art Director

Die Werbeagentur McCann Japan hat schon vor längerer Zeit eine KI als Creative Director „eingestellt“. AI-CD ß wurde mit preisgekrönter Werbung der letzten zehn Jahre gefüttert und hat daraus einen TV-Spot erstellt.

https://www.businessinsider.de/mccann-japans-ai-creative-director-creates-better-ads-than-a-human-2017-3?r=US&IR=T

Große Veränderungen beginnen mit kleinen Schritten

Was bedeutet das jetzt für uns? Vielleicht lachen wir heute noch über die Unzulänglichkeiten so mancher KI-Anwendung. Doch die Entwicklung verläuft exponentiell und die Fortschritte sind beeindruckend. Daher sollten wir jetzt damit anfangen, Vorurteile und Ängste abzubauen und uns zu überlegen, wie wir kreative Prozesse in Zukunft gestalten und welche Rolle wir der Künstlichen Intelligenz dabei geben wollen. Große Veränderungen lassen sich nicht auf einen Schlag implementieren, sondern am besten in viele kleine Schritte. Barrieren baut man am besten ab, indem man neue Technologien spielerisch ausprobiert und Erfahrungen sammelt. Ja, dafür muss man als Unternehmen Zeit und Ressourcen bereitstellen. Aber wer einmal mit einem kleinen Projekt beginnt und sich dann langsam vorantastet, bei dem sind die Erfolgsaussichten deutlich höher, langfristige Erfolge zu erzielen und vielleicht sogar die ein oder andere Entwicklung im KI-Bereich mitzugestalten.

Dieser Beitrag erschien zuerst bei Horizont.net.

SEO News

Das Weihnachtsgeschäft nimmt langsam Fahrt auf und auch in diesem Jahr wird wieder hauptsächlich hübsch verpackte Technik unter den Tannenbäumen der Republik liegen. Warum man der Technologie grundsätzlich kritisch gegenüberstehen sollte und ob sich Google mit dem Relaunch seiner Startseite nasse Füße holen wird, das erfahren Sie in den SEO-News für den Monat November.

Google wird ein langer, ruhiger Fluss

Nun ist es also passiert. Zwanzig Jahre lang hat Google nicht nur die Standards für webbasierte Suchdienste gesetzt; auch was das Design seiner Startseite anging, war Google Vorreiter in Sachen Minimalismus und Effizienz. Ein simpler Suchschlitz mit Logo – bzw. Doodle – und zwei darunterliegenden Buttons waren im aufblühenden Internet der frühen 2000er-Jahre so etwas wie die Antithese zu unübersichtlichen Linkwüsten und nervigen Flash-Intros. Doch es hat sich viel getan seit 1998 und so folgt der Marktführer aus Mountain View dem Trend zur personalisierten Dauerberieselung. „Discover Feed“ nennt sich das neue Feature, welches seit den letzten Oktobertagen sukzessive weltweit auf Desktop- und Mobilgeräten sowie den Search-Apps ausgerollt wird.  Es ist die erste von einigen neuen Funktionen, die Google zu seinem Firmenjubiläum angekündigt hat, und markiert den ersten Schritt auf dem Weg zu einer individualisierten Antwortmaschine, die ganz ohne Fragen auskommen soll (wir berichteten). Zwar hatte die Suchmaschine schon in der Vergangenheit mit dem einen oder anderen Homepage-Feature zum Einstieg in populäre Themenwelten oder der Integration seines Assistenzdienstes „Now“ experimentiert, nun aber werden relevante Inhalte, die im Kontext zur persönlichen Suchhistorie stehen, in Form eines Endlos-Streams präsentiert. Und ähnlich wie bei YouTube gibt es das Ganze ab sofort auch im dunkel eingefärbten Nachtmodus.

Mit dieser umfassendsten Designänderung seit dem Start von Google hat man sich in Mountain View scheinbar schwergetan. Und das, obwohl die Konkurrenz von Microsoft mit ihrer Suchmaschine Bing von Beginn an einen anderen, visuellen Weg gegangen ist. Mit sich täglich ändernden, kraftvollen Startbildern und aktuellen News hatte Bing für seine Nutzer schon immer mehr Einstiegspunkte angeboten, als der Marktführer. Interessant ist auch der Vergleich mit Amazon: Die Personalisierung der Inhalte ist für die Einkaufssuchmaschine aus Seattle selbstverständlich der zentrale Ausgangspunkt bei der Startseiten-Gestaltung. Der immerwährende Upsell mit Hilfe des A9-Algorithmus befördert zahllose, individuell passende Angebote zu Tage. Die User Experience und Usability des Designs aber haben gerade in letzter Zeit stark unter der Integration immer neuer Features und Platzierungen gelitten. Das Design der Amazon-Homepage entwickelt sich scheinbar konsequent zurück in die unübersichtlichen Zeiten kleinteiliger Frontpage-Webseiten. So lange die Kasse stimmt, tritt die User Experience auch gerne mal in den Hintergrund. Und natürlich ergeben sich auch für Google neue Formen der Monetarisierung durch die Integration bezahlter Werbung im Discover-Stream.

Vielleicht ist die Startseite am Ende aber eben ein Auslaufmodell. Mit Voice- und Visual Search ergeben sich unzählige Touchpoints für Suchsysteme, die vielleicht in naher Zukunft schon an der klassischen Darstellung im Web oder als App vorbei ein maßgeschneidertes Angebot an Antworten und Lösungen zur Verfügung stellen werden.  Bis es soweit ist, müssen SEOs beobachten, ob der neue Google-Stream von den Nutzern angenommen wird und nach welchen Kriterien sich der Discover-Feed generiert. Die neue, größere Bühne sollte nicht ungenutzt bleiben.

An der Nase herumgeführt

Der technologische Fortschritt ist eine Funktion der Moderne, ihre Bedingung und Konsequenz zugleich. Wie sehr sich Technologie in unser Leben eingebettet hat, wird insbesondere am Phänomen der Suchmaschinen deutlich. Ob Googles Vision eines unsichtbaren Begleiters für die Herausforderungen der unplanbaren Außenwelt oder Amazons Versprechen der unmittelbaren Konsumbefriedigung – beide Projekte wären ohne ihren technologischen Kern nicht denkbar. Das war im Falle der Dampfmaschine oder des Verbrennungsmotors zwar nicht anders, beim aktuellen Schritt der Modernisierung aber bleibt der Blick in die Maschine verwehrt. Konnte man ein Dieselaggregat noch mit den eigenen Händen zerlegen, so verstecken sich Algorithmen und künstliche Intelligenzen in einer weit entfernten Wolke aus Daten. Zuweilen wird man den Eindruck nicht los, dass die hochtrabenden Versprechen und Visionen der High-Tech-Industrie nicht viel mehr sind, als eine funkelnde Marketingshow für ein hilflos naives Publikum.

Da tut es gut, wenn die Technikelite dabei erwischt wird, dass sie auch nur mit Wasser kocht. In diesem Sinne hatte die SEO-Gruppe SignalsLab einen Wettbewerb ausgerufen, bei dem es das Ziel war, innerhalb von 30 Tagen für die Suchanfrage „Rhinoplasty Plano“ zu ranken. Dabei handelt es sich um die Suche nach einer Praxis für plastische Nasen-OPs im Großraum Dallas, Texas.  Eine eher wenig umkämpfte Anfrage mit hoher lokaler Relevanz. Das Ergebnis der kleinen Challenge überrascht. Googles Mantra zu Erfolgsfaktoren in der organischen Suche lässt sich auf drei Kernpunkte herunterbrechen: Relevante Inhalte, nutzerfreundliche User Experience und saubere technische Umsetzung über alle Plattformen hinweg. Da ist es mehr als erstaunlich, dass die Gewinnerseite des SignalsLab-Wettbewerbs bis auf URLs, Überschriften und den Footer komplett in lateinischer Sprache erstellt ist. Die Verwendung von lateinischem Blindtext ist zwar nichts Ungewöhnliches bei der Produktion von Webseiten. In diesem Falle aber handelte es sich nicht um einen vergessenen Platzhalter für noch zu erstellenden Content, sondern um eine Strategie zur Offenbarung der Fehlbarkeit des Algorithmus. Darüber hinaus war die Seite ausgestattet mit erfundenen lokalen Daten, gefälschten Reviews und minderwertigen Backlinks. Dass Google diese offensichtlich gefälschte Webseite auf Position zwei für besagte Suchanfrage als Ergebnis anbietet, ist entweder ein Ausrutscher oder ein blinder Fleck im allwissenden Google-Universum.

Zwei Lehren lassen sich aus diesem kleinen Experiment ziehen. Erstens ist es für die Suchmaschinenbranche tröstlich zu wissen, dass trotz des angeblichen Reifegrads der Google-Technologie, das klassische Old-School-Fake-Spam-SEO noch immer funktioniert. Und für Nutzer ist es ein kleiner Warnhinweis, dass die Vertrauensfrage gestellt werden sollte, bevor man sich vom technologischen Fortschritt gänzlich einnehmen lässt. Suchmaschinen sind zwar praktisch, werden aber niemals Teil der menschlichen Realität sein. Egal ob Google oder Bing: Suchsysteme sind letztendlich datenbankgestützte Anzeigenverkaufsveranstaltungen mit einer kompakten Gratis-Version des echten Lebens als Lockangebot. Übrigens: Lateinische Nasen-OPs gibt es angeblich auch in Florida.

Dieser Beitrag erschien zuerst bei der Internet World Business.

After Work XChange am 15. November 2018 im Plan.Net Innovation Studio

Wir alle haben täglich häufig Kontakt mit Marken: Indem wir ihre Produkte nutzen, ihre Werbung sehen, mit einem Kundenberater sprechen oder die Webseite oder App der Brand nutzen. Diese Vielzahl der Kontakte zu einem stimmigen Markenerlebnis zu vereinen, ist das Ziel eines jeden Unternehmens. Das ist aber im Alltag gar nicht so einfach bei der Vielzahl an Touchpoints, die es on- und offline gibt. Beim After Work XChange am 15. November im Plan.Net Innovation Studio stand deshalb das Thema „Customer Experience“ im Mittelpunkt. Nach der Begrüßung durch Plan.Net-Geschäftsführer Klaus Schwab zeigte Thomas Meyer, Director Digital Strategy Group EMEA bei Adobe, wie ausgerechnet Künstliche Intelligenz helfen kann, einen menschlicheren Kontakt zwischen Unternehmen und ihren Kunden aufzubauen. Marcus Armbrus, geschäftsführender Gesellschafter der Plan.Net Business Intelligence, präsentierte Beispiele, wie die einzelnen „Gewerke“ Marketing, Vertrieb, CRM und IT besser an einem Strang ziehen – und empfahl, dass man dafür besser mit kleinen Projekten beginnt, anstatt alles auf einmal zu verändern.

Dr. Jan Myszkowski, Head of Best Practice Lab bei der Talanx AG, zeigte in seinem Vortrag, dass Zeit der wichtigste Faktor einer guten Customer Experience ist. Talanx ist nach Prämieneinnahmen die drittgrößte deutsche und eine der großen europäischen Versicherungsgruppen. Zum Konzern gehören die HDI, die Hannover Rück oder auch die TARGO Versiche

rungen. Wir haben die Gelegenheit genutzt, um mit Jan Myszkowski ausführlicher über das Thema des Abends zu sprechen.

Was genau kann man sich unter einem „Best Practice Lab“ eines Versicherungskonzerns vorstellen? Was sind Ihre Aufgaben?

Jan Myszkowski: Der Name sagt es schon: Es geht um die besten Beispiele aus der Praxis von Unternehmen. Unser Ziel ist es, etwas wirklich Praktisches zu finden, aufzubauen und mit dem Konzern zu teilen. Und „Lab“ hat natürlich mit experimentieren und ausprobieren zu tun. Unser Best Practice Lab besteht aus unterschiedlichen Communities weltweit, die sich mit Themen wie Pricing, Schadensabwicklung oder den Kontakt-Centern befassen. Dazu gehören auch innovative Methoden wie der „Agile Desk“, bei dem sich Mitarbeiter für eine Woche oder zwei treffen, um Prototypen für Chatbots, Voice Bots oder Image Recognition zu entwickeln. Das Lab lebt von der Community, in der sich die Mitarbeiter austauschen, vernetzen, sehr schnell Dinge entwickeln und öfter auch mal verwerfen. Wenn die Entwicklungen ausgereifter sind, können wir sie auf unkomplizierte Art und Weise mit anderen teilen.

Welche konkreten Maßnahmen setzt die Talanx Gruppe national und international um, um die Customer Experience kontinuierlich zu verbessern?

Jan Myszkowski: Wir haben zunächst einen Vorteil durch die Communities: Da tauscht man sich aus, was funktioniert und was nicht. Neben Best Practices aus der Talanx-Gruppe schauen wir uns auch „Peers Best Practices“ von anderen Versicherungen, aber auch aus anderen Branchen an. Natürlich blickt jeder erst einmal auf Amazon. Aber, wir versuchen auch von kleineren Firmen und Startups zu lernen, die sehr beliebt sind und von Kunden oft weiterempfohlen werden: Dann überlegen wir uns, wie wir das Gelernte auf unser Geschäft übertragen können. Die Lösungen für die meisten Probleme muss man gar nicht neu erfinden, die gibt es schon. Man muss sie nur anders anwenden. Und diesee ‚not-inveted-here‘ Einstellung ist aus meiner Sicht die höchste Hürde. Schnell heißt es da „Bei uns in Deutschland funktioniert das ganz anders“ oder „Das lässt der Betriebsrat niemals zu“. Unsere Arbeit besteht also nicht so sehr darin, allein die Maßnahmen zu finden, sondern die Hürden danach aus dem Weg zu räumen.

Viele internationale Unterschiede gibt es gar nicht, die sind meiner Meinung nach nur mental sehr stark ausgeprägt. Ich glaube, wir sind gleicher als wir glauben: Jeder möchte geliebt werden, jeder möchte Aufmerksamkeit für sich und seine Ideen und jeder hat vor Veränderungen ein bisschen Angst. Aber es gibt Tricks, die sehr gut funktionieren, um diese mentalen Hürden zu überwinden.

Für eine perfekte Customer Experience müssen viele kleine und große Rädchen ineinander greifen: Daten, User Interface, verschiedene Touchpoints, On- und Offline. Viele Themenfelder bedeuten aber gleichzeitig auch viele Verantwortliche. Welche Arbeitsweisen sind aus Ihrer Sicht entscheidend, um Erfolge zu erzielen?

Jan Myszkowski:  Wenn man diese Metapher der Uhr oder Maschine mit Rädchen verwendet, kommt man schnell auf eine Schlussfolgerung: Es bewegt sich darin kein Rädchen von selbst, nur, wenn das erste Rad sich in Bewegung setzt. Diese Bewegung wird dann transformiert. Man muss also das erste Rad bewegen, damit sich der Rest bewegt. Wenn wir die Produktentwicklung, den Vertrieb, das Schadenkontakt-Center und das Beschwerdemanagement voranbringen und weiterentwickeln wollen, müssen wir die jeweilige Person finden, die Verbindung hat zu der nächsten, übernächsten und so weiter. Wenn ich eine Person überzeuge, die in einem bestimmten Prozess das erste Rad dreht, dann muss ich mich nicht um die anderen kümmern, weil es dann ganz automatisch läuft. Bei einem Team oder einer Gruppe ist das gar nicht so einfach. Manchmal muss man erst mal alle auseinanderdividieren, um letztendlich die Person zu identifizieren, die Veränderung lostritt. Wenn man sie gefunden hat, dann läuft es!

Auf Ihrem LinkedIn-Profil erklären Sie in kurzen Videos viele Begriffe aus dem Bereich Leadership. Was muss eine moderne Führungskraft heutzutage mitbringen, um eine gute Customer Experience zu ermöglichen?

Jan Myszkowski:  Das beste Führungsprinzip ist, keine Follower zu erzeugen. Das klingt erst einmal komisch, aber jemanden zum Follower zu machen, ist relativ einfach. Das passiert beispielsweise bei der Bundeswehr, in dem man große Strukturen mit Hierarchien aufbaut und Gehorsam fordert. Eine gute moderne Führungskraft wird ihre Leute auf Neudeutsch jedoch „empowern“, ihnen die Freiheit geben, nicht der Führungskraft zu folgen, sondern sie dazu ermutigen, eigenständig zu arbeiten. Da geht es auch wieder um diese Barrieren, die man im Kopf hat. Das als Führungskraft zu erreichen, erfordert ein Umdenken. Das fängt mit ganz simplen Dingen an, die Kinder im dritten, vierten Lebensjahr eigentlich schon wissen: Bitte sagen, Danke sagen und dem anderen nicht in den Sandkasten pieseln. Damit hat man schon ganz viel erreicht.

Wer Probleme im Unternehmen hat oder mit Veränderungen nicht klar kommt, holt oft zu schnell eine externe Unternehmensberatung ins Haus. Ich glaube, viele würden sich wundern, was passieren würde, wenn sie erst einmal ihre eigenen Mitarbeiter an das Problem ranlassen würden. Am Anfang ist das vielleicht schwierig, aber irgendwann platzt der Knoten. Und es ist unglaublich, was für Ideen die Mitarbeiter haben, was für Geschäftsmodelle und Empfehlungen. Aber das muss man aus ihnen rauskitzeln. Die meisten Mitarbeiter werden leider nie gefragt, weil man es ihnen nicht zutraut. Vielen Führungskräften fehlt auch einfach die Verbindung zu ihren Leuten oder sie sind zu ungeduldig. Dafür braucht man eine Mischung aus Wertschätzung, Geduld und auch ein bisschen Disziplin. Ein guter Leader kann das, ein schlechter wird wahrscheinlich ungeduldig sein, auf externe Berater ausweichen oder er geht die Veränderung gar nicht erst an.

Wie kann man als Unternehmen schlechte Kundenerfahrungen als Learning nutzen, um tatsächlich besser zu werden?

Jan Myszkowski:  Wenn die Kunden ihre Beschwerde äußern, ist das schon mal gut. Es gibt ja auch Fälle, wo die Kunden aufgegeben haben und denken, die Firma wird eh nichts ändern. Das ist eine wichtige Erkenntnis im Kundenkontakt: Wenn jemand sagt, bei mir beschwert sich keiner, dann kann er entweder super gut sein, oder er ist im negativen Sinne schon „über den Berg“. Es gibt verschiedene Möglichkeiten: Einerseits kann man Beschwerden zentralisieren, dann analysieren, also das typische Beschwerdemanagement. Andererseits kann jeder Mitarbeiter auch Kundenkontakt haben, indem er sich die Aufnahmen aus dem Kontaktcenter anhört und vielleicht selber einmal „an der Front“ mitarbeitet.

Dieser direkte Kontakt ist sehr wichtig, damit man am Puls der Zeit ist. Das nimmt Zeit in Anspruch und ist ein Investment, aber es lohnt sich: der Kunde freut sich, ich lerne etwas und meine Mitarbeiter sehen, dass mir die Anliegen der Kunden wichtig sind. Und ich glaube, nicht nur negative, auch positive Erfahrungen sollte man ernst nehmen und – wenn es geht – direkt an die Mitarbeiter weitergeben. Wir überlegen momentan zum Beispiel, aus den Kontakt-Center-Aufnahmen einen Podcast zu machen. Dann könnte ich jeden Tag, wenn ich zur Arbeit fahre, drei Kundentelefonate im Podcast anhören: ein positives, ein neutrales, ein negatives. Man muss gewisse „Tricks“ anwenden, damit die Mitarbeiter so etwas nicht als mühsam und zeitraubend betrachten. Einen Podcast beispielsweise kann man auf dem Weg zur Arbeit anhören und später drüber reden. Ich glaube, je weniger das Kundenfeedback analysiert, strukturiert, protokolliert ist, desto besser sonst wird es zum Flohmarkt, second-hand Einsicht. Jeder Mitarbeiter sollte direkt diese Verantwortung für den Kunden spüren, und wissen, wo wir als Unternehmen stehen. Das kann man zu erzwingen versuchen, es ist aber viel besser, wenn man es vom Chef und anderen Mitarbeitern vorgemacht bekommt. Das regt viel mehr an.

Mit welcher Marke oder Dienstleistung hatten Sie in letzter Zeit die beste Customer Experience und wieso?

Jan Myszkowski:  Vor zwei Wochen waren wir mit unseren Nachbarn in Warschau. Über Booking.com habe ich das Hotel gebucht. Das lief super schnell und einfach mit ein paar Klicks – das mag ich. Danach habe ich von Booking verschiedene Informationen zu Sehenswürdigkeiten in Warschau bekommen, bei denen man einen Discount bekommt oder online Tickets kaufen kann. Erst habe ich das ignoriert. Aber dann sind wir zum Kulturpalast gegangen: Als wir reinkamen, gab es am Ticket-Schalter eine riesige Schlange, bestimmt über hundert Leute. Und dann habe ich bei Booking noch einmal nachgeschaut. Und siehe da, man konnte ein digitales Ticket kaufen, von der anderen Seite an die Kasse gehen, einen QR-Code vorzeigen und ein Ticket bekommen, ohne zu warten – und das auch noch billiger. Das hat uns bestimmt eineinhalb Stunden Zeit gespart. Das digitale Ticket war eigentlich  nichts Besonderes, aber in dem Moment passte es perfekt.

Es gibt natürlich noch viele andere Anbieter, die ein tolles Erlebnis für den Kunden bieten. Amazon ist sicherlich ein Benchmark für Customer Experience. Manchmal ist es aber auch mein Bäcker um die Ecke: Die kennen mich und wissen, was ich mag. Diese Wertschätzung, dass man sich an einen Kunden erinnert, scheint simpel. Manche tun es trotzdem nicht. Es muss also nicht alles online sein, eine gute Customer Experience geht auch am Kiosk oder im Café.

 

Mit Voice Interfaces glaubt man – wie bei jedem Trend – ein Allheilmittel gefunden zu haben. Doch ist ihr Einsatz längst nicht bei jedem Problem sinnvoll. Für welche Dienstleistungen können sie einen echten Mehrwert bieten? Wie muss ein guter Dialog aussehen und wie garantiert man Kunden einen sicheren Umgang mit ihren Daten? Wir zeigen Ihnen, auf was Sie unbedingt achten sollten.

In der Theorie müssten sich Voice Interfaces hervorragend in unseren Alltag integrieren lassen. Wir sind es gewohnt, Informationen in Sprache zu verpacken und unsere Wünsche verbal­ zu äußern. Für die Informationsweitergabe benutzen wir allerdings nicht ausschließlich diesen Weg der Kommunikation. Häufig werden Informationen auch nonverbal weitergegeben, mittels Gestik, Mimik oder Tonfall. In Online-Chats versuchen wir die mangelnden Möglichkeiten der nonverbalen Kommunikation mit Hilfe von zahlreichen Emojis auszugleichen. Meist gestikulieren wir wild herum, wenn wir Superlative beschreiben. So machen wir beispielsweise ausladende Gesten, um die Größe oder Breite von etwas zu untermauern. Sehen wir etwas Außergewöhnliches und möchten es beschreiben, können dies aber wie bei einem Telefonat, einer E-Mail oder einem Brief nur verbal, fühlen wir uns in unseren Möglichkeiten meist sehr beschränkt und verweisen lieber auf die mitgeschickten Bilder.

Wenn wir online auf ein tolles Gadget mit unzähligen Gadgets gestoßen sind, und einem Freund davon erzählen, zählen wir nur einige davon auf. Das tun wir nicht nur, weil wir nicht genügend Zeit haben, sondern auch, weil wir wissen, dass unser Gegenüber vielleicht ganz andere Features spannend findet. Unsere Erfahrung sagt uns, dass es viel sinnvoller wäre, ihm einfach den Link zu dem jeweiligen Produkt zu schicken, damit er selbst nachsehen kann, was ihm an diesem Gadget besonders gefällt.

Wie es sich im Alltag mit der rein verbalen Kommunikation verhält, so ist es auch mit Voice Interfaces. Längst nicht jeder Anwendungsfall hat das Potenzial durch Voice Interface einen Mehrwert zu generieren. Ein Beispiel dafür ist der Skill Store von Amazon‘s Alexa. Dort gibt es sehr viele sogenannte Skill-Leichen, also schlecht bewertete Skills, die niemand nutzt. Skills für Voice Interfaces sind das Äquivalent zu Apps aus der Mobile-Welt. Was charakterisiert diese Skill-Leichen? Sie haben keinen Mehrwert für den Nutzer. Entweder sind sie einfach nicht für Voice Interfaces ausgelegt oder nicht vernünftig für Dialoge konzipiert und treiben so manchen Nutzer in den Wahnsinn. Aber woran liegt das? Was muss man besser machen und wie kann man Skill-Leichen vermeiden?

Finden Sie einen sinnvollen Anwendungsfall

Häufig nutzen wir im Alltag Phrasen wie „Kannst du mir mal eben…?“, „Ich brauche mal kurz…“ oder „Wie war noch gleich…?“ – vor allem, wenn wir wenig Zeit oder schlicht die Hände voll haben. Gerade in diesen Situationen haben wir nicht die Möglichkeit, uns vor einen Computer zu setzen oder unser Handy herauszuholen. Und genau hier gibt es die perfekten Szenarien für die sinnvolle Nutzung von Voice Interfaces.

Denkbar sind Auskünfte aller Art, die Steuerung von anknüpfenden Systemen wie Smart Home oder auch Dienstleistungen wie die Buchung eines Mietwagens. Auch sind alle „Hand Free“- Szenarien prädestiniert für Voice Interfaces. Der Mechatroniker, der mit öligen Händen am Motor arbeitet und eine spezielle Information zu einem Ersatzteil benötigt oder der Hobbykoch, der beim Teigkneten den nächsten Rezeptschritt wissen möchte.
Software dient dazu, unseren Alltag leichter oder angenehmer zu machen. Und genau das zählt beim Einsatz von Voice Interfaces. Es geht um kurze Anfragen, sinnvolle Unterstützung und schnelle Resultate. Um Pragmatismus eben. Überlegen Sie deshalb genau, welchen Service oder welchen Anwendungsfall Sie für ein Voice Interface anbieten möchten und ob es für den Nutzer in seinem privaten oder beruflichen Alltag wirklich eine Hilfe ist.

Denken Sie Dialoge immer neu und niemals in visuellen Konzepten

Als seinerzeit die Smartphones und damit auch mobile Apps in einer Revolution den Markt überschwemmten, wurden die bereits bestehenden Konzepte einfach kleiner skaliert und übernommen. Erst im Laufe der Zeit wurden diese adaptierten Konzepte verfeinert und für die mobile Darstellung angepasst. Die visuelle Informationsverarbeitung des Menschen ist jedoch sehr selektiv. Das Unterbewusstsein wirkt wie ein Filter, der unsere Aufmerksamkeit auf die für uns wichtigen Dinge lenkt. Weitere Informationen führen wir uns erst später gezielt vor Augen. Dagegen funktioniert die auditive Wahrnehmung ganz anders. Hier kann nicht das Unterbewusstsein entscheiden, welche Informationen wir zuerst aufnehmen. Stattdessen konsumieren wir alles Gehörte in vorgegebener Reihenfolge.

Und genau hier hat der erste große Fehler seinen Ursprung: Bei der Konzeption eines Skills für ein Voice Interface geht man fälschlicherweise davon aus, dass es mit der einfachen Adaption eines bereits funktionierenden visuellen Konzepts getan sei. Doch visuelle Konzepte beinhalten zu viele Informationen für ein Voice Interface. Übernimmt man all diese Inhalte, wird der Nutzer mit langen Texten und unzähligen Informationen überflutet. Das ist sehr anstrengend und unangenehm. Aus diesem Grund hat Amazon bereits die sogenannte „ein-Atemzug-Regel“ ins Leben gerufen. Sie besagt, dass der Text, den Alexa in einer Interaktion mit dem Nutzer sagen soll, nicht länger als ein langsamer Atemzug sein darf. Damit sich der Nutzer also nicht überfordert fühlt und das Voice Interface besser annimmt, muss man sich eingehend mit den zu transportierenden Informationen beschäftigen und sollte Textlängen sowie Informationsbeschränkung berücksichtigen.

Lange Dialogstrecken vermeiden: Ein zweiter großer Fehler in Bezug auf Dialoge, der auch auf der Adaption von visuellen Konzepten beruht, sind zu lange Dialogstrecken. Besonders im E-Commerce sind wir gewohnt, Seite für Seite durch einen Prozess geführt zu werden, damit das System am Ende alle für den Kauf benötigten Informationen zur Verfügung stehen hat. Diese Prozesse sind stabil und führen in den meisten Fällen zum Erfolg. Anders verhält es sich bei einem Voice Interface. Ein einfacher, vom Interface geführter Frage-Antwort-Dialog in mehreren Schritten, kann schnell mehrere Minuten dauern. Lässt man sich bei der Antwort zu viel Zeit, wird der Dialog meist einfach beendet. Wird etwas falsch oder gar nicht verstanden, kann es zu Fehlern kommen. Hinzu kommt, dass einige bekannte Interfaces, auch ohne ersichtlichen Grund, einfach mal aus dem Dialog aussteigen. Das ist umso ärgerlicher, je weiter fortgeschritten dieser zähe Dialog ist.

Um das zu vermeiden, können bei der ersten Nutzung eines Voice Interfaces bestimmte Grundinformationen des Nutzers abgefragt und als Grundannahmen in der weiteren Nutzung vorausgesetzt werden. Gegebenenfalls kann man auf diese sogenannten Default-Daten auch von anderer Stelle zugreifen. Möchte ein Nutzer beispielweise eine Reise nach München buchen, benötigt das Voice Interface dafür folgende Daten: Abreiseort, Zielort, Datum, Uhrzeit, bevorzugte Reise- und Zahlungsart. Der Nutzer hat zuvor bereits schon einmal angegeben, dass er in Hamburg lebt, meist mit der Bahn reist und häufig mit Kreditkarte bezahlt. Als Abreisezeit wird standardmäßig der nächstmögliche Zeitpunkt gewählt. Das Interface würde also mit nur einer Frage, nämlich der nach dem Zielort, eine valide Buchung vornehmen können. Und das ohne ein langes und möglicherweise fehlerbehaftetes Frage-Antwort-Spielchen mit vielen Wiederholungen und fehlender Dynamik. Änderungen der vorhandenen Daten sollte der Nutzer im Anschluss immer vornehmen können.

Unterschiedliche Phrasen zur richtigen Zeit und in angenehmer Dynamik: Sprache gibt uns die Möglichkeit, eine bestimmte Aussage auf viele unterschiedliche Weisen auszudrücken. Sprachliche Varianz ist ein Ausdruck von Intelligenz. Warum sollten Voice Interfaces in ihren Formulierungen deshalb nicht ebenfalls variieren können? Durch mehr Dynamik und zahlreiche Phrasen wirken der Umgang und die gesamte Interaktion deutlich natürlicher. Das Interface passt sich so dem Nutzer an statt umgekehrt. Diese sprachlichen Anpassungen beziehen sich auch auf die wiederholte Nutzung des Interfaces. Wenn das Interface bei der ersten Nutzung alles ausführlich erklärt, sollten Wiederholungen bei der weiteren Nutzung vermieden werden, außer der Nutzer bittet darum.

In Situationen, in denen der Nutzer Hilfe benötigt, gibt es ebenfalls einiges zu beachten. Bei einem Voice Interface ist nicht „ersichtlich“ wie man mit ihm umgehen soll. Daher gibt es die Möglichkeit, um Hilfe zu fragen. Dabei kann das Interface berücksichtigen, in welcher Situation sich der Nutzer gerade befindet. Schließlich weiß es, ob sich der Nutzer beispielsweise gerade in einem Warenkorb oder bei der Angabe eines Datums für eine Reise befindet. So ist es kein Problem, dem Nutzer bei einer Hilfsanfrage im Warenkorb auch tatsächlich nur Hilfe zum Warenkorb anzubieten. Dieses Wissen sollte unbedingt genutzt werden, um situativ die bestmögliche Unterstützung zu geben.

Sorgen Sie für sichere Dialoge

Wie bei jeder Softwareentwicklung ist Datensicherheit auch bei Voice Interfaces ein zentrales Thema. Was muss also bei Analyse und Konzeption beachtet werden? Im Beitrag „Voice Interfaces – Das Hier und Jetzt“ wurden bereits die Big Player unter die Lupe genommen. Die dort beschriebenen Interfaces sind allesamt Cloud-basiert. Somit findet die Analyse und Verarbeitung der Sprache nicht lokal auf dem eigenen Rechner statt, sondern in den jeweiligen Rechenzentren der Anbieter. Im Rahmen der DSGVO müssen diese Anbieter nicht nur Auskunft darüber geben, wo sich die verarbeitenden Server befinden, sondern sich ebenfalls an die geltende Grundverordnung halten. Doch stellt sich die Frage, welcher Finanzdienstleister oder welche Krankenkasse hoch sensible Kundendaten in der Cloud eines fremden Unternehmens speichern möchte. Amazon beispielsweise bietet beim Zugriff auf ihre Services mit der verschlüsselten Übertragung oder der Authentifizierung via OAUTH2 zwar ein hohes Maß an Sicherheitsstandards, doch ist alles andere in deren Infrastruktur für Nutzer oder Entwickler nicht einsehbar. Es ist nahezu unmöglich ein Voice Interface, welches mit sensiblen Daten arbeiten soll, so zu anonymisieren, dass auf Cloud-Seite des Anbieters keine Rückschlüsse auf den Nutzer möglich wären. Alles Gesagte wird in der Cloud verarbeitet – und alles, was das Interface zum Nutzer sagt, ebenfalls. Es gibt hier also nur die Möglichkeit einen Anwendungsfall zu finden, bei dem keine sensiblen Daten genutzt werden.

Warum die Cloud? Segen und Fluch bei aktuellen Voice Interfaces ist, dass das Transkribieren und Analysieren von Sätzen auf Machine-Learning-Technologie basiert. Sobald ein Dialogmodel erarbeitet wurde, muss das System dieses Model lernen, damit es anschließend auch ähnliche Satzvarianten verstehen kann. Dieses „Lernen“ ist ein rechenintensiver Vorgang, welcher auf der Hardware eines Servers ausgeführt wird. Aus dieser Perspektive sind diese Cloud-Lösungen natürlich pragmatisch und scheinbar essenziell. Doch es gibt einige wenige Lösungen im Bereich Voice Interfaces, die auf lokalen Rechnern oder eigenen Servern lauffähig sind. So bietet beispielsweise der Softwarehersteller „Nuance“ mit der Spracherkennungssoftware Dragon ein Tool, welches das Transkribieren auf eigener Hardware ermöglicht.

Was ist im Umgang mit Pins und Passwörtern zu beachten? Ein weiterer Aspekt bei der Datensicherheit ist die Art des Interfaces. Während wir bei einem visuellen Interface mit einem schnellen Schulterblick prüfen können, ob uns jemand bei der Eingabe unseres Passworts auf die Finger guckt, ist es bei der Sprache weitaus problematischer. Das Abgreifen sicherheitsrelevanter Daten ist daher ein leichtes Spiel. Pins und Passwörter sollten deshalb niemals Teil eines Voice Interfaces sein. Hier ist die Verbindung mit einer visuellen Komponente ratsamer. In der visuellen Komponente wird der Nutzer authentifiziert, während die sonstige Bedienung über die auditive Komponente läuft.

Fazit

Nach wie vor ist der Umgang mit sensiblen Daten eine der größten Herausforderungen beim Einsatz von Voice Interfaces. Hier gilt es, mit einem besonders kritischen Blick zu arbeiten und Dialoge entsprechend zu konzipieren. Sicherheitsabfragen sollten niemals Teil eines Dialogs in einem Voice Interface sein. Auch wenn es verlockend ist, sollten visuelle Konzepte keinesfalls eins zu eins auf ein Voice Interface übertragen werden. Dadurch wird der Nutzer überfordert sowie Dialoge viel zu lang oder auf Grund von Fehlern abgebrochen. Wenn Sie all diese Punkte berücksichtigen, wird der Nutzer das Arbeiten mit einem Voice Interface als angenehm, natürlich und hilfreich empfinden. Ob das Interface insgesamt Sinn macht, liegt natürlich maßgeblich an der Idee und dem Einsatzgebiet.

Dieser Beitrag erschien zuerst bei Adzine und ist der dritte Teil einer vierteiligen Serie zum Thema Voice Interfaces:

Wer seine Produkte im Internet bewerben will, macht das bislang über Anzeigen in Suchmaschinen, sozialen Netzwerken oder auf den Seiten von Medien. Inzwischen wächst aber noch eine weitere Säule heran. Denn Werbung können Firmen auch auf immer mehr Seiten von Händlern schalten. Die Handelsplattformen entdecken die Werbung als lukrative Einnahmenquelle. Sie besitzen einen entscheidenden Vorteil: Daten über die Kundenwünsche aus erster Hand. Und Firmen sehen durchaus noch weitere Vorteile auf ihrer Seite, denn die Nutzer sind ja bereits in Kauflaune.

   1. Top-Player wie Amazon, Zalando, Otto und Alibaba

Und genau auf dieser Datenbasis und dort zu werben und abzuverkaufen, wo sich das Kundeninteresse unmittelbar manifestiert, ist spannend. Top-Player wie Amazon, Zalando, Otto und Alibaba haben diese Vermarktungspotenziale längst auf dem Zettel Es wird deutlich mehr Geld in diese Marktplätze fließen, da immer mehr Nutzer (mehr als 50% bei Amazon) nicht nur nach Produkten suchen, sondern in den meisten Fällen über kurz oder lang auch kaufen wollen!

Platzierung, Budgets und Aufwände zur Erstellung von Anzeigen sind auf Marktplätzen deutlich Sales-näher als in anderen Kanälen oder auf anderen Plattformen. Gerade die logistischen Aspekte von Marktplatzbetreibern (Verfügbarkeit, Terminlieferung, Versandkosten, Sonderkunden-Vorteile etc.) werden von vielen Käufern als hoch kaufrelevant eingestuft – neben der Vergleichbarkeit von Preisen oder abgestimmten, angrenzenden Produktsortimenten.“

    2. Was ändert sich in Bezug auf die Strategien?

Zur effektiven Ansprache von Kunden, die sich am Ende des Customer Decision Funnels befinden, muss neben Performance Marketing in Suchmaschinen auch zwingend der Kontakt auf Marktplätzen gesucht werden. Insbesondere der Einsatz von Nutzerdaten auf den zusammengefassten Retail Media-Plattformen, ermöglicht eine noch effizientere Ausspielung der unterschiedlichen Werbeformate. Darüber hinaus sollte auch der werbliche Effekt von Markenbotschaften, über solche Plattformen hinausgehend, nicht vernachlässigt werden, ungeachtet der Fokussierung auf Conversions und Abverkauf. Mit ihren tlw. sehr hohen Reichweiten und unmittelbaren Platzierung im Wettbewerbsumfeld, ermöglicht Retail Media viele Optionen, um über die reine Optimierung der Kosten-Umsatz-Relation (KUR) hinaus, additiven Umsatz zu generieren.

   3. Was lässt sich über das Spendingverhalten der Kunden sagen – wo wurde erhöht und wo reduziert?

Laut jüngster eMarketer Studie werden sich die Spendings in den USA in den nächsten zwei Jahren auf Amazon nahezu verdoppeln – vor allem zu Lasten von Google und Facebook. Die übrigen Kanäle und Plattformen entwickeln sich aber stabil. Eine spannende, neuere Entwicklung werden die aus dem Boden sprießenden Marktplätze darstellen, die Werbekunden noch mehr Platzierungs- und/oder Kooperationsmöglichkeiten geben und, strategisch richtig gewählt, mindestens eine thematisch relevante Alternative zu Amazon oder Preisvergleichern darstellen.

Dieser Artikel erschien zuerst bei Internet World.

Bis zum Release von Amazons Echo aka Alexa haben die Big Player mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Mittlerweile gibt es zahlreiche weitere Varianten, doch welche sind die bekanntesten und welches Voice Interface ist das geeignetste?

Heutige Voice Interfaces sind eine Kombination zweier Komponenten, nämlich der Transkribierung und des Natural Language Processing (NLP). Ein gesprochener Satz wird in einen Text transkribiert. Dieser wird auf Basis von Künstlicher Intelligenz analysiert, darauf basierend eine Reaktion erzeugt und diese über eine Sprachsynthese wieder in analoge Sprache umgewandelt und ausgespielt (siehe auch Teil 1).

Unterschiedliche Klassifizierung

Zu differenzieren sind Conversational Interfaces ohne und mit sogenannten Wissensdomänen. Hierbei handelt es sich um digitale Strukturen, die Wissen rund um einen Themenbereich abbilden.

1) Conversational Interfaces mit Wissensdomäne 

Bei Conversational Interfaces mit Wissensdomänen geht es nicht nur um die Analyse von Satzteilen, sondern darum, den tatsächlichen Sinn hinter einem Satz zu verstehen. Diese Art von Interfaces werden Smart Assistants genannt. Betrachtet man den für uns Menschen einfachen Satz: „Reserviere zwei Plätze in einem Zwei-Sterne-Restaurant in Hamburg!“ ist uns klar, um was es geht. Wir wissen, dass einem Restaurant „Sterne“ verliehen werden können, dass Hamburg eine Stadt ist und dass man in einem Restaurant Plätze reservieren kann. Ohne das Wissen in diesem Bereich ist es jedoch schwer, dem Satz einen Sinn zu entnehmen. „Zwei Sterne“ könnte genauso gut der Name eines bestimmten Restaurants sein. Was zwei Plätze sind und wie man sie reservieren kann, ist dann völlig unklar. Das überhaupt ein Restaurant mit bestimmten Eigenschaften in Hamburg gesucht werden soll, ist dann unklar. Smart Assistants sollen aber genau diese Dinge verstehen können und benötigen deshalb ein spezielles Grundwissen in den entsprechenden Domänen wie Gastronomie, Events, Wetter, oder Reisen.

2) Conversational Interfaces ohne Wissensdomäne

Conversational Interfaces ohne Domänenwissen haben diesen Anspruch nicht – so beispielsweise Alexa. Hier ist der Ansatz ein anderer. Für einen möglichen Dialog werden bei der Implementierung Satzstrukturen vorgegeben, in denen variable Teile, sogenannte Slots, definiert werden können. Der gesprochene Satz wird dann analysiert und einer Satzstruktur zugeordnet. Anschließend wird derjenigen Komponente, die die Reaktion auf das Gesagte generiert, mitgeteilt, welche Satzstruktur mit welchen variablen Teilen erkannt wurde. Dass dabei kein Grundwissen benötigt wird, verdeutlicht folgender Satz: „Ich möchte ein rotes Hemd kaufen“. An dieser Stelle braucht das System kein Wissen über Kleidung oder Farben, denn es gleicht lediglich ab, wie bestimmte Sätze bezogen auf den Kauf eines Hemdes aussehen können. Dazu wird im Model des Dialogs für das Interface festgelegt, dass es eine Satzstruktur mit einer ID gibt, die beispielsweise „hemdkauf“ heißt. Weiter wird festgelegt, dass die Satzstruktur folgende Ausprägungen haben darf: „Ich möchte ein <farbe> Hemd kaufen“, „Ich möchte ein Hemd in der Farbe <farbe> kaufen“ und “Ich möchte ein Hemd kaufen und zwar in <farbe>“. Dadurch wird ebenfalls definiert, dass es einen variablen Satzteil (Slot) mit dem Namen „farbe“ gibt. Für diesen Slot werden die gewünschten Möglichkeiten angegeben, z.B. „rot“, “grün“ und „gelb“. Wird vom Nutzer nun oben genannter Satz gesagt, ergibt die Analyse, dass es sich um die Satzstruktur „hemdkauf“ mit dem Wert „rot“ für den Slot „farbe“ handelt. In entsprechend strukturierter Form kann ein Backendsystem mit diesen Angaben schon etwas anfangen.

Die aktuellen Hauptakteure

Bis zum Release von Amazons Echo aka Alexa, haben viele IT-Firmen mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Siri ist zwar mit einem Paukenschlag ans Licht der Öffentlichkeit getreten, wurde aber eher als hilfreiches Tool und nicht als eine völlig neue Klasse von Interfaces wahrgenommen. Die Vorteile von „hands free“ bei mobilen Geräten war aber nicht von der Hand zu weisen und so arbeitet nun jeder Big Player an seiner eigenen Sprachlösung. Hier eine kurze Vorstellung der aktuellen Hauptakteure:

Amazon‘s Alexa

Schaut man sich die Produktpalette von Amazon an, wird klar, dass Alexa eine konsequente Weiterentwicklung vorhandener Technologien ist. So waren schon die Fire Tablets (ab 2013), das Fire Phone (2014) und die ersten Fire TVs (2014) mit einer Sprachsteuerung ausgestattet. Die Technologie von Alexa als „Voice Interface as a Service“, oder auch der „Alexa Voice Service“, ist jedoch kein Smart Assistent. Hier werden im Hintergrund lediglich Sätze verglichen, statt den Sinn von Sätzen zu analysieren. Bei komplexeren Anfragen steigt Alexa schnell aus. Grund dafür ist, dass es nur sehr oberflächliche Wissensdomänen gibt, die dem Entwickler zudem nicht offenstehen. Auch die Anfragen, die man einem Echo gegenüber äußern kann, müssen sehr knapp und wenig komplex formuliert sein. So können Filme beispielsweise über den Namen von Schauspielern gesucht werden oder Restaurants nach der Angabe des Umkreises. Viel tiefer geht es hier schon nicht mehr.

Google Assistant

Google Now war ursprünglich ein Bestandteil von der Google Search und bezog sich rein auf die Suche im Web. Später wurde es ausgegliedert, um Domänenwissen erweitert und damit konkurrenzfähig gegenüber Assistenten wie Apple’s Siri oder Samsung‘s S Voice gemacht. Im letzten Jahr wurde Google Now dann durch den Google Assistent ersetzt. Wie stark die unterschiedlichen Wissensdomänen beim Google Assistent indessen verzahnt sind, wurde mit dem Produkt „Google Duplex“ eindrucksvoll auf der Entwicklerkonferenz von Google veranschaulicht. Google Duplex als Bestandteil des Assistenten kann mit realen Personen telefonieren und Termine für beispielsweise den Frisör machen oder einen Tisch reservieren. Dabei greift der Assistent nicht nur auf den Terminkalender zu, sondern muss auch über entsprechendes Domänenwissen verfügen.

Apple‘s Siri

Die Geschichte von Siri ist eine etwas andere. Der Smart Assistent wurde von der Firma Siri Inc. entwickelt und verfolgte von Anfang an den Ansatz, Sprache mittels Domänenwissen zu analysieren. Siri Inc. ist ein Spin-Off des Stanford Research Institutes (SRI). Vor 15 Jahren arbeitete SRI gemeinsam mit Institutionen an dem Projekt „CALO“ (Cognitive Assistant that Learns and Organizes), von dem viel Erfahrung in die Entwicklung Siris eingeflossen ist. 2010 wurde Siri im Appstore veröffentlicht und Siri Inc. prompt von Apple aufgekauft. Ein Jahr später verkündete Apple dann offiziell, dass Siri nun ein fester Bestandteil von iOS sei. Seitdem wurde es auf allen Plattformen ausgerollt. Zuletzt wurde mit dem HomePod ein smarter Lautsprecher herausgebracht, der mit dem Konkurrenzprodukt Echo von Amazon vergleichbar ist und auf den gegenwärtigen Trend der Voice Interfaces einzahlt.

Microsoft’s Cortana

Microsofts Cortana wurde der Öffentlichkeit 2014 das erste Mal auf einer Konferenz präsentiert. Ebenfalls als Smart Assistent ausgelegt, verfügt Cortana über interessante Adaptionen aus der Realität. Die sehen wie folgt aus: Ein realer Assistent macht sich meist Notizen über seinen Vorgesetzten oder Auftraggeber, um die Person besser kennenzulernen und sich ihre Gewohnheiten zu merken. Cortana nutzt dafür ein virtuelles Notebook. So fragt Cortana bereits bei der erstmaligen Nutzung einige Vorlieben ab, um schon früh personalisierte Antworten geben zu können. Diese Funktionalität kann je nach Bedarf auch ausgestellt werden. Das Herzstück von Cortana ist Bing; besser gesagt, sind es Services, die auf Bing basieren und erlauben, der Suchmaschine umgangssprachliche Anfragen zu stellen.

Samsung’s Viv

Auch Samsung versucht schon seit geraumer Zeit eine intelligente Software für ihre Geräte zu etablieren, die natürlich auch ein Sprachinterface bieten soll. Dazu kaufte Samsung 2016 kurzerhand das Unternehmen der Siri Urväter „Viv Labs“ auf. Viv Labs setzten mit ihrem System voll und ganz auf Domänenwissen. Anders als bei den Mitbewerbern soll es bei Viv jedoch möglich sein, die Wissensbasis von externen Entwicklern um neue Domänen erweitern zu lassen. Dadurch soll das System intelligenter werden und immer mehr verstehen können. Dazu stellt man sich beispielsweise eine Whisky-Manufaktur vor. Die Viv wird nun von Experten um die Wissensdomäne Whisky und die eigenen Produkte erweitert. Zusätzlich teilt eine Manufaktur ihr gesamtes Wissen über Holzfässer und deren Herstellung. Im Domänenwissen der Viv befindet sich nun wertvolle Expertise darüber, welche Holzfässer für den Geschmack bestimmter Alkoholsorten verantwortlich sind. So zum Beispiel, dass Eichenfässer für Whisky mit vanilligem Geschmack sorgen. Frage ich nun Viv, woher die Vanillenote eines bestimmten Whiskys von besagter Manufaktur kommt, kann mir die Viv antworten, dass der Geschmack höchstwahrscheinlich von der Lagerung in Eichenfässern herrührt. Viv hat dabei beide Domänen zusammengeführt.

IBM’s Watson

IBM Watson sei hier erwähnt, um mit Missverständnissen aufzuräumen. Es gibt keine „Künstliche Intelligenz Watson“, die alles versteht und kontinuierlich Wissen anhäuft. Watson ist eine Sammlung von verschiedenen Tools Künstlicher Intelligenz unter einem gemeinsamen Konzept, mit denen unterschiedlichste Projekte realisiert werden können. So gibt es beispielweise auch Projekte, die dazu dienen, eine große Wissensbasis aufzubauen. Allerdings sollte man sich nicht der Illusion hingeben, dass einem das eigene Watson-Projekt Zugriff auf dieses Wissen beschert. Wer ein Projekt mit Watson implementieren möchte, muss seine eigene Datenbasis mitbringen – so wie bei jedem anderen Maschine Learning Toolkit auch. Watson selbst stellt unter anderem Tools zum Transkribieren (The IBM® Speech to Text Service) und zur Textanalyse (Natural Language Understanding Service) zur Verfügung. Wer gemeinsam mit Watson ein Projekt realisieren möchte, baut bei der Implementierung von Voice Interfaces auf diesen zwei Tools auf.

Von der Analyse des Problems zum passenden Voice Interface

Natürlich gibt es viele weitere Lösungen, die teils sehr spezialisiert sind, teils aber auch die Restriktionen der Big Player aufbrechen möchten, um mehr Entwicklungsmöglichkeiten zu bieten. Es stellt sich nun natürlich die Frage: Wozu all die verschiedenen Voice Interfaces? Wie bei vielen anderen komplexen Problemstellungen auch, gibt es hier nicht die eine allgemeingültige Lösung. Es gibt kein „gutes“ oder „schlechtes“ Interface. Es gibt nur „richtige“ oder „falsche“ Anwendungsgebiete für die unterschiedlichen Technologien. Alexa taugt wenig für komplexe Satzstrukturen, eignet sich aber hervorragend für schnelle Umsetzungen und ist bereits weit verbreitet. Hingegen hat sich Viv noch nicht durchsetzen können, hat aber das Potenzial, beliebig komplexe Sätze verstehen zu können.

Für die Auswahl des passenden Voice Interfaces zählen also bestimmte Kriterien, wie der Anwendungsfall, der Fokus, die Problemstellung, die Bedürfnisse der Zielgruppe oder wie offen ein Interface für die Integration in eigene Projekte ist.

Dieser Artikel erschien zuerst bei Adzine und ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

SEO News

Irgendwie wird man ja dieser Tage den Verdacht nicht los, dass die Dinge ins Rutschen geraten sind. Leider können wir nicht für viel mehr Stabilität sorgen – denn es geht um Veränderung. Ob das Internet, wie wir es kennen, in zehn Jahren überhaupt noch existiert und was sich Google für die kommenden 20 Jahre vorgenommen hat, das erfahren Sie in den SEO-News für den Monat Oktober.

1) Schöne neue Google-Welt

Runde Geburtstage sind ein willkommener Anlass, um Bilanz zu ziehen und nach vorne zu schauen. Nicht anders geht es Unternehmen und Institutionen. Nun feiert also die Suchmaschine Google ihren 20. Geburtstag und in aller Konsequenz hat sich der erst vor wenigen Monaten ins Amt beförderte Leiter der Abteilung Search, Ben Gomes, in einem Blogbeitrag an einer großen Erzählung versucht. Gomes spannt den Bogen von seiner Kindheit in Indien, als sein einziger Zugang zu Informationen eine öffentliche Bibliothek der längst verschwunden Kolonialmacht Großbritannien war, zur Suchmaschine der Gegenwart. Personalisierung, Automatisierung und Relevanz sind laut Gomes die Eckpfeiler eines Qualitätsprodukts, welches ihm zufolge noch immer der ursprünglichen Vision folgt: „Die Informationen der Welt zu organisieren und für alle zu jeder Zeit zugänglich und nutzbar zu machen“. Ob dieses Ziel global gesehen gerade auf dem Altar der Verhältnismäßigkeit geopfert wird? Auf diese Frage und die Doppelmoral im Umgang mit China gehen wir weiter unten in diesen SEO-News nochmal ein.

Interessant für die tägliche SEO-Arbeit ist aber zunächst einmal ein Paradigmenwechsel, den Gomes als wegweisend für die kommenden 20 Jahre von Google ansieht. Grundsätzlich bestätigt der Search-Chef die Vision einer unsichtbaren und allgegenwärtigen Orientierungs-, Lösungs- und Komfortmaschine. Der Wandel zu dieser allgegenwertigen Dienstleistung soll laut Google durch drei fundamentale Veränderungsprozesse beschritten werden. Zunächst geht es um eine noch stärkere Personalisierung. Auf dieser Ebene will Google versuchen, sich vom situationsgetriebenen Antwortgeber zum ständigen Begleiter zu mausern. Wiederkehrende Informationsdefizite und laufende Rechercheprojekte der Nutzer sollen laut Gomes erkannt, aufgegriffen und bedient werden. Erreicht werden soll dies vor allem mit einer Neuausrichtung der User Experience auf der Google-Ergebnisseite. Hier werden sich schon in naher Zukunft allerlei personalisierte Elemente finden, die Nutzern helfen sollen, ihre Reise durchs unendliche Informationsuniversum effizienter zu gestalten. Das der Nutzer sich in diesem Prozess nicht nur selbst kennenlernt, sondern vor allem die Suchmaschine den Nutzer, das versteht sich von selbst.
Bevor aber Kritik aufkommt, schnell weiter zum zweiten Paradigmenwechsel: Antwort vor Frage.
Google hat sich vorgenommen, die für den individuellen Anwender relevanten Informationen zu identifizieren und aufzubereiten, noch bevor dieser überhaupt eine Suchanfrage formuliert hat. Der Schlüssel ist hier technologischer Natur. Nach „Künstlicher Intelligenz“ und „Deep Learning“ soll vor allem eine Technik namens „Neural Matching“ helfen: Sie verknüpft die artikulierte Repräsentation durch Text, Sprache oder Bild mit dem jeweils übergeordneten Objekt oder Konzept. Dies stellt die Fortführung des Konzepts der Semantischen Suche und der Entitäten mit neuen technologischen Konzepten dar und ist aus Unternehmenssicht mehr als konsequent.

Die dritte Säule der Veränderung soll eine stärkere Öffnung der Suchsysteme für visuelle Informationen sein. Das Visual Search ein großes Potential für Nutzer und Wertbetreibende birgt, haben wir an diese Stelle schon mehrfach beschrieben. Google lässt sofort Taten folgen und stellt eine komplette Überarbeitung seiner Bildersuche, sowie die Integration seiner KI-getriebenen Bilderkennungstechnologie „Lens“ in die neue Generation der hauseigenen „Pixel“-Smartphones vor. Interessant an der Google-Jubiläumsschrift ist vor allem, was nicht erwähnt wird: Der Sprachassistent Google Home. Es ist ein gutes Zeichen, dass sich Google trotz aller Marktzwänge nicht von seiner technologischen DNA abbringen und in eine Konkurrenz zum Voice-Marktführer Amazon drängen lässt. Das Thema Voice wird die Suchwelt, entgegen dem veröffentlichten Hype, ganz sicher nicht aus den Fugen heben.

2) Das Ende der vernetzten Welt

Ach, wie doch alles zusammenhängt: Das Individuum, die Welt, die Technologie und die Demokratie. Immer mehr Aspekte unserer Existenz werden digitalisiert oder über digitale Kanäle vermittelt. Bei diesem Prozess kommt es immer wieder zu Verzerrungen. Als Taktgeber dieser Disruption agieren die bekannten Tech-Konzerne mit ihren Plattformen. Möglicherweise ist es kein großer Schritt mehr, bis sich Facebook, Amazon oder Google als die quasi-institutionalisierten Eckpfeiler unseres gesellschaftlichen und wirtschaftlichen Systems etablieren können. Schon heute übertrifft die reale Gestaltungskraft dieser Unternehmen oftmals die Leistungsfähigkeit bestehender, staatlicher Regelwerke. Und Suchmaschinen stehen als Mensch-Maschine-Schnittstelle und Vermittlungsplattform im Zentrum dieser Entwicklung. Die relevanteste Shopping-Suchmaschine Amazon verändert mit ihrem radikalen Umbruch des Einzelhandels beispielsweise nicht nur unser persönliches Konsumverhalten, sondern auch die Erscheinung unserer Städte und Landschaften. Der Bequemlichkeit des Konsumenten folgen leerstehende Geschäfte in den Innenstädten und kilometerlange, gesichtslose Logistik-Laderampen in der Provinz. Währenddessen hat der globale Populismus geschickt soziale und informationelle Suchsysteme genutzt, um seine Botschaften passgenau zu platzieren und zu verstärken. Facebook und Google haben mit ihren Diensten zumindest geholfen, die Mehrheitsverhältnisse in den größten Demokratien der Welt binnen kürzester Zeit auf den Kopf zu stellen. Aus einem Selbstverständnis als reine Technologiefirmen weigern sich Google, Facebook und Co. allerdings bislang hartnäckig, die Verantwortung für die Konsequenzen ihres Handelns zu übernehmen. Außer öffentlichen Bußgängen und der vagen Ankündigung, man suche nach „technischen Lösungen“ zeigt man sich wenig offen dafür, die eigene Strategie den immanenten systemischen Gefahren anzupassen. Die interessante Frage lautet daher: Müssen globale Technologieunternehmen eben jene Werte von Freiheit und Demokratie repräsentieren, die das Fundament für ihren eigenen Aufstieg und Erfolg in den USA und Westeuropa gelegt haben? Oder dürfen sich Unternehmen wie Google oder Facebook je nach Marktlage flexibel zeigen und ihren technologischen Vorsprung im Zweifelsfall auch im Kontext von Zensur und Repression ausspielen? Aktuell lässt sich der Zustand dieser Debatte an Googles Projekt „Dragonfly“ ablesen. Da Mountain View bislang die Zensur seiner Produktinhalte verweigert hat, blieb dem globalen Marktführer ausgerechnet der Zugang zum weltweit größten und am stärksten wachsenden Markt verwehrt. Die Volksrepublik China musste und konnte gut damit leben, dass Google im Jahre 2010 sämtliche Aktivitäten im Land eingestellt hatte. Man kam am Gelben Fluss auch sehr gut ohne Konkurrenz für die eigenen Flaggschiffe Baidu, Tencent und Alibaba aus. Laut übereinstimmenden Medienberichten arbeitet Google nun seit mehreren Monaten daran, sein Engagement im Reich der Mitte neu zu starten, mit dem Segen der Regierung in Peking. Unter dem Arbeitstitel „Dragonfly“ plant Google den Berichten zufolge die Einführung einer Search- und einer MapsApp. In enger Zusammenarbeit mit den chinesischen Behörden sollen diese Apps unter staatlicher Kontrolle und Zensur den Weg bereiten für zukünftige, breiter angelegte Aktivitäten aus Mountain View in der Volksrepublik, hieß es weiter. Man zeigt also Wohlverhalten, wenn die Aussicht auf Profit stimmt. Man kann dieses Vorgehen als pragmatisch und wirtschaftlich gegeben bewerten. Vor allem vor dem Hintergrund, dass die chinesischen Behörden dem Konkurrenten Facebook eine bereits erteilte Firmenzulassung nach nur einem Tag wieder entzogen haben. Ungezügelte Disruption im Westen und kooperative Unterordnung in Asien, der ehemalige Google CEO Eric Schmidt hat die Konsequenzen dieser Doppelmoral vor wenigen Tagen in San Francisco skizziert. Schmidt sagte dem US-Nachrichtensender CNBC, er rechne damit, dass sich das Internet innerhalb des kommenden Jahrzehnts teilen werde. Er erwarte eine Spaltung in ein chinesisch dominiertes und ein US-dominiertes Internet bis spätestens 2028. Offenbar hat man sich im Silicon Valley von der Vision einer globalen und offenen Vernetzung der Welt bereits verabschiedet. Die Konsequenzen dieser Entwicklung wird jedoch jeder Einzelne zu spüren bekommen.

 

Dieser Beitrag erschien zuerst bei Internet World Business.

Bis ins Jahr 2015 wurden Voice Interfaces von den meisten eher als eine nette Spielerei wahrgenommen, die auf Smartphone und Navigationssysteme beschränkt war. Doch mit Amazon Echo kam diese Technologie quasi über Nacht in die Wohnzimmer vieler Verbraucher auf der ganzen Welt. Amazon behält sich zwar die genauen Absatzzahlen vor und hat bis heute keine weiteren Details veröffentlicht, jedoch wurden laut des Nachrichtenportals Business Insider im Jahr 2015 bereits 2,4 Millionen Amazon Echos weltweit verkauft. 2016 stieg der Absatz auf 5,2 Millionen an. Dadurch entdeckte auch Apple das bis dato stiefmütterlich behandelte Siri wieder und kündigte im Juni 2017, nach sechs Jahren Stille um das Spracherkennungsprogramm, ein ganz eigenes Device dafür an: den HomePod. Auch andere Unternehmen sahen sich gezwungen, diesem Trend zu folgen, wussten jedoch wenig damit anzufangen.

Back to the roots

Dabei sind Voice- bzw. Conversational Interfaces nicht wirklich etwas Neues. Voice Interfaces sind genau betrachtet Conversational Interfaces mit einem speziellen Eingabekanal, nämlich der analogen Sprache. Die Entwicklungsetappen der vergangenen Jahrzehnte dürften vielen Marktbeobachtern sogar bekannt sein. Betrachtet man die Technologie, die heutzutage hinter einem Voice Interface steckt, findet man zwei unterschiedliche Komponenten: Die eine ist für das Transkribieren von analoger Sprache in Text zuständig. Die andere analysiert den Text und reagiert entsprechend darauf. Dieser Teil wird durch Natural Language Processing und weitere Technologien der Künstlichen Intelligenz (KI) realisiert. Beide Komponenten gibt es als getrennte Technologien schon sehr lange:

1) Transkribieren

Transkribieren bedeutet einfach ausgedrückt, die Umwandlung von gesprochenem Text oder auch Gebärdensprache in eine schriftliche Form. Entsprechende Software gibt es bereits seit 1982. Seinerzeit hatte die Firma Dragon Systems dafür eine Software auf den Markt gebracht. Diese wurde für das damalige DOS(x86) entwickelt, hieß „DragonDictate“ und war eher rudimentär. Kontinuierlich zu transkribieren war damit nicht möglich. 15 Jahre später brachte dieselbe Firma „Dragon NaturallySpeaking 1.0“ auf den Markt. Die Software verstand natürliche Sprache bereits so gut, dass sie hauptsächlich für Diktate am Computer genutzt wurde. Allerdings mussten die damaligen Systeme stark auf die eigene Stimme trainiert oder das verwendete Vokabular begrenzt werden, um die Erkennungsgenauigkeit zu verbessern. Daher gab es bereits entsprechend vorgefertigte Sprachpakete für beispielsweise Anwälte oder Mediziner, deren Sprachgebrauch sehr speziell ist. Einmal optimiert, lieferten diese frühen System erstaunlich gute Resultate. Darüber hinaus bestand aber auch bereits die Möglichkeit, via Dragon ein Windows-System mit Sprachbefehlen zu steuern.

2) Natural Language Processing

Nachdem die Sprache transkribiert wurde, kann der Text weiterverarbeitet werden. Bei der Überlegung was für eine Technologie einen Text, der ansatzweise natürlich-sprachlich klingt, als Eingabe zulässt und darauf sinnvoll reagieren kann, kommt man schnell auf die sogenannten Chatbots. Diese sind eine Unterklasse autonomer Programme namens Bots, die bestimmte Aufgaben selbstständig erledigen. Chatbots simulieren Gesprächspartner, die oftmals themenbezogen agieren. Auch wenn sich diese erst in den letzten Jahren steigender Beliebtheit erfreuen, muss man auch hier eher von einer Renaissance sprechen; der erster Chatbot erblickte bereits vor 52 Jahren das Licht der Welt. Der Informatiker Joseph Weizenbaum entwickelte „ELIZA“, die heute als Prototyp der modernen Chatbots gilt und die Verarbeitung natürlicher Sprache erfolgreich demonstrieren sollte.

3) Künstliche Intelligenz

Die Entwicklung von ELIZA machte deutlich, dass einfache Mittel ausreichen, um beim Turing-Test für Künstliche Intelligenz (KI), bei dem es um die subjektive Bewertung eines Gesprächs geht, gute Ergebnisse zu erzielen. Probanden haben, trotz der simplen Mechanismen des Bots, angefangen eine persönliche Bindung aufzubauen, um dann sogar über private Dinge zu schreiben. Die Erfahrungen mit diesem ersten Conversational Interface sorgten für viel Aufmerksamkeit und kontinuierlich verbesserte Chatbot-Technologien.

So wurde 1981 beispielsweise BITNET (Because It’s There NETwork) ins Leben gerufen, ein Netzwerk, das die Forschungs- und Lehreinrichtungen der USA miteinander verband. Eine Komponente dieses Netzwerks war Bitnet Relay, ein Chatclient, aus dem später der Internet Relay Chat (IRC) wurde. Für diese Chat-Systeme, so auch für ICQ wurden im Laufe der Zeit von Studenten und Nerds unzählige, mehr oder weniger einfache, Chatbots entwickelt. Diese basierten, wie auch ELIZA, auf der einfachen Erkennung von Sätzen und nicht auf der Auswertung von Wissen.

2003 begann eine weitere wichtige Entwicklung, die auf eine neue Klasse von Chatbots einzahlt, nämlich auf die Smart Assistants wie beispielsweise Siri. CALO, der „Cognitive Assistant that Learns and Organizes“, war eine von der Defense Advanced Research Projects Agency ins Leben gerufene Entwicklung, an der sich viele amerikanische Universitäten beteiligten. Das System sollte dem Nutzer dabei helfen, effektiver mit Informationen umzugehen und ihm zu assistieren, indem es permanent seine Fähigkeit verbessern, die Wünsche des Nutzers richtig zu interpretieren. Basis dafür ist die digitale Wissensrepräsentation. Damit ist gemeint, wie Wissen in einem digitalen System festgehalten und nutzbar gemacht werden kann. Durch semantische Netze können Objekte und deren Fähigkeiten in Relation zu anderen Objekten abgebildet werden, die es dem Smart Assistant ermöglichen, Verständnis dafür zu entwickeln, was ein Nutzer mit einer bestimmten Äußerung ausdrücken möchte. Möchte beispielsweise ein Kunde einen „trockenen Wein“ über seinen Smart Assistant bestellen, so muss dieser kontextabhängig die Verbindung zwischen den Begriffen „trocken“ und „Wein“ kennen. Nur so versteht er, dass es sich hier um eine Geschmacksnuance handelt und nicht um die Abwesenheit von Flüssigkeit.

Die Learnings

Das einfache Erkennen und Vergleichen von Texten, auch Matching genannt, und die intelligente Analyse mittels Wissensrepräsentation sind zwei unterschiedliche Technologien, die sich unabhängig voneinander weiterentwickelt haben. Mit Hilfe des Matching-Ansatzes, lassen sich die meisten Anwendungsfälle mit überschaubaren Mitteln umsetzen. Für komplexere Anfragen eignet sich jedoch ein Smart Assistant deutlich besser. Allerdings ist diese Technologie in der Entwicklung und Umsetzung wiederum aufwendiger, da sie eine breite Wissensbasis benötigt.

Aktuell trifft man daher meist auf Chatbots, die auf der Matching-Technologie basieren und mit Hilfe von Machine Learning (ML) trainiert werden können. Bei dieser Methode werden dem System möglichst viele Textvarianten zu einer bestimmten Aussage übergeben, die es lernt, um in der späteren Anwendung auch Sätze zu erkennen, die Ähnlichkeit zu dem Gesagten haben, ohne über spezielles Wissen verfügen zu müssen.

Heutzutage können wir zwischen zwei Technologien wählen, die bei einem Conversational Interface zum Einsatz kommen können. Je nach Anforderungen muss man sich die Frage stellen, ob ein System, das Gesagtes mit gelernten Satzstrukturen vergleicht, genügt oder wird ein System benötigt, das versucht den Sinn des Gesagten zu verstehen und entsprechend darauf reagiert?

Dieser Artikel erschien zuerst bei Adzine. und ist der zweite Beitrag einer mehrteiligen Serie über Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

In meiner Kindheit habe ich sie geliebt. Bücher, bei denen ich den Verlauf der Handlung mitbestimmen konnte. Je nachdem welche Entscheidung ich getroffen habe, hatte das Buch ein anderes Ende.

Meine Kindheitstage sind vorbei und „Choose your own adventure Stories“ haben an Popularität verloren – dachte ich zumindest! Doch in letzter Zeit tauchen sie vereinzelt wieder auf. Und zwar in digitaler Form. Und das beste: diese neuen Story-Formate sind nicht nur etwas für Kinder.
Auf welchen Kanälen es diese Formate schon gibt und warum sie besonders für die digitale Kommunikation und damit das digitale Marketing von Unternehmen spannend sein können, lest ihr im Folgenden.

1. Choose your own adventure TV Story

In der HBO Serie „Mosaic“ können Zuschauer selbst entscheiden, aus welchem Blickwinkel der Charaktere die Geschichte fortgeführt wird. Innerhalb der zur Show gehörigen App können Nutzer die halbstündigen Sequenzen eigenständig wie ein Mosaik oder Puzzle zusammensetzen und beeinflussen somit die Reihenfolge des Erzählstrangs.

Glaubt man Gerüchten von Bloomberg plant auch Netflix interaktive Folgen für die fünfte Staffel von Black Mirror, bei der Zuschauer über das dystopische Ende entscheiden können. Man darf gespannt sein!

2. Choose your own adventure Instagram Story

Fans der Netflix Serie Stranger Things haben die Möglichkeit über Instagram Stories die Konversationsthemen und Handlungen von Steve und Dustin, zwei der Hauptdarsteller, zu steuern. Auf kreative Weise werden die Umfrage-Sticker eingesetzt, um über den weiteren Verlauf der Geschichte zu entscheiden.

3. Choose your own adventure Story per Sprachassistent

BBC’s Forschungs- und Entwicklungsabteilung hat Ende 2017 ein interaktives Audio Drama für Sprachassistenten wie Google Home und Amazon’s Alexa gelauncht. Gestartet wird die Experience mit dem Befehl „Alexa, open The Inspection Chamber“. Was folgt ist ein Hörspiel, dass auf die Interaktion der Zuhörer angewiesen ist. Abhängig von den gesprochenen Antworten der User ändern sich Teile der zwanzigminütigen Story. Insgesamt gibt es drei Variationen des Endes.

Warum sind diese Formate so interessant für digitales Marketing und Kommunikation?

Choose your own adventure-Bücher haben mich früher so sehr in den Bann gezogen, dass ich sie mehrmals gelesen habe. Nur um zu erfahren, wie der Lauf der Geschichte sich verändert, wenn ich mich an einer Stelle des Buches anders entschieden hätte.

Diese hohe Aufmerksamkeit und starkes Engagement führen bei spannendem Content zu langen Verweildauern. Ein kreativer Weg für Marken und Werbetreibende, um Kunden in den Bann zu ziehen und Loyalität aufzubauen.

Ein Testbericht der lange erwarteten Magic Leap One Augmented Reality Plattform

Vor mir schwebt ein virtuelles Regal mit verschiedenen Objekten und Kategorien, die ich auswählen kann. Ich greife mit dem Controller nach einer kleinen Rakete, nehme sie aus dem Regal und platziere sie im Raum. Zack! Niet- und nagelfest steht das kleine Raumfahrzeug im Comic-Videospiel-Stil vor mir. Ich gehe drum herum und gucke mir das Ding von allen Seiten an.

Für meine Kollegen sehe ich ein bisschen aus wie Vin Diesel in Riddick. Leider nicht wegen der Muskeln, sondern dank der spacigen Brille, die ich trage: Das Headset der neuen AR-Plattform Magic Leap One. Ich hatte die Gelegenheit das neue System in der „Creator Edition“ nur wenige Tage nach Veröffentlichung in unserem Plan.Net Innovation Studio in München zu testen.

Das augmentierte Bild durch die Brille ist leicht durchsichtig, ich kann das Muster des Teppichbodens hinter der Rakete noch erkennen – zumindest wenn ich bewusst darauf achte. Die Farben sind hell und bunt, wie sie sein sollen – für einen kurzen Moment entsteht der Wunsch, die Rakete mit dem Finger anzufassen und sie anzustupsen. Immersion Level 1 wird fix erreicht.

Zwischenzeitlich hieß es, die Brille könne Bilder auf sechs verschiedenen Ebenen projizieren um in Verbindung mit dem Tracking der Augenbewegung Objekte in verschiedenen Schärfegraden darzustellen. Experten beschwerten sich bereits, dass die Hardware nun mit nur zwei dieser Ebenen ausgestattet sei, was die Wahrnehmung wesentlich schlechter werden ließe. Ich kann das nicht nachvollziehen, denn die Gesamtleistung der Grafik ist für meine Begriffe noch weit davon entfernt, Kapital aus diesen sechs Ebenen schlagen zu können. Noch sieht alles sehr Videospiel-mäßig aus und auch die Auflösung ist noch nicht so hoch, dass dieser Detailgrad in der Wahrnehmung bereits eine entscheidende Rolle spielen würde.

Die Rakete klebt da immer noch. „War’s das jetzt?“ frage ich mich. Ich klicke die Rakete an und „Woosh!“ düst sie davon. Keine Ahnung wohin, sie ist jedenfalls weg. Danach setze ich einem meiner Kollegen einen Cowboy-Hut auf und verpasse ihm einen Schnurrbart aus der Objekte-Bibliothek, die auch noch immer hinter mir im Raum schwebt. Zumindest so lange, bis er einfach geht und Hut und Schnurrbart alleine im Raum schweben. Spielverderber.

Aus der nächsten Kategorie der Bibliothek klaue ich mir einige Teile, mit denen ich fix eine Art Kugelbahn zusammenbauen kann. Ich kann aus allen Richtungen an meiner Konstruktion arbeiten, mich währenddessen mit meinen Kollegen unterhalten und ihnen dabei in die Augen blicken es ist als hätte ich nur eine Sonnenbrille auf und würde an einem Aufbau arbeiten, der sich zwar für die Gesetze der Physik nicht sonderlich interessiert, aber ansonsten recht realistisch auf mich wirkt. Jedenfalls erreicht das Ganze recht zügig ein routiniertes und selbstverständliches Level. Dann schnappe ich mir die Kugel aus der Bibliothek und höre ihr zu, wie sie durch mein Rohrsystem rumpelt, auf ein Trampolin fällt, durch den Raum fliegt und dank des Real-World-Trackings von einem echten Tischbein im Raum abprallt.

Ich sehe meine Kollegen an, strahle wie ein kleines Kind und sage: „Das ist der Hammer, oder?“. Die drei Kollegen gucken mich an, ihre Hände in den Hosentaschen, und zucken fast simultan mit ihren Schultern. Immersion Level 2! Nur ich sehe meine Kugelbahn – das hatte ich vergessen. Tatsächlich ein kleiner Nachteil – teilen lassen sich die Erlebnisse noch nicht ganz so einfach.

Die zweite App, die ich testen darf, dreht sich um die isländische Band Sigur Rós. Gemeinsam mit Magic Leap hat man sich fünf Jahre damit beschäftigt, wie man in der Mixed Reality Musik kreieren oder komponieren kann. Tónandi nennt sich die App und eignet sich hervorragend zum Testen der Steuerung durch Gesten – den Controller braucht diese App nämlich nicht. Die Aufgabe besteht darin, sich durch verschiedene Level oder Welten zu bewegen, die man mit Gesten zum Leben erweckt. Man sammelt zum Beispiel Steine, streicht durch virtuelles Gras und stupst virtuelle Quallen an. Hat man eine Szene mehr oder weniger komplettiert, entsteht eine Art Wurmloch, durch das man in die nächste Szene gelangt. Beeindruckend!

Die Vielfalt der Gesten der eigenen Handbewegungen ist ein riesiger Vorteil. Es gibt acht verschiedene, die das System erkennt. Entwickler können selbst weitere Gesten hinzufügen und entwickeln. Das ist aus meiner Perspektive ein riesiger Pluspunkt des Magic Leap Systems. Microsoft bietet im Vergleich derzeit nur zwei fest definierte Gesten. Als jemand der Oberflächen und Produkte der digitalen Welt entwickelt und immer getrieben ist vom Wunsch nach bestmöglichen Nutzererlebnissen und relevanten Produkten, interessieren mich die verschiedenen Möglichkeiten zur Implementierung verschiedener Gesten in diesem Kontext natürlich brennend. Denn ich bin davon überzeugt, dass die Benutzung eines Produktes als unmittelbar markenbildend betrachtet werden muss. Unsere Arbeit hat daher neben dem zufriedenen Nutzer auch die Aufgabe zum gewünschten Markenbild beizutragen. Durch Details wie eine sinnvolle Gestensteuerung werden Angebote wesentlich schneller angenommen und können viel früher zu sehr immersiven Erlebnissen werden.

Auch wenn die Gesten aktuell oft noch sehr unnatürlich in ihrer Anwendung sind, es noch schwierig ist selbstverständlich nach einem virtuellen Stein zu greifen und hohe Latenzen einen im Unklaren darüber lassen ob man nun erfolgreich zugegriffen hat oder nicht: Die Tatsache, dass Entwickler eigene Gesten entwickeln können, sorgt dafür, dass viel ausprobiert und experimentiert werden kann, um schnellstmöglich zu einer User Experience zu kommen, die die Bedienung der Extended Realities so natürlich wie möglich macht.

Fazit: Alles in Allem bietet die Magic Leap One in ihrer ersten Version ein Mega-Erlebnis und ist ein wichtiger Schritt in Richtung consumer-facing AR fürs Wohnzimmer. Die Hardware ist grundsolide, einige Details hat Magic Leap noch nachzuliefern. Der Gesamteindruck leidet am stärksten unter dem massiven Hype, den die Kommunikation der letzten Jahre aufgebaut hat. Denn diesen Traum kann die Creator-Edition noch nicht wirklich erfüllen. Es ist wie mit allen modernen Plattformen: Die Third Party Development Community ist nun gefragt. Sie wird uns zeitnah die tatsächlichen Potentiale der Plattform offenlegen und Magic Leap eine gute Unterstützung bei der weiteren Entwicklung von Hard- und Software bieten.

Und was kostet das Ganze? Wer sich eines der begehrten Geräte anschaffen möchte, muss in die USA und dort vor Ort umgerechnet knapp 2.000 Euro investieren. Hinzu kommt dann noch der Zoll bei der Einführung nach Deutschland.

 

Dieser Beitrag erschien zuerst bei lead-digital.de.