Beiträge

Mit Voice Interfaces glaubt man – wie bei jedem Trend – ein Allheilmittel gefunden zu haben. Doch ist ihr Einsatz längst nicht bei jedem Problem sinnvoll. Für welche Dienstleistungen können sie einen echten Mehrwert bieten? Wie muss ein guter Dialog aussehen und wie garantiert man Kunden einen sicheren Umgang mit ihren Daten? Wir zeigen Ihnen, auf was Sie unbedingt achten sollten.

In der Theorie müssten sich Voice Interfaces hervorragend in unseren Alltag integrieren lassen. Wir sind es gewohnt, Informationen in Sprache zu verpacken und unsere Wünsche verbal­ zu äußern. Für die Informationsweitergabe benutzen wir allerdings nicht ausschließlich diesen Weg der Kommunikation. Häufig werden Informationen auch nonverbal weitergegeben, mittels Gestik, Mimik oder Tonfall. In Online-Chats versuchen wir die mangelnden Möglichkeiten der nonverbalen Kommunikation mit Hilfe von zahlreichen Emojis auszugleichen. Meist gestikulieren wir wild herum, wenn wir Superlative beschreiben. So machen wir beispielsweise ausladende Gesten, um die Größe oder Breite von etwas zu untermauern. Sehen wir etwas Außergewöhnliches und möchten es beschreiben, können dies aber wie bei einem Telefonat, einer E-Mail oder einem Brief nur verbal, fühlen wir uns in unseren Möglichkeiten meist sehr beschränkt und verweisen lieber auf die mitgeschickten Bilder.

Wenn wir online auf ein tolles Gadget mit unzähligen Gadgets gestoßen sind, und einem Freund davon erzählen, zählen wir nur einige davon auf. Das tun wir nicht nur, weil wir nicht genügend Zeit haben, sondern auch, weil wir wissen, dass unser Gegenüber vielleicht ganz andere Features spannend findet. Unsere Erfahrung sagt uns, dass es viel sinnvoller wäre, ihm einfach den Link zu dem jeweiligen Produkt zu schicken, damit er selbst nachsehen kann, was ihm an diesem Gadget besonders gefällt.

Wie es sich im Alltag mit der rein verbalen Kommunikation verhält, so ist es auch mit Voice Interfaces. Längst nicht jeder Anwendungsfall hat das Potenzial durch Voice Interface einen Mehrwert zu generieren. Ein Beispiel dafür ist der Skill Store von Amazon‘s Alexa. Dort gibt es sehr viele sogenannte Skill-Leichen, also schlecht bewertete Skills, die niemand nutzt. Skills für Voice Interfaces sind das Äquivalent zu Apps aus der Mobile-Welt. Was charakterisiert diese Skill-Leichen? Sie haben keinen Mehrwert für den Nutzer. Entweder sind sie einfach nicht für Voice Interfaces ausgelegt oder nicht vernünftig für Dialoge konzipiert und treiben so manchen Nutzer in den Wahnsinn. Aber woran liegt das? Was muss man besser machen und wie kann man Skill-Leichen vermeiden?

Finden Sie einen sinnvollen Anwendungsfall

Häufig nutzen wir im Alltag Phrasen wie „Kannst du mir mal eben…?“, „Ich brauche mal kurz…“ oder „Wie war noch gleich…?“ – vor allem, wenn wir wenig Zeit oder schlicht die Hände voll haben. Gerade in diesen Situationen haben wir nicht die Möglichkeit, uns vor einen Computer zu setzen oder unser Handy herauszuholen. Und genau hier gibt es die perfekten Szenarien für die sinnvolle Nutzung von Voice Interfaces.

Denkbar sind Auskünfte aller Art, die Steuerung von anknüpfenden Systemen wie Smart Home oder auch Dienstleistungen wie die Buchung eines Mietwagens. Auch sind alle „Hand Free“- Szenarien prädestiniert für Voice Interfaces. Der Mechatroniker, der mit öligen Händen am Motor arbeitet und eine spezielle Information zu einem Ersatzteil benötigt oder der Hobbykoch, der beim Teigkneten den nächsten Rezeptschritt wissen möchte.
Software dient dazu, unseren Alltag leichter oder angenehmer zu machen. Und genau das zählt beim Einsatz von Voice Interfaces. Es geht um kurze Anfragen, sinnvolle Unterstützung und schnelle Resultate. Um Pragmatismus eben. Überlegen Sie deshalb genau, welchen Service oder welchen Anwendungsfall Sie für ein Voice Interface anbieten möchten und ob es für den Nutzer in seinem privaten oder beruflichen Alltag wirklich eine Hilfe ist.

Denken Sie Dialoge immer neu und niemals in visuellen Konzepten

Als seinerzeit die Smartphones und damit auch mobile Apps in einer Revolution den Markt überschwemmten, wurden die bereits bestehenden Konzepte einfach kleiner skaliert und übernommen. Erst im Laufe der Zeit wurden diese adaptierten Konzepte verfeinert und für die mobile Darstellung angepasst. Die visuelle Informationsverarbeitung des Menschen ist jedoch sehr selektiv. Das Unterbewusstsein wirkt wie ein Filter, der unsere Aufmerksamkeit auf die für uns wichtigen Dinge lenkt. Weitere Informationen führen wir uns erst später gezielt vor Augen. Dagegen funktioniert die auditive Wahrnehmung ganz anders. Hier kann nicht das Unterbewusstsein entscheiden, welche Informationen wir zuerst aufnehmen. Stattdessen konsumieren wir alles Gehörte in vorgegebener Reihenfolge.

Und genau hier hat der erste große Fehler seinen Ursprung: Bei der Konzeption eines Skills für ein Voice Interface geht man fälschlicherweise davon aus, dass es mit der einfachen Adaption eines bereits funktionierenden visuellen Konzepts getan sei. Doch visuelle Konzepte beinhalten zu viele Informationen für ein Voice Interface. Übernimmt man all diese Inhalte, wird der Nutzer mit langen Texten und unzähligen Informationen überflutet. Das ist sehr anstrengend und unangenehm. Aus diesem Grund hat Amazon bereits die sogenannte „ein-Atemzug-Regel“ ins Leben gerufen. Sie besagt, dass der Text, den Alexa in einer Interaktion mit dem Nutzer sagen soll, nicht länger als ein langsamer Atemzug sein darf. Damit sich der Nutzer also nicht überfordert fühlt und das Voice Interface besser annimmt, muss man sich eingehend mit den zu transportierenden Informationen beschäftigen und sollte Textlängen sowie Informationsbeschränkung berücksichtigen.

Lange Dialogstrecken vermeiden: Ein zweiter großer Fehler in Bezug auf Dialoge, der auch auf der Adaption von visuellen Konzepten beruht, sind zu lange Dialogstrecken. Besonders im E-Commerce sind wir gewohnt, Seite für Seite durch einen Prozess geführt zu werden, damit das System am Ende alle für den Kauf benötigten Informationen zur Verfügung stehen hat. Diese Prozesse sind stabil und führen in den meisten Fällen zum Erfolg. Anders verhält es sich bei einem Voice Interface. Ein einfacher, vom Interface geführter Frage-Antwort-Dialog in mehreren Schritten, kann schnell mehrere Minuten dauern. Lässt man sich bei der Antwort zu viel Zeit, wird der Dialog meist einfach beendet. Wird etwas falsch oder gar nicht verstanden, kann es zu Fehlern kommen. Hinzu kommt, dass einige bekannte Interfaces, auch ohne ersichtlichen Grund, einfach mal aus dem Dialog aussteigen. Das ist umso ärgerlicher, je weiter fortgeschritten dieser zähe Dialog ist.

Um das zu vermeiden, können bei der ersten Nutzung eines Voice Interfaces bestimmte Grundinformationen des Nutzers abgefragt und als Grundannahmen in der weiteren Nutzung vorausgesetzt werden. Gegebenenfalls kann man auf diese sogenannten Default-Daten auch von anderer Stelle zugreifen. Möchte ein Nutzer beispielweise eine Reise nach München buchen, benötigt das Voice Interface dafür folgende Daten: Abreiseort, Zielort, Datum, Uhrzeit, bevorzugte Reise- und Zahlungsart. Der Nutzer hat zuvor bereits schon einmal angegeben, dass er in Hamburg lebt, meist mit der Bahn reist und häufig mit Kreditkarte bezahlt. Als Abreisezeit wird standardmäßig der nächstmögliche Zeitpunkt gewählt. Das Interface würde also mit nur einer Frage, nämlich der nach dem Zielort, eine valide Buchung vornehmen können. Und das ohne ein langes und möglicherweise fehlerbehaftetes Frage-Antwort-Spielchen mit vielen Wiederholungen und fehlender Dynamik. Änderungen der vorhandenen Daten sollte der Nutzer im Anschluss immer vornehmen können.

Unterschiedliche Phrasen zur richtigen Zeit und in angenehmer Dynamik: Sprache gibt uns die Möglichkeit, eine bestimmte Aussage auf viele unterschiedliche Weisen auszudrücken. Sprachliche Varianz ist ein Ausdruck von Intelligenz. Warum sollten Voice Interfaces in ihren Formulierungen deshalb nicht ebenfalls variieren können? Durch mehr Dynamik und zahlreiche Phrasen wirken der Umgang und die gesamte Interaktion deutlich natürlicher. Das Interface passt sich so dem Nutzer an statt umgekehrt. Diese sprachlichen Anpassungen beziehen sich auch auf die wiederholte Nutzung des Interfaces. Wenn das Interface bei der ersten Nutzung alles ausführlich erklärt, sollten Wiederholungen bei der weiteren Nutzung vermieden werden, außer der Nutzer bittet darum.

In Situationen, in denen der Nutzer Hilfe benötigt, gibt es ebenfalls einiges zu beachten. Bei einem Voice Interface ist nicht „ersichtlich“ wie man mit ihm umgehen soll. Daher gibt es die Möglichkeit, um Hilfe zu fragen. Dabei kann das Interface berücksichtigen, in welcher Situation sich der Nutzer gerade befindet. Schließlich weiß es, ob sich der Nutzer beispielsweise gerade in einem Warenkorb oder bei der Angabe eines Datums für eine Reise befindet. So ist es kein Problem, dem Nutzer bei einer Hilfsanfrage im Warenkorb auch tatsächlich nur Hilfe zum Warenkorb anzubieten. Dieses Wissen sollte unbedingt genutzt werden, um situativ die bestmögliche Unterstützung zu geben.

Sorgen Sie für sichere Dialoge

Wie bei jeder Softwareentwicklung ist Datensicherheit auch bei Voice Interfaces ein zentrales Thema. Was muss also bei Analyse und Konzeption beachtet werden? Im Beitrag „Voice Interfaces – Das Hier und Jetzt“ wurden bereits die Big Player unter die Lupe genommen. Die dort beschriebenen Interfaces sind allesamt Cloud-basiert. Somit findet die Analyse und Verarbeitung der Sprache nicht lokal auf dem eigenen Rechner statt, sondern in den jeweiligen Rechenzentren der Anbieter. Im Rahmen der DSGVO müssen diese Anbieter nicht nur Auskunft darüber geben, wo sich die verarbeitenden Server befinden, sondern sich ebenfalls an die geltende Grundverordnung halten. Doch stellt sich die Frage, welcher Finanzdienstleister oder welche Krankenkasse hoch sensible Kundendaten in der Cloud eines fremden Unternehmens speichern möchte. Amazon beispielsweise bietet beim Zugriff auf ihre Services mit der verschlüsselten Übertragung oder der Authentifizierung via OAUTH2 zwar ein hohes Maß an Sicherheitsstandards, doch ist alles andere in deren Infrastruktur für Nutzer oder Entwickler nicht einsehbar. Es ist nahezu unmöglich ein Voice Interface, welches mit sensiblen Daten arbeiten soll, so zu anonymisieren, dass auf Cloud-Seite des Anbieters keine Rückschlüsse auf den Nutzer möglich wären. Alles Gesagte wird in der Cloud verarbeitet – und alles, was das Interface zum Nutzer sagt, ebenfalls. Es gibt hier also nur die Möglichkeit einen Anwendungsfall zu finden, bei dem keine sensiblen Daten genutzt werden.

Warum die Cloud? Segen und Fluch bei aktuellen Voice Interfaces ist, dass das Transkribieren und Analysieren von Sätzen auf Machine-Learning-Technologie basiert. Sobald ein Dialogmodel erarbeitet wurde, muss das System dieses Model lernen, damit es anschließend auch ähnliche Satzvarianten verstehen kann. Dieses „Lernen“ ist ein rechenintensiver Vorgang, welcher auf der Hardware eines Servers ausgeführt wird. Aus dieser Perspektive sind diese Cloud-Lösungen natürlich pragmatisch und scheinbar essenziell. Doch es gibt einige wenige Lösungen im Bereich Voice Interfaces, die auf lokalen Rechnern oder eigenen Servern lauffähig sind. So bietet beispielsweise der Softwarehersteller „Nuance“ mit der Spracherkennungssoftware Dragon ein Tool, welches das Transkribieren auf eigener Hardware ermöglicht.

Was ist im Umgang mit Pins und Passwörtern zu beachten? Ein weiterer Aspekt bei der Datensicherheit ist die Art des Interfaces. Während wir bei einem visuellen Interface mit einem schnellen Schulterblick prüfen können, ob uns jemand bei der Eingabe unseres Passworts auf die Finger guckt, ist es bei der Sprache weitaus problematischer. Das Abgreifen sicherheitsrelevanter Daten ist daher ein leichtes Spiel. Pins und Passwörter sollten deshalb niemals Teil eines Voice Interfaces sein. Hier ist die Verbindung mit einer visuellen Komponente ratsamer. In der visuellen Komponente wird der Nutzer authentifiziert, während die sonstige Bedienung über die auditive Komponente läuft.

Fazit

Nach wie vor ist der Umgang mit sensiblen Daten eine der größten Herausforderungen beim Einsatz von Voice Interfaces. Hier gilt es, mit einem besonders kritischen Blick zu arbeiten und Dialoge entsprechend zu konzipieren. Sicherheitsabfragen sollten niemals Teil eines Dialogs in einem Voice Interface sein. Auch wenn es verlockend ist, sollten visuelle Konzepte keinesfalls eins zu eins auf ein Voice Interface übertragen werden. Dadurch wird der Nutzer überfordert sowie Dialoge viel zu lang oder auf Grund von Fehlern abgebrochen. Wenn Sie all diese Punkte berücksichtigen, wird der Nutzer das Arbeiten mit einem Voice Interface als angenehm, natürlich und hilfreich empfinden. Ob das Interface insgesamt Sinn macht, liegt natürlich maßgeblich an der Idee und dem Einsatzgebiet.

Dieser Beitrag erschien zuerst bei Adzine und ist der dritte Teil einer vierteiligen Serie zum Thema Voice Interfaces:

Was das sprachgesteuerte Internet für die Zukunft des Digitalmarketings bereithält

Das bildschirmlose Internet: Eine aufregende Vision für die Zukunft

Ende 2016 veröffentlichte Gartner seine aufregende Zukunftsprognose, der zufolge bis 2020 beeindruckende 30 % aller Browser-Sitzungen ganz ohne Bildschirm auskommen werden. Als Haupttreiber dieser bildschirmlosen neuen Welt sieht Gartner junge, technologisch versierte Zielgruppen, die voll auf digitale Assistenten wie Siri, den Google Assistant für mobile Geräte, Cortana von Microsoft oder Echo von Amazon setzen.

Mitte 2018 klingen 30 % vielleicht noch zu hoch gegriffen, aber die Vision eines bildschirmlosen Internets wird täglich realistischer. In den USA überholt die Annahmequote von Smart Speakern nur drei Jahre nach ihrer Einführung bereits die von Smartphones. Doch am spannendsten ist vermutlich, dass nicht nur die jungen „early adopter“ diesen Erfolg möglich machen, sondern auch Eltern und Familien. Die nahtlose, natürliche Interaktion mit Technologie durch Spracherkennung macht digitale Dienstleistungen für zahllose Verbraucher deutlich attraktiver.

Sprachassistenten sind jetzt überall

Nicht nur stationäre Smart Speaker verbreiten sich immer weiter und werden täglich besser: Jedes marktrelevante Smartphone hat jetzt einen eigenen digitalen Assistenten und die Verbraucher können außerdem über Spracherkennung mit ihren Fernsehern und Autos kommunizieren. Die großen Akteure im Tech-Bereich investieren massiv in diesen Zukunftsmarkt. In wenigen Jahren wird jedes elektronische Gerät, das wir zu Hause nutzen, mit uns herum- oder am Körper tragen, mit Spracherkennung ausgestattet sein.

Haben wir den Gipfel der Smartphone-Welle also endlich hinter uns und können endlich wieder als freie Menschen durch die Welt gehen, ohne uns hinter unseren Handys zu verstecken? So schnell nun doch wieder nicht.

Viele digitale Assistenten haben immer noch ein ganz bestimmtes Problem, und seien wir ehrlich – bisher sind sie eher einfältig als „smart“.

Die computergesteuerte Spracherkennung hat durch die Fortschritte in den Bereichen künstliche Intelligenz und maschinelles Lernen menschliche Präzision erreicht. Doch nur weil die Maschinen uns nun perfekt verstehen, sind sie noch lange nicht in der Lage, uns eine sinnvolle Antwort zu geben. Zahllose Sprach-Apps und -Dienste sind nach wie vor kaum zu gebrauchen. Es ist gar nicht so einfach, bessere Sprach-Dienste zu schaffen und adäquat mit Verbrauchern zu kommunizieren. Das gilt besonders im Marketing.

„Peak mobile“ und „voice first“ – das neue Marketing-Mantra

Seit der Markteinführung des ersten iPhones im Jahr 2007 und der darauf folgenden Smartphone-Lawine hörte man im Marketing überall: „Mobile first“. Jeden Service und jeden Touchpoint von einem Desktop-Computer aus auf einen kleineren Bildschirm zu übertragen und sich nebenbei auf eine völlig neue Nutzungsweise einzustellen, war eine echte Herausforderung. Denn zehn Jahre später tun sich viele Unternehmen immer noch mit bestimmten Aspekten der mobilen Revolution schwer.

Die wachsende Beliebtheit von Videowerbung im Netz half sicherlich, viele Probleme der klassischen Werbung zu lindern. Ein Pre-Roll Ad erhält auf einem Smartphone-Bildschirm schließlich mindestens so viel Aufmerksamkeit wie in einem Browser. Wir lernten, das App-, Website- und Shop-Design an die mobile Anwendung anzupassen und dabei die Komplexität zu straffen und lenkten die Benutzererfahrung in ein neues Ökosystem um. All das ließ sich aber meist bewerkstelligen, indem wir die visuellen Assets unserer Marken und Dienstleistungen verkleinerten und an den Touchscreen anpassten.

Markenaufbau in einer digitalen Welt ohne Bildschirme

Die Spracherkennung lässt all diese Mühen klein aussehen. Wir müssen einen ganz neuen Weg finden, mit unseren Verbrauchern zu sprechen. Wortwörtlich. Und zwar dieses Mal ohne die Stützräder unserer vertrauten visuellen Assets. Auf der diesjährigen SXSW hielt Chris Ferrel von der Richards Group eine großartige Rede hierzu. Eine seiner Botschaften hat mich seitdem nicht mehr losgelassen: Beim visuellen Web ging es darum, wie deine Marke aussieht. Beim sprachgesteuerten Web geht es darum, wie die Welt für deine Marke aussieht.

Die Radiowerbung der letzten Jahrzehnte versuchte nur noch, die Menschen in die Geschäfte zu treiben. Laut, unangenehm und nervtötend – die Menschen sollten es erträglicher finden, sich geschlagen zu geben und auf dem Heimweg in den Laden zu gehen, als noch einen einzigen dieser Radiospots zu hören.

Das bildschirmlose Internet könnte uns eine Renaissance der lange verlorenen Kunst des Audio Brandings bescheren. Ein großer Teil der Podcast-Werbung geht bereits in diese Richtung, lebt dort aber zumeist von den Persönlichkeiten der Moderatoren. Oberste Priorität sollte es daher sein, Marken mit derselben Aura auszustatten, die diese Persönlichkeiten ausstrahlen.

Herausforderungen sprachgesteuerter Suchfunktionen und Verkaufstätigkeiten

Neue Suchmuster durch Spracherkennung werden ebenfalls entscheidend sein. Textsuchen sind meist kurz und präzise und bestehen aus einem bis drei Wörtern. Mit sprachgesteuerten Anwendungen werden die Suchanfragen länger und folgen natürlicheren Sprachmustern. Keyword-Werbung und SEO werden sich dem anpassen müssen.

Im Bereich sprachgesteuerter Verkaufstätigkeiten tun sich ebenfalls ein paar interessante Fragestellungen auf. Wie verkauft man ein Produkt, das der Kunde nicht sehen kann? Dieses Problem dürfte leichter zu lösen sein als ursprünglich gedacht. „Alexa, bestelle mir Küchentücher“ ist ein ziemlich klarer Auftrag und Amazon kennt bereits meine Lieblingsmarke. Hier wird es entscheidend sein, bestehende Kundendaten zu nutzen und auf den großen Marktplätzen aktiv zu sein, zumindest für FMCG-Marken.

Doch wie dringt man an den maßgeblichen Stellen zu den Verbrauchern vor? Und was ist mit Marktsektoren wie Mode, die stark mit visuellen Reizen arbeiten? Alle Marketing-Touchpoints müssen eng verzahnt werden und die sprachgesteuerten Kanäle dürfen nicht von der übrigen Markenkommunikation getrennt werden. Natürlich werden sprachgesteuerte Kanäle nicht sämtliche anderen Marketing-Kanäle ersetzen. Sie könnten aber durchaus zur ersten Anlaufstelle für Verbraucher werden, da sie allgegenwärtig und nahtlos in unser Leben integriert sein werden. Es wird darauf ankommen, in der übergreifenden Markenstrategie die passende Rolle für die Sprachsteuerung zu finden.

Die Grauzonen der technologischen Evolution

Die vielleicht größte Herausforderung in dieser „schönen neuen Welt“ des sprachgesteuerten Marketings liegt darin, dass unsere vernetzte Welt gar nicht so vernetzt ist, wie wir es gerne hätten. Der Markt für Sprachassistenten ist stark fragmentiert, vor allem aber wirken die Geräte in scharf voneinander abgegrenzten Umgebungen. Wer auf intelligente Haustechnik mit kompatiblen Geräten setzt, kann seinem digitalen Assistenten auftragen, das Licht in der Küche anzumachen und die PlayStation zu starten. Eine vermeintlich einfache Aufgabe wie „Siri, zeig‘ mir auf dem Fernseher im Schlafzimmer coole Sommerjacken von H&M“ erweist sich dagegen in der Praxis als sehr viel schwerer umsetzbar.

Aktuell müssen häufig noch die User als Schnittstelle zwischen Sprachassistenten und den anderen Gadgets in ihrem Zuhause fungieren. Das bildschirmlose Internet ist nicht die Vollendung der technologischen Evolution, sondern vielmehr eine unvermeidliche Konsequenz aufeinander folgender Entwicklungsschritte. Vorerst müssen wir mit dieser eigenartigen, unvollendeten Version einer vernetzten Welt vorlieb nehmen und hoffen, dass die Technologie einen weiteren Sprung in die wahre Vernetzung macht. Finden wir also die Stimmen unserer Marken, bevor diese uns ihre vollendete vernetzte Persönlichkeit vorstellen können.