Beiträge

Bis zum Release von Amazons Echo aka Alexa haben die Big Player mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Mittlerweile gibt es zahlreiche weitere Varianten, doch welche sind die bekanntesten und welches Voice Interface ist das geeignetste?

Heutige Voice Interfaces sind eine Kombination zweier Komponenten, nämlich der Transkribierung und des Natural Language Processing (NLP). Ein gesprochener Satz wird in einen Text transkribiert. Dieser wird auf Basis von Künstlicher Intelligenz analysiert, darauf basierend eine Reaktion erzeugt und diese über eine Sprachsynthese wieder in analoge Sprache umgewandelt und ausgespielt (siehe auch Teil 1).

Unterschiedliche Klassifizierung

Zu differenzieren sind Conversational Interfaces ohne und mit sogenannten Wissensdomänen. Hierbei handelt es sich um digitale Strukturen, die Wissen rund um einen Themenbereich abbilden.

1) Conversational Interfaces mit Wissensdomäne 

Bei Conversational Interfaces mit Wissensdomänen geht es nicht nur um die Analyse von Satzteilen, sondern darum, den tatsächlichen Sinn hinter einem Satz zu verstehen. Diese Art von Interfaces werden Smart Assistants genannt. Betrachtet man den für uns Menschen einfachen Satz: „Reserviere zwei Plätze in einem Zwei-Sterne-Restaurant in Hamburg!“ ist uns klar, um was es geht. Wir wissen, dass einem Restaurant „Sterne“ verliehen werden können, dass Hamburg eine Stadt ist und dass man in einem Restaurant Plätze reservieren kann. Ohne das Wissen in diesem Bereich ist es jedoch schwer, dem Satz einen Sinn zu entnehmen. „Zwei Sterne“ könnte genauso gut der Name eines bestimmten Restaurants sein. Was zwei Plätze sind und wie man sie reservieren kann, ist dann völlig unklar. Das überhaupt ein Restaurant mit bestimmten Eigenschaften in Hamburg gesucht werden soll, ist dann unklar. Smart Assistants sollen aber genau diese Dinge verstehen können und benötigen deshalb ein spezielles Grundwissen in den entsprechenden Domänen wie Gastronomie, Events, Wetter, oder Reisen.

2) Conversational Interfaces ohne Wissensdomäne

Conversational Interfaces ohne Domänenwissen haben diesen Anspruch nicht – so beispielsweise Alexa. Hier ist der Ansatz ein anderer. Für einen möglichen Dialog werden bei der Implementierung Satzstrukturen vorgegeben, in denen variable Teile, sogenannte Slots, definiert werden können. Der gesprochene Satz wird dann analysiert und einer Satzstruktur zugeordnet. Anschließend wird derjenigen Komponente, die die Reaktion auf das Gesagte generiert, mitgeteilt, welche Satzstruktur mit welchen variablen Teilen erkannt wurde. Dass dabei kein Grundwissen benötigt wird, verdeutlicht folgender Satz: „Ich möchte ein rotes Hemd kaufen“. An dieser Stelle braucht das System kein Wissen über Kleidung oder Farben, denn es gleicht lediglich ab, wie bestimmte Sätze bezogen auf den Kauf eines Hemdes aussehen können. Dazu wird im Model des Dialogs für das Interface festgelegt, dass es eine Satzstruktur mit einer ID gibt, die beispielsweise „hemdkauf“ heißt. Weiter wird festgelegt, dass die Satzstruktur folgende Ausprägungen haben darf: „Ich möchte ein <farbe> Hemd kaufen“, „Ich möchte ein Hemd in der Farbe <farbe> kaufen“ und “Ich möchte ein Hemd kaufen und zwar in <farbe>“. Dadurch wird ebenfalls definiert, dass es einen variablen Satzteil (Slot) mit dem Namen „farbe“ gibt. Für diesen Slot werden die gewünschten Möglichkeiten angegeben, z.B. „rot“, “grün“ und „gelb“. Wird vom Nutzer nun oben genannter Satz gesagt, ergibt die Analyse, dass es sich um die Satzstruktur „hemdkauf“ mit dem Wert „rot“ für den Slot „farbe“ handelt. In entsprechend strukturierter Form kann ein Backendsystem mit diesen Angaben schon etwas anfangen.

Die aktuellen Hauptakteure

Bis zum Release von Amazons Echo aka Alexa, haben viele IT-Firmen mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Siri ist zwar mit einem Paukenschlag ans Licht der Öffentlichkeit getreten, wurde aber eher als hilfreiches Tool und nicht als eine völlig neue Klasse von Interfaces wahrgenommen. Die Vorteile von „hands free“ bei mobilen Geräten war aber nicht von der Hand zu weisen und so arbeitet nun jeder Big Player an seiner eigenen Sprachlösung. Hier eine kurze Vorstellung der aktuellen Hauptakteure:

Amazon‘s Alexa

Schaut man sich die Produktpalette von Amazon an, wird klar, dass Alexa eine konsequente Weiterentwicklung vorhandener Technologien ist. So waren schon die Fire Tablets (ab 2013), das Fire Phone (2014) und die ersten Fire TVs (2014) mit einer Sprachsteuerung ausgestattet. Die Technologie von Alexa als „Voice Interface as a Service“, oder auch der „Alexa Voice Service“, ist jedoch kein Smart Assistent. Hier werden im Hintergrund lediglich Sätze verglichen, statt den Sinn von Sätzen zu analysieren. Bei komplexeren Anfragen steigt Alexa schnell aus. Grund dafür ist, dass es nur sehr oberflächliche Wissensdomänen gibt, die dem Entwickler zudem nicht offenstehen. Auch die Anfragen, die man einem Echo gegenüber äußern kann, müssen sehr knapp und wenig komplex formuliert sein. So können Filme beispielsweise über den Namen von Schauspielern gesucht werden oder Restaurants nach der Angabe des Umkreises. Viel tiefer geht es hier schon nicht mehr.

Google Assistant

Google Now war ursprünglich ein Bestandteil von der Google Search und bezog sich rein auf die Suche im Web. Später wurde es ausgegliedert, um Domänenwissen erweitert und damit konkurrenzfähig gegenüber Assistenten wie Apple’s Siri oder Samsung‘s S Voice gemacht. Im letzten Jahr wurde Google Now dann durch den Google Assistent ersetzt. Wie stark die unterschiedlichen Wissensdomänen beim Google Assistent indessen verzahnt sind, wurde mit dem Produkt „Google Duplex“ eindrucksvoll auf der Entwicklerkonferenz von Google veranschaulicht. Google Duplex als Bestandteil des Assistenten kann mit realen Personen telefonieren und Termine für beispielsweise den Frisör machen oder einen Tisch reservieren. Dabei greift der Assistent nicht nur auf den Terminkalender zu, sondern muss auch über entsprechendes Domänenwissen verfügen.

Apple‘s Siri

Die Geschichte von Siri ist eine etwas andere. Der Smart Assistent wurde von der Firma Siri Inc. entwickelt und verfolgte von Anfang an den Ansatz, Sprache mittels Domänenwissen zu analysieren. Siri Inc. ist ein Spin-Off des Stanford Research Institutes (SRI). Vor 15 Jahren arbeitete SRI gemeinsam mit Institutionen an dem Projekt „CALO“ (Cognitive Assistant that Learns and Organizes), von dem viel Erfahrung in die Entwicklung Siris eingeflossen ist. 2010 wurde Siri im Appstore veröffentlicht und Siri Inc. prompt von Apple aufgekauft. Ein Jahr später verkündete Apple dann offiziell, dass Siri nun ein fester Bestandteil von iOS sei. Seitdem wurde es auf allen Plattformen ausgerollt. Zuletzt wurde mit dem HomePod ein smarter Lautsprecher herausgebracht, der mit dem Konkurrenzprodukt Echo von Amazon vergleichbar ist und auf den gegenwärtigen Trend der Voice Interfaces einzahlt.

Microsoft’s Cortana

Microsofts Cortana wurde der Öffentlichkeit 2014 das erste Mal auf einer Konferenz präsentiert. Ebenfalls als Smart Assistent ausgelegt, verfügt Cortana über interessante Adaptionen aus der Realität. Die sehen wie folgt aus: Ein realer Assistent macht sich meist Notizen über seinen Vorgesetzten oder Auftraggeber, um die Person besser kennenzulernen und sich ihre Gewohnheiten zu merken. Cortana nutzt dafür ein virtuelles Notebook. So fragt Cortana bereits bei der erstmaligen Nutzung einige Vorlieben ab, um schon früh personalisierte Antworten geben zu können. Diese Funktionalität kann je nach Bedarf auch ausgestellt werden. Das Herzstück von Cortana ist Bing; besser gesagt, sind es Services, die auf Bing basieren und erlauben, der Suchmaschine umgangssprachliche Anfragen zu stellen.

Samsung’s Viv

Auch Samsung versucht schon seit geraumer Zeit eine intelligente Software für ihre Geräte zu etablieren, die natürlich auch ein Sprachinterface bieten soll. Dazu kaufte Samsung 2016 kurzerhand das Unternehmen der Siri Urväter „Viv Labs“ auf. Viv Labs setzten mit ihrem System voll und ganz auf Domänenwissen. Anders als bei den Mitbewerbern soll es bei Viv jedoch möglich sein, die Wissensbasis von externen Entwicklern um neue Domänen erweitern zu lassen. Dadurch soll das System intelligenter werden und immer mehr verstehen können. Dazu stellt man sich beispielsweise eine Whisky-Manufaktur vor. Die Viv wird nun von Experten um die Wissensdomäne Whisky und die eigenen Produkte erweitert. Zusätzlich teilt eine Manufaktur ihr gesamtes Wissen über Holzfässer und deren Herstellung. Im Domänenwissen der Viv befindet sich nun wertvolle Expertise darüber, welche Holzfässer für den Geschmack bestimmter Alkoholsorten verantwortlich sind. So zum Beispiel, dass Eichenfässer für Whisky mit vanilligem Geschmack sorgen. Frage ich nun Viv, woher die Vanillenote eines bestimmten Whiskys von besagter Manufaktur kommt, kann mir die Viv antworten, dass der Geschmack höchstwahrscheinlich von der Lagerung in Eichenfässern herrührt. Viv hat dabei beide Domänen zusammengeführt.

IBM’s Watson

IBM Watson sei hier erwähnt, um mit Missverständnissen aufzuräumen. Es gibt keine „Künstliche Intelligenz Watson“, die alles versteht und kontinuierlich Wissen anhäuft. Watson ist eine Sammlung von verschiedenen Tools Künstlicher Intelligenz unter einem gemeinsamen Konzept, mit denen unterschiedlichste Projekte realisiert werden können. So gibt es beispielweise auch Projekte, die dazu dienen, eine große Wissensbasis aufzubauen. Allerdings sollte man sich nicht der Illusion hingeben, dass einem das eigene Watson-Projekt Zugriff auf dieses Wissen beschert. Wer ein Projekt mit Watson implementieren möchte, muss seine eigene Datenbasis mitbringen – so wie bei jedem anderen Maschine Learning Toolkit auch. Watson selbst stellt unter anderem Tools zum Transkribieren (The IBM® Speech to Text Service) und zur Textanalyse (Natural Language Understanding Service) zur Verfügung. Wer gemeinsam mit Watson ein Projekt realisieren möchte, baut bei der Implementierung von Voice Interfaces auf diesen zwei Tools auf.

Von der Analyse des Problems zum passenden Voice Interface

Natürlich gibt es viele weitere Lösungen, die teils sehr spezialisiert sind, teils aber auch die Restriktionen der Big Player aufbrechen möchten, um mehr Entwicklungsmöglichkeiten zu bieten. Es stellt sich nun natürlich die Frage: Wozu all die verschiedenen Voice Interfaces? Wie bei vielen anderen komplexen Problemstellungen auch, gibt es hier nicht die eine allgemeingültige Lösung. Es gibt kein „gutes“ oder „schlechtes“ Interface. Es gibt nur „richtige“ oder „falsche“ Anwendungsgebiete für die unterschiedlichen Technologien. Alexa taugt wenig für komplexe Satzstrukturen, eignet sich aber hervorragend für schnelle Umsetzungen und ist bereits weit verbreitet. Hingegen hat sich Viv noch nicht durchsetzen können, hat aber das Potenzial, beliebig komplexe Sätze verstehen zu können.

Für die Auswahl des passenden Voice Interfaces zählen also bestimmte Kriterien, wie der Anwendungsfall, der Fokus, die Problemstellung, die Bedürfnisse der Zielgruppe oder wie offen ein Interface für die Integration in eigene Projekte ist.

Dieser Artikel erschien zuerst bei Adzine und ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Bis ins Jahr 2015 wurden Voice Interfaces von den meisten eher als eine nette Spielerei wahrgenommen, die auf Smartphone und Navigationssysteme beschränkt war. Doch mit Amazon Echo kam diese Technologie quasi über Nacht in die Wohnzimmer vieler Verbraucher auf der ganzen Welt. Amazon behält sich zwar die genauen Absatzzahlen vor und hat bis heute keine weiteren Details veröffentlicht, jedoch wurden laut des Nachrichtenportals Business Insider im Jahr 2015 bereits 2,4 Millionen Amazon Echos weltweit verkauft. 2016 stieg der Absatz auf 5,2 Millionen an. Dadurch entdeckte auch Apple das bis dato stiefmütterlich behandelte Siri wieder und kündigte im Juni 2017, nach sechs Jahren Stille um das Spracherkennungsprogramm, ein ganz eigenes Device dafür an: den HomePod. Auch andere Unternehmen sahen sich gezwungen, diesem Trend zu folgen, wussten jedoch wenig damit anzufangen.

Back to the roots

Dabei sind Voice- bzw. Conversational Interfaces nicht wirklich etwas Neues. Voice Interfaces sind genau betrachtet Conversational Interfaces mit einem speziellen Eingabekanal, nämlich der analogen Sprache. Die Entwicklungsetappen der vergangenen Jahrzehnte dürften vielen Marktbeobachtern sogar bekannt sein. Betrachtet man die Technologie, die heutzutage hinter einem Voice Interface steckt, findet man zwei unterschiedliche Komponenten: Die eine ist für das Transkribieren von analoger Sprache in Text zuständig. Die andere analysiert den Text und reagiert entsprechend darauf. Dieser Teil wird durch Natural Language Processing und weitere Technologien der Künstlichen Intelligenz (KI) realisiert. Beide Komponenten gibt es als getrennte Technologien schon sehr lange:

1) Transkribieren

Transkribieren bedeutet einfach ausgedrückt, die Umwandlung von gesprochenem Text oder auch Gebärdensprache in eine schriftliche Form. Entsprechende Software gibt es bereits seit 1982. Seinerzeit hatte die Firma Dragon Systems dafür eine Software auf den Markt gebracht. Diese wurde für das damalige DOS(x86) entwickelt, hieß „DragonDictate“ und war eher rudimentär. Kontinuierlich zu transkribieren war damit nicht möglich. 15 Jahre später brachte dieselbe Firma „Dragon NaturallySpeaking 1.0“ auf den Markt. Die Software verstand natürliche Sprache bereits so gut, dass sie hauptsächlich für Diktate am Computer genutzt wurde. Allerdings mussten die damaligen Systeme stark auf die eigene Stimme trainiert oder das verwendete Vokabular begrenzt werden, um die Erkennungsgenauigkeit zu verbessern. Daher gab es bereits entsprechend vorgefertigte Sprachpakete für beispielsweise Anwälte oder Mediziner, deren Sprachgebrauch sehr speziell ist. Einmal optimiert, lieferten diese frühen System erstaunlich gute Resultate. Darüber hinaus bestand aber auch bereits die Möglichkeit, via Dragon ein Windows-System mit Sprachbefehlen zu steuern.

2) Natural Language Processing

Nachdem die Sprache transkribiert wurde, kann der Text weiterverarbeitet werden. Bei der Überlegung was für eine Technologie einen Text, der ansatzweise natürlich-sprachlich klingt, als Eingabe zulässt und darauf sinnvoll reagieren kann, kommt man schnell auf die sogenannten Chatbots. Diese sind eine Unterklasse autonomer Programme namens Bots, die bestimmte Aufgaben selbstständig erledigen. Chatbots simulieren Gesprächspartner, die oftmals themenbezogen agieren. Auch wenn sich diese erst in den letzten Jahren steigender Beliebtheit erfreuen, muss man auch hier eher von einer Renaissance sprechen; der erster Chatbot erblickte bereits vor 52 Jahren das Licht der Welt. Der Informatiker Joseph Weizenbaum entwickelte „ELIZA“, die heute als Prototyp der modernen Chatbots gilt und die Verarbeitung natürlicher Sprache erfolgreich demonstrieren sollte.

3) Künstliche Intelligenz

Die Entwicklung von ELIZA machte deutlich, dass einfache Mittel ausreichen, um beim Turing-Test für Künstliche Intelligenz (KI), bei dem es um die subjektive Bewertung eines Gesprächs geht, gute Ergebnisse zu erzielen. Probanden haben, trotz der simplen Mechanismen des Bots, angefangen eine persönliche Bindung aufzubauen, um dann sogar über private Dinge zu schreiben. Die Erfahrungen mit diesem ersten Conversational Interface sorgten für viel Aufmerksamkeit und kontinuierlich verbesserte Chatbot-Technologien.

So wurde 1981 beispielsweise BITNET (Because It’s There NETwork) ins Leben gerufen, ein Netzwerk, das die Forschungs- und Lehreinrichtungen der USA miteinander verband. Eine Komponente dieses Netzwerks war Bitnet Relay, ein Chatclient, aus dem später der Internet Relay Chat (IRC) wurde. Für diese Chat-Systeme, so auch für ICQ wurden im Laufe der Zeit von Studenten und Nerds unzählige, mehr oder weniger einfache, Chatbots entwickelt. Diese basierten, wie auch ELIZA, auf der einfachen Erkennung von Sätzen und nicht auf der Auswertung von Wissen.

2003 begann eine weitere wichtige Entwicklung, die auf eine neue Klasse von Chatbots einzahlt, nämlich auf die Smart Assistants wie beispielsweise Siri. CALO, der „Cognitive Assistant that Learns and Organizes“, war eine von der Defense Advanced Research Projects Agency ins Leben gerufene Entwicklung, an der sich viele amerikanische Universitäten beteiligten. Das System sollte dem Nutzer dabei helfen, effektiver mit Informationen umzugehen und ihm zu assistieren, indem es permanent seine Fähigkeit verbessern, die Wünsche des Nutzers richtig zu interpretieren. Basis dafür ist die digitale Wissensrepräsentation. Damit ist gemeint, wie Wissen in einem digitalen System festgehalten und nutzbar gemacht werden kann. Durch semantische Netze können Objekte und deren Fähigkeiten in Relation zu anderen Objekten abgebildet werden, die es dem Smart Assistant ermöglichen, Verständnis dafür zu entwickeln, was ein Nutzer mit einer bestimmten Äußerung ausdrücken möchte. Möchte beispielsweise ein Kunde einen „trockenen Wein“ über seinen Smart Assistant bestellen, so muss dieser kontextabhängig die Verbindung zwischen den Begriffen „trocken“ und „Wein“ kennen. Nur so versteht er, dass es sich hier um eine Geschmacksnuance handelt und nicht um die Abwesenheit von Flüssigkeit.

Die Learnings

Das einfache Erkennen und Vergleichen von Texten, auch Matching genannt, und die intelligente Analyse mittels Wissensrepräsentation sind zwei unterschiedliche Technologien, die sich unabhängig voneinander weiterentwickelt haben. Mit Hilfe des Matching-Ansatzes, lassen sich die meisten Anwendungsfälle mit überschaubaren Mitteln umsetzen. Für komplexere Anfragen eignet sich jedoch ein Smart Assistant deutlich besser. Allerdings ist diese Technologie in der Entwicklung und Umsetzung wiederum aufwendiger, da sie eine breite Wissensbasis benötigt.

Aktuell trifft man daher meist auf Chatbots, die auf der Matching-Technologie basieren und mit Hilfe von Machine Learning (ML) trainiert werden können. Bei dieser Methode werden dem System möglichst viele Textvarianten zu einer bestimmten Aussage übergeben, die es lernt, um in der späteren Anwendung auch Sätze zu erkennen, die Ähnlichkeit zu dem Gesagten haben, ohne über spezielles Wissen verfügen zu müssen.

Heutzutage können wir zwischen zwei Technologien wählen, die bei einem Conversational Interface zum Einsatz kommen können. Je nach Anforderungen muss man sich die Frage stellen, ob ein System, das Gesagtes mit gelernten Satzstrukturen vergleicht, genügt oder wird ein System benötigt, das versucht den Sinn des Gesagten zu verstehen und entsprechend darauf reagiert?

Dieser Artikel erschien zuerst bei Adzine. und ist der zweite Beitrag einer mehrteiligen Serie über Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Was das sprachgesteuerte Internet für die Zukunft des Digitalmarketings bereithält

Das bildschirmlose Internet: Eine aufregende Vision für die Zukunft

Ende 2016 veröffentlichte Gartner seine aufregende Zukunftsprognose, der zufolge bis 2020 beeindruckende 30 % aller Browser-Sitzungen ganz ohne Bildschirm auskommen werden. Als Haupttreiber dieser bildschirmlosen neuen Welt sieht Gartner junge, technologisch versierte Zielgruppen, die voll auf digitale Assistenten wie Siri, den Google Assistant für mobile Geräte, Cortana von Microsoft oder Echo von Amazon setzen.

Mitte 2018 klingen 30 % vielleicht noch zu hoch gegriffen, aber die Vision eines bildschirmlosen Internets wird täglich realistischer. In den USA überholt die Annahmequote von Smart Speakern nur drei Jahre nach ihrer Einführung bereits die von Smartphones. Doch am spannendsten ist vermutlich, dass nicht nur die jungen „early adopter“ diesen Erfolg möglich machen, sondern auch Eltern und Familien. Die nahtlose, natürliche Interaktion mit Technologie durch Spracherkennung macht digitale Dienstleistungen für zahllose Verbraucher deutlich attraktiver.

Sprachassistenten sind jetzt überall

Nicht nur stationäre Smart Speaker verbreiten sich immer weiter und werden täglich besser: Jedes marktrelevante Smartphone hat jetzt einen eigenen digitalen Assistenten und die Verbraucher können außerdem über Spracherkennung mit ihren Fernsehern und Autos kommunizieren. Die großen Akteure im Tech-Bereich investieren massiv in diesen Zukunftsmarkt. In wenigen Jahren wird jedes elektronische Gerät, das wir zu Hause nutzen, mit uns herum- oder am Körper tragen, mit Spracherkennung ausgestattet sein.

Haben wir den Gipfel der Smartphone-Welle also endlich hinter uns und können endlich wieder als freie Menschen durch die Welt gehen, ohne uns hinter unseren Handys zu verstecken? So schnell nun doch wieder nicht.

Viele digitale Assistenten haben immer noch ein ganz bestimmtes Problem, und seien wir ehrlich – bisher sind sie eher einfältig als „smart“.

Die computergesteuerte Spracherkennung hat durch die Fortschritte in den Bereichen künstliche Intelligenz und maschinelles Lernen menschliche Präzision erreicht. Doch nur weil die Maschinen uns nun perfekt verstehen, sind sie noch lange nicht in der Lage, uns eine sinnvolle Antwort zu geben. Zahllose Sprach-Apps und -Dienste sind nach wie vor kaum zu gebrauchen. Es ist gar nicht so einfach, bessere Sprach-Dienste zu schaffen und adäquat mit Verbrauchern zu kommunizieren. Das gilt besonders im Marketing.

„Peak mobile“ und „voice first“ – das neue Marketing-Mantra

Seit der Markteinführung des ersten iPhones im Jahr 2007 und der darauf folgenden Smartphone-Lawine hörte man im Marketing überall: „Mobile first“. Jeden Service und jeden Touchpoint von einem Desktop-Computer aus auf einen kleineren Bildschirm zu übertragen und sich nebenbei auf eine völlig neue Nutzungsweise einzustellen, war eine echte Herausforderung. Denn zehn Jahre später tun sich viele Unternehmen immer noch mit bestimmten Aspekten der mobilen Revolution schwer.

Die wachsende Beliebtheit von Videowerbung im Netz half sicherlich, viele Probleme der klassischen Werbung zu lindern. Ein Pre-Roll Ad erhält auf einem Smartphone-Bildschirm schließlich mindestens so viel Aufmerksamkeit wie in einem Browser. Wir lernten, das App-, Website- und Shop-Design an die mobile Anwendung anzupassen und dabei die Komplexität zu straffen und lenkten die Benutzererfahrung in ein neues Ökosystem um. All das ließ sich aber meist bewerkstelligen, indem wir die visuellen Assets unserer Marken und Dienstleistungen verkleinerten und an den Touchscreen anpassten.

Markenaufbau in einer digitalen Welt ohne Bildschirme

Die Spracherkennung lässt all diese Mühen klein aussehen. Wir müssen einen ganz neuen Weg finden, mit unseren Verbrauchern zu sprechen. Wortwörtlich. Und zwar dieses Mal ohne die Stützräder unserer vertrauten visuellen Assets. Auf der diesjährigen SXSW hielt Chris Ferrel von der Richards Group eine großartige Rede hierzu. Eine seiner Botschaften hat mich seitdem nicht mehr losgelassen: Beim visuellen Web ging es darum, wie deine Marke aussieht. Beim sprachgesteuerten Web geht es darum, wie die Welt für deine Marke aussieht.

Die Radiowerbung der letzten Jahrzehnte versuchte nur noch, die Menschen in die Geschäfte zu treiben. Laut, unangenehm und nervtötend – die Menschen sollten es erträglicher finden, sich geschlagen zu geben und auf dem Heimweg in den Laden zu gehen, als noch einen einzigen dieser Radiospots zu hören.

Das bildschirmlose Internet könnte uns eine Renaissance der lange verlorenen Kunst des Audio Brandings bescheren. Ein großer Teil der Podcast-Werbung geht bereits in diese Richtung, lebt dort aber zumeist von den Persönlichkeiten der Moderatoren. Oberste Priorität sollte es daher sein, Marken mit derselben Aura auszustatten, die diese Persönlichkeiten ausstrahlen.

Herausforderungen sprachgesteuerter Suchfunktionen und Verkaufstätigkeiten

Neue Suchmuster durch Spracherkennung werden ebenfalls entscheidend sein. Textsuchen sind meist kurz und präzise und bestehen aus einem bis drei Wörtern. Mit sprachgesteuerten Anwendungen werden die Suchanfragen länger und folgen natürlicheren Sprachmustern. Keyword-Werbung und SEO werden sich dem anpassen müssen.

Im Bereich sprachgesteuerter Verkaufstätigkeiten tun sich ebenfalls ein paar interessante Fragestellungen auf. Wie verkauft man ein Produkt, das der Kunde nicht sehen kann? Dieses Problem dürfte leichter zu lösen sein als ursprünglich gedacht. „Alexa, bestelle mir Küchentücher“ ist ein ziemlich klarer Auftrag und Amazon kennt bereits meine Lieblingsmarke. Hier wird es entscheidend sein, bestehende Kundendaten zu nutzen und auf den großen Marktplätzen aktiv zu sein, zumindest für FMCG-Marken.

Doch wie dringt man an den maßgeblichen Stellen zu den Verbrauchern vor? Und was ist mit Marktsektoren wie Mode, die stark mit visuellen Reizen arbeiten? Alle Marketing-Touchpoints müssen eng verzahnt werden und die sprachgesteuerten Kanäle dürfen nicht von der übrigen Markenkommunikation getrennt werden. Natürlich werden sprachgesteuerte Kanäle nicht sämtliche anderen Marketing-Kanäle ersetzen. Sie könnten aber durchaus zur ersten Anlaufstelle für Verbraucher werden, da sie allgegenwärtig und nahtlos in unser Leben integriert sein werden. Es wird darauf ankommen, in der übergreifenden Markenstrategie die passende Rolle für die Sprachsteuerung zu finden.

Die Grauzonen der technologischen Evolution

Die vielleicht größte Herausforderung in dieser „schönen neuen Welt“ des sprachgesteuerten Marketings liegt darin, dass unsere vernetzte Welt gar nicht so vernetzt ist, wie wir es gerne hätten. Der Markt für Sprachassistenten ist stark fragmentiert, vor allem aber wirken die Geräte in scharf voneinander abgegrenzten Umgebungen. Wer auf intelligente Haustechnik mit kompatiblen Geräten setzt, kann seinem digitalen Assistenten auftragen, das Licht in der Küche anzumachen und die PlayStation zu starten. Eine vermeintlich einfache Aufgabe wie „Siri, zeig‘ mir auf dem Fernseher im Schlafzimmer coole Sommerjacken von H&M“ erweist sich dagegen in der Praxis als sehr viel schwerer umsetzbar.

Aktuell müssen häufig noch die User als Schnittstelle zwischen Sprachassistenten und den anderen Gadgets in ihrem Zuhause fungieren. Das bildschirmlose Internet ist nicht die Vollendung der technologischen Evolution, sondern vielmehr eine unvermeidliche Konsequenz aufeinander folgender Entwicklungsschritte. Vorerst müssen wir mit dieser eigenartigen, unvollendeten Version einer vernetzten Welt vorlieb nehmen und hoffen, dass die Technologie einen weiteren Sprung in die wahre Vernetzung macht. Finden wir also die Stimmen unserer Marken, bevor diese uns ihre vollendete vernetzte Persönlichkeit vorstellen können.