Beiträge

Die aktuelle Funktionalität von Voice Interfaces ist noch lange nicht optimal. Vokabeln werden missverstanden und komplette Sätze falsch interpretiert. Zudem gibt es bei den gängigen Interfaces viele Entwicklungsbeschränkungen. Was muss sich technologisch verbessern, um eine höhere Akzeptanz seitens des Menschen zu bekommen? Welche Entwicklungstrends gibt es bei den Big Playern am Markt? Wir geben einen Ausblick darauf, wie sich Voice Interfaces weiterentwickeln und wo großes Potenzial steckt.

Der internationale Markt für Voice Interfaces entwickelt sich rasant und in verschiedene Richtungen. Einige Unternehmen konzentrieren sich auf die Verbesserung des Sprachverständnisses, andere arbeiten daran, etablierte Technologien um Komfortfunktionen zu erweitern. So bietet Alexa demnächst die Möglichkeit, per Stimmenanalyse zwischen mehreren Nutzern zu unterscheiden. Smart Assistants wird tieferes Wissen mit auf den Weg gegeben, um immer komplexere Spracheingaben verstehen zu können und somit intelligenter zu werden.

So wird beispielsweise bei Samsung’s Viv an Modellen gearbeitet, die zukünftig von externen Entwicklern erweitert werden können, um eine immer breitere Wissensbasis zu schaffen. Zusätzlich bilden sich Nischenmärkte für ganz spezielle Anwendungsgebiete von Conversational Interfaces – so gibt es sie schon jetzt für das Arbeiten mit Produktdaten oder InCar-Lösungen.

Die Pläne der Big Player

Amazon hatte mit Alexa nicht den Anspruch einen Smart Assistant auf den Markt zu bringen. Allerdings sollte sie die Möglichkeit bieten, von Entwicklern um Skills erweitert werden zu können. Ihre Funktionalität sollte wachsen, ihre Einsatzmöglichkeiten dadurch größer werden und es sollte sich ein Markt speziell für dieses Interface etablieren. Bei anderen Systemen gestaltet sich die Erweiterung durch externe Entwickler eher schwierig. Möchte man beispielsweise das Wissen von Siri um eine Domäne vergrößern – also um Wissen auf einem bestimmten Gebiet – hat dies massiven Einfluss auf die gesamte Funktionalität.

Ein gutes Beispiel ist hier das Wort „lieblich“, das sich auf einen Geschmack oder auch einen Duft beziehen kann. Würden beide Wissensdomänen ohne aufeinander abgestimmt zu sein, implementiert werden, wären Sätze wie „Ich mag es eher lieblich“ schwer zu interpretieren. Bei nur einer Wissensdomäne wäre die Zuordnung entgegen eindeutig. Daher gibt es im Umfeld von Apple auch noch keine Möglichkeit, Siri frei zu programmieren. Bei Cortana und dem Google Assistant(?) sind die Möglichkeiten zur Erweiterung dahingehend beschränkt, dass Voice Skills oder Actions – Googles äquivalent zu Skills – zwar entwickelt werden können, diese aber nicht auf das vorhandene Domänenwissen zugreifen können, was sie für Entwickler auf eine Stufe mit Alexa stellt.

Amazon setzt auf In-Skill Purchasing

Microsoft und Amazon arbeiten daran eine Integration von Alexa in Cortana und umgekehrt zu schaffen, um so den Markt zu erweitern. Erste Reviews dazu sind im Netz bereits zu finden. Zusätzlich ist Amazon dabei immer mehr Hardware für Alexa oder mit direkter Alexa-Unterstützung auf den Markt zu bringen. So gibt es zum Beispiel Buzzer – einfache Knöpfe, mit denen man eine Aktion auslösen kann, um das Umfeld von Gamification zu erweitern, Echos in allen Variationen und sogar mit Smart-Hub-Integration – unter anderem für Philips Hue.

Bisher offenbarte sich der Markt für Alexa-Skills allerdings eher als ein Nullsummenspiel. Einnahmen brachten lediglich die Erlöse, die durch die Nutzung von Amazon Web Services generiert wurden und das auch nur ab einem bestimmten Nutzungsvolumen. Dies hat sich mit der Einführung von „In-Skill Purchasing“ zumindest in den USA geändert: In-Skill Purchasing ist vergleichbar mit In-App Käufen und ist die erste, vom Anbieter unterstützte Art der Monetarisierung von Voice Interfaces. An jedem Kauf und mit jedem Abo verdient Amazon 30%. Das entspricht in etwa dem, was auch Apple und Co. im App-Markt verlangen. Dieses Modell wird es auch bald in Deutschland geben, wobei Amazon dazu noch keine genaueren Informationen veröffentlicht hat.

Google fokussiert sich auf Künstliche Intelligenz

Google spannt in seiner Entwicklung von Voice Interfaces ein weitaus größeres Feld auf. So wurde auf der diesjährigen Konferenz „Google I/O“ das System Duplex vorgestellt, das Funktionserweiterungen für den Google Assistant bietet. Es nutzt Künstliche Intelligenz (KI), ist in der Lage, Unterhaltungen zu verstehen und spricht mit einer täuschend echt klingenden menschlichen Stimme.

Doch was genau bedeutet das? Angenommen, mein bevorzugter Sushi-Lieferant hat keinen Online-Bestellservice, muss ich dann via Telefon bestellen? Solche telefonischen Bestellungen laufen alle nach demselben Prinzip: Ich sage, wo ich wohne und welches Gericht ich bestellen möchte. Als Antwort bekomme ich, wieviel ich zu zahlen habe und wann das Essen bei mir ankommt. Genau für solche Situationen hat Google Duplex geschaffen. Auf Anweisung kann es selbstständig Anrufe tätigen und beispielsweise Termine für uns vereinbaren. Dabei ist es kaum zu glauben, dass es sich nicht um einen echten Anrufer handelt. Neben dem natürlichen Sprachfluss spielen hier zusätzlich die Betonung und die Pausen eine besondere Rolle. Dabei kommt Duplex zugute, dass Google sich allgemein bereits tiefgehend mit natürlicher Sprache beschäftigt.

Bei der künstlichen Erzeugung der menschlichen Sprechstimme, der sogenannten Sprachsynthese, entwickelte Google Tacotron 2. Wie bisher, trainiert und erzeugt auch dieses neue System mit dem schon etablierten neuronalen Netz Deepmind WaveNet die natürliche Sprache. Neu ist jedoch, dass nun auch Daten zu Tonhöhen in das neuronale Netz einfließen. Wie genau das funktioniert und wie dieses System arbeitet, wird in diesem YouTube Video von CodeEmporium anschaulich dargestellt. Auf Cloud-Text-To-Speech kann man dieses System mit verschiedenen Sprachen testen. Wichtig ist lediglich, dass man hier den Voice-Typ „WaveNet“ angibt. Wer dieses System nutzen möchte, sollte allerdings bedenken, dass es viermal so teuer ist wiedas herkömmliche Cloud-Text-To-Speech.

Samsung und Apple lassen sich noch nicht in die Karten schauen

Warum Samsung Viv Labs übernommen hat und wie sich dieses System weiterentwickelt, ist leider völlig unklar. Ob Viv Samsungs bisherige Lösung Bixby ablöst oder die Viv- Technologie in Bixby integriert wird, bleibt abzuwarten. Klar ist jedoch, dass Viv auf Grund der gesamten Historie eine stark verbesserte Siri zu sein scheint und großes Potential hat (vgl. Voice Interfaces – Das Hier und Jetzt).

Siris Entwicklung scheint stattdessen eher zu stagnieren. Die einzigen großen Neuerungen im vergangenen Jahr waren Sprachmakros. Diese ermöglichen es, kleine Makros durch einen zuvor hinterlegten Sprachbefehl zu aktivieren. Es könnte sich hier aber auch um die sprichwörtliche Ruhe vor dem Sturm handeln. Denn Apple‘s HomePod wäre als mögliche Konkurrenz für Alexa prädestiniert. Dafür müsste Apple den Entwicklern allerdings die Schnittstelle zu Siri öffnen und die Möglichkeit schaffen, Software für den HomePod zu schreiben.

Wo geht die Reise hin?

Neben den Voice bzw. den Conversational Interfaces ist momentan auch Machine Learning in aller Munde. Die Fortschritte, die in den letzten Jahren bei den Voice Interfaces gemacht wurden, wären ohne Machine Learning nicht machbar gewesen. Ob beim Transkribieren, bei der Analyse von Texten oder bei der Sprachsynthese: Überall werden neuronale Netze eingesetzt und sorgen für immer verblüffendere Ergebnisse.

So könnte ein Voice Interface, das auf eine Stimme trainiert wurde, mithilfe von neuronalen Netzen und dem Wissen zu all ihren Eigenheiten auch im totalen Geräuschchaos die Stimme einer bestimmten Person sauber erkennen und verarbeiten. Wer schon mal versucht hat, während eines laufenden Films seine Alexa Smart-Home-Steuerung zu benutzen, versteht, wie wichtig dieser Schritt wäre. Schließlich möchte man sein Voice Interface nicht anschreien, um den Geräuschpegel im Raum zu übertreffen, sondern in normaler Lautstärke kommunizieren. Wenn darüber hinaus einzelne Stimmen separiert werden könnten, würde das die Einsatzgebiete von Voice Interfaces deutlich erweitern.

Neben der optimierten Sprachverarbeitung fällt auf, dass bisher alle Smart Assistants völlig gesichtslos sind. Das könnte sich bald ändern; So wurde in China gerade ein voll digitaler Nachrichtensprecher vorgestellt. Für Anbieter eines Produktes birgt das großes Potenzial. Auch wenn der Film „Her“ eine sehr persönliche Beziehung zu einer Stimme thematisiert, baut man zu etwas personenähnlichem sicherlich eine noch engere Bindung auf –man denke dabei an den Erfolg von Influencer Marketing. Mit der VR- und AR-Technologie könnte uns solch ein Assistent in menschlicher Form überall Gesellschaft leisten.

Wo versteckt sich das größte Potenzial?

Die Leistungsfähigkeit der Rechner: Bezüglich des Sicherheitsaspekts, dass jegliche Datenverarbeitung eines Voice Interfaces in der Cloud stattfindet, ist zu sagen, dass es zukünftig mehr Lösungen geben wird, bei denen die Verarbeitung lokal geschieht. Aktuell werden fast alle Daten in der Cloud des Anbieters verarbeitet und gespeichert. Das liegt vor allem daran, dass viele Lösungen noch an der notwendigen Leistungsfähigkeit der eigenen Rechner scheitern. Die Rechenleistung wird jedoch permanent höher und billiger. Daher ist es nur eine Frage der Zeit, bis es einwandfrei funktionierende Voice Interfaces auch auf einem Smartphone geben wird, das gerade nicht online ist.

Das Verständnis von Sprache: Viele Firmen beschäftigen sich zudem mit dem Verständnis von Sprache auf inhaltlicher Ebene. Wenn es um mehr als einen einzelnen Satz geht, zum Beispiel um den Inhalt einer gesamten Geschichte, sind heutige Voice Interfaces allesamt nutzlos. Bei einem Voice Interface wie wir es kennen, geht es in erster Linie nicht um Wissensinhalte, sondern um Willenserklärungen. Das Interface soll verstehen, was der Benutzer von ihm will, um dann darauf zu reagieren. Bei der Extrahierung von Wissen aus Texten geht es aber darum Wissen zu erfassen und in geordneten Strukturen zu speichern.

Nehmen wir beispielsweise einen Service-Mitarbeiter einer Hotline, der mit einem fünfminütigen Beschwerdedialog eines Kunden umgehen muss. Um ihn bei seiner Arbeit zu unterstützen, gibt es aktuell schon einige Ansätze, Gespräche automatisch zu verschlagworten und dem Mitarbeiter als Hilfestellung passende Themen auf einem Screen anzuzeigen. Noch sinnvoller wäre es jedoch, wenn das Interface aus einem Gespräch die Quintessenz extrahieren könnte, um dem Mitarbeiter die wichtigsten Stichpunkte auf einem Screen anzuzeigen, auf die er dann im Gespräch eingehen kann. Dafür muss so ein System aber inhaltlich verstehen, was der Nutzer sagt und gegebenenfalls auch bewerten oder priorisieren können. Weiterführend könnte ein Conversational Interface auch Informationen aus E-Mails oder sogar Chatbots extrahieren und Service-Mitarbeitern schnell alle relevanten Fakten zur Verfügung stellen.

Im Bereich Wissensrepräsentation und Natural Language Understanding wird weiterhin viel geforscht. Ebenso werden immer mehr selbstlernende Technologien zur Textanalyse wie zum Beispiel das „Word Embedding“ entwickelt. Auch hier ist es also nur eine Frage der Zeit, bis es Systeme geben wird, die sehr komplexe Inhalte verstehen.

Die Erkennung und das Verbalisieren von Bildinhalten: Wovon die meisten Menschen eher nur am Rande etwas mitbekommen, ist die sogenannte „Accessibility“ oder auch Barrierefreiheit in der digitalen Welt. So hat Siri in der Vergangenheit einen großen und sehr wichtigen Beitrag geleistet, damit auch Menschen mit Sehbehinderungen komfortabel mit einem Smartphone umgehen können. Gerade für sie ist die Nutzung von Voice Interfaces ganz besonders relevant.

Darüber hinaus gibt es im Bereich Machine Learning mittlerweile viele Forschungsarbeiten, die sich mit der Erkennung von Bildinhalten beschäftigen. Dabei geht es längst nicht mehr darum einen Hund oder eine Katze zu unterscheiden, sondern um Bildkonstruktionen mit vielen Komponenten. Man stelle sich ein System vor, das erkennt und beschreibt, wo sich beispielsweise eine Straße befindet – was davor ist, was dahinter – oder wahrnimmt, ob eine Ampel gerade rot ist beziehungsweise was auf Straßenschildern steht. Die Kombination dieser Technologien hätte einen echten Mehrwert. Ein System für Sehbehinderte, das beschreibt, was gerade vor ihnen passiert, das warnt, wenn Hindernisse in Sicht kommen und das sicher navigiert.

Fazit

Voice Interfaces sind auf einem guten Weg, jedoch fühlt es sich im Alltag noch nicht wirklich natürlich an, solch ein Interface zu benutzen. Dafür schwächelt mitunter das Sprachverständnis noch zu stark. An diesen Problemen wird allerdings gearbeitet und es ist abzusehen, dass wir in Zukunft fast beiläufig mit unserem digitalen Assistenten plaudern, ihm vielleicht sogar von unseren Hochs und Tiefs erzählen und verständnisvolle Antworten oder sogar Anregungen von ihm bekommen werden. Was dies für Auswirkungen auf unser soziales Leben haben wird, wird sich zeigen. Bisher hat jede große Technologie Vor- und Nachteile mit sich gebracht, wir müssen sie nur gewissenhaft einsetzen.

Dieser Beitrag erschien zuerst bei ADZINE und ist der letzte Beitrag einer vierteiligen Serie zum Thema Voice Interfaces:

Mit Voice Interfaces glaubt man – wie bei jedem Trend – ein Allheilmittel gefunden zu haben. Doch ist ihr Einsatz längst nicht bei jedem Problem sinnvoll. Für welche Dienstleistungen können sie einen echten Mehrwert bieten? Wie muss ein guter Dialog aussehen und wie garantiert man Kunden einen sicheren Umgang mit ihren Daten? Wir zeigen Ihnen, auf was Sie unbedingt achten sollten.

In der Theorie müssten sich Voice Interfaces hervorragend in unseren Alltag integrieren lassen. Wir sind es gewohnt, Informationen in Sprache zu verpacken und unsere Wünsche verbal­ zu äußern. Für die Informationsweitergabe benutzen wir allerdings nicht ausschließlich diesen Weg der Kommunikation. Häufig werden Informationen auch nonverbal weitergegeben, mittels Gestik, Mimik oder Tonfall. In Online-Chats versuchen wir die mangelnden Möglichkeiten der nonverbalen Kommunikation mit Hilfe von zahlreichen Emojis auszugleichen. Meist gestikulieren wir wild herum, wenn wir Superlative beschreiben. So machen wir beispielsweise ausladende Gesten, um die Größe oder Breite von etwas zu untermauern. Sehen wir etwas Außergewöhnliches und möchten es beschreiben, können dies aber wie bei einem Telefonat, einer E-Mail oder einem Brief nur verbal, fühlen wir uns in unseren Möglichkeiten meist sehr beschränkt und verweisen lieber auf die mitgeschickten Bilder.

Wenn wir online auf ein tolles Gadget mit unzähligen Gadgets gestoßen sind, und einem Freund davon erzählen, zählen wir nur einige davon auf. Das tun wir nicht nur, weil wir nicht genügend Zeit haben, sondern auch, weil wir wissen, dass unser Gegenüber vielleicht ganz andere Features spannend findet. Unsere Erfahrung sagt uns, dass es viel sinnvoller wäre, ihm einfach den Link zu dem jeweiligen Produkt zu schicken, damit er selbst nachsehen kann, was ihm an diesem Gadget besonders gefällt.

Wie es sich im Alltag mit der rein verbalen Kommunikation verhält, so ist es auch mit Voice Interfaces. Längst nicht jeder Anwendungsfall hat das Potenzial durch Voice Interface einen Mehrwert zu generieren. Ein Beispiel dafür ist der Skill Store von Amazon‘s Alexa. Dort gibt es sehr viele sogenannte Skill-Leichen, also schlecht bewertete Skills, die niemand nutzt. Skills für Voice Interfaces sind das Äquivalent zu Apps aus der Mobile-Welt. Was charakterisiert diese Skill-Leichen? Sie haben keinen Mehrwert für den Nutzer. Entweder sind sie einfach nicht für Voice Interfaces ausgelegt oder nicht vernünftig für Dialoge konzipiert und treiben so manchen Nutzer in den Wahnsinn. Aber woran liegt das? Was muss man besser machen und wie kann man Skill-Leichen vermeiden?

Finden Sie einen sinnvollen Anwendungsfall

Häufig nutzen wir im Alltag Phrasen wie „Kannst du mir mal eben…?“, „Ich brauche mal kurz…“ oder „Wie war noch gleich…?“ – vor allem, wenn wir wenig Zeit oder schlicht die Hände voll haben. Gerade in diesen Situationen haben wir nicht die Möglichkeit, uns vor einen Computer zu setzen oder unser Handy herauszuholen. Und genau hier gibt es die perfekten Szenarien für die sinnvolle Nutzung von Voice Interfaces.

Denkbar sind Auskünfte aller Art, die Steuerung von anknüpfenden Systemen wie Smart Home oder auch Dienstleistungen wie die Buchung eines Mietwagens. Auch sind alle „Hand Free“- Szenarien prädestiniert für Voice Interfaces. Der Mechatroniker, der mit öligen Händen am Motor arbeitet und eine spezielle Information zu einem Ersatzteil benötigt oder der Hobbykoch, der beim Teigkneten den nächsten Rezeptschritt wissen möchte.
Software dient dazu, unseren Alltag leichter oder angenehmer zu machen. Und genau das zählt beim Einsatz von Voice Interfaces. Es geht um kurze Anfragen, sinnvolle Unterstützung und schnelle Resultate. Um Pragmatismus eben. Überlegen Sie deshalb genau, welchen Service oder welchen Anwendungsfall Sie für ein Voice Interface anbieten möchten und ob es für den Nutzer in seinem privaten oder beruflichen Alltag wirklich eine Hilfe ist.

Denken Sie Dialoge immer neu und niemals in visuellen Konzepten

Als seinerzeit die Smartphones und damit auch mobile Apps in einer Revolution den Markt überschwemmten, wurden die bereits bestehenden Konzepte einfach kleiner skaliert und übernommen. Erst im Laufe der Zeit wurden diese adaptierten Konzepte verfeinert und für die mobile Darstellung angepasst. Die visuelle Informationsverarbeitung des Menschen ist jedoch sehr selektiv. Das Unterbewusstsein wirkt wie ein Filter, der unsere Aufmerksamkeit auf die für uns wichtigen Dinge lenkt. Weitere Informationen führen wir uns erst später gezielt vor Augen. Dagegen funktioniert die auditive Wahrnehmung ganz anders. Hier kann nicht das Unterbewusstsein entscheiden, welche Informationen wir zuerst aufnehmen. Stattdessen konsumieren wir alles Gehörte in vorgegebener Reihenfolge.

Und genau hier hat der erste große Fehler seinen Ursprung: Bei der Konzeption eines Skills für ein Voice Interface geht man fälschlicherweise davon aus, dass es mit der einfachen Adaption eines bereits funktionierenden visuellen Konzepts getan sei. Doch visuelle Konzepte beinhalten zu viele Informationen für ein Voice Interface. Übernimmt man all diese Inhalte, wird der Nutzer mit langen Texten und unzähligen Informationen überflutet. Das ist sehr anstrengend und unangenehm. Aus diesem Grund hat Amazon bereits die sogenannte „ein-Atemzug-Regel“ ins Leben gerufen. Sie besagt, dass der Text, den Alexa in einer Interaktion mit dem Nutzer sagen soll, nicht länger als ein langsamer Atemzug sein darf. Damit sich der Nutzer also nicht überfordert fühlt und das Voice Interface besser annimmt, muss man sich eingehend mit den zu transportierenden Informationen beschäftigen und sollte Textlängen sowie Informationsbeschränkung berücksichtigen.

Lange Dialogstrecken vermeiden: Ein zweiter großer Fehler in Bezug auf Dialoge, der auch auf der Adaption von visuellen Konzepten beruht, sind zu lange Dialogstrecken. Besonders im E-Commerce sind wir gewohnt, Seite für Seite durch einen Prozess geführt zu werden, damit das System am Ende alle für den Kauf benötigten Informationen zur Verfügung stehen hat. Diese Prozesse sind stabil und führen in den meisten Fällen zum Erfolg. Anders verhält es sich bei einem Voice Interface. Ein einfacher, vom Interface geführter Frage-Antwort-Dialog in mehreren Schritten, kann schnell mehrere Minuten dauern. Lässt man sich bei der Antwort zu viel Zeit, wird der Dialog meist einfach beendet. Wird etwas falsch oder gar nicht verstanden, kann es zu Fehlern kommen. Hinzu kommt, dass einige bekannte Interfaces, auch ohne ersichtlichen Grund, einfach mal aus dem Dialog aussteigen. Das ist umso ärgerlicher, je weiter fortgeschritten dieser zähe Dialog ist.

Um das zu vermeiden, können bei der ersten Nutzung eines Voice Interfaces bestimmte Grundinformationen des Nutzers abgefragt und als Grundannahmen in der weiteren Nutzung vorausgesetzt werden. Gegebenenfalls kann man auf diese sogenannten Default-Daten auch von anderer Stelle zugreifen. Möchte ein Nutzer beispielweise eine Reise nach München buchen, benötigt das Voice Interface dafür folgende Daten: Abreiseort, Zielort, Datum, Uhrzeit, bevorzugte Reise- und Zahlungsart. Der Nutzer hat zuvor bereits schon einmal angegeben, dass er in Hamburg lebt, meist mit der Bahn reist und häufig mit Kreditkarte bezahlt. Als Abreisezeit wird standardmäßig der nächstmögliche Zeitpunkt gewählt. Das Interface würde also mit nur einer Frage, nämlich der nach dem Zielort, eine valide Buchung vornehmen können. Und das ohne ein langes und möglicherweise fehlerbehaftetes Frage-Antwort-Spielchen mit vielen Wiederholungen und fehlender Dynamik. Änderungen der vorhandenen Daten sollte der Nutzer im Anschluss immer vornehmen können.

Unterschiedliche Phrasen zur richtigen Zeit und in angenehmer Dynamik: Sprache gibt uns die Möglichkeit, eine bestimmte Aussage auf viele unterschiedliche Weisen auszudrücken. Sprachliche Varianz ist ein Ausdruck von Intelligenz. Warum sollten Voice Interfaces in ihren Formulierungen deshalb nicht ebenfalls variieren können? Durch mehr Dynamik und zahlreiche Phrasen wirken der Umgang und die gesamte Interaktion deutlich natürlicher. Das Interface passt sich so dem Nutzer an statt umgekehrt. Diese sprachlichen Anpassungen beziehen sich auch auf die wiederholte Nutzung des Interfaces. Wenn das Interface bei der ersten Nutzung alles ausführlich erklärt, sollten Wiederholungen bei der weiteren Nutzung vermieden werden, außer der Nutzer bittet darum.

In Situationen, in denen der Nutzer Hilfe benötigt, gibt es ebenfalls einiges zu beachten. Bei einem Voice Interface ist nicht „ersichtlich“ wie man mit ihm umgehen soll. Daher gibt es die Möglichkeit, um Hilfe zu fragen. Dabei kann das Interface berücksichtigen, in welcher Situation sich der Nutzer gerade befindet. Schließlich weiß es, ob sich der Nutzer beispielsweise gerade in einem Warenkorb oder bei der Angabe eines Datums für eine Reise befindet. So ist es kein Problem, dem Nutzer bei einer Hilfsanfrage im Warenkorb auch tatsächlich nur Hilfe zum Warenkorb anzubieten. Dieses Wissen sollte unbedingt genutzt werden, um situativ die bestmögliche Unterstützung zu geben.

Sorgen Sie für sichere Dialoge

Wie bei jeder Softwareentwicklung ist Datensicherheit auch bei Voice Interfaces ein zentrales Thema. Was muss also bei Analyse und Konzeption beachtet werden? Im Beitrag „Voice Interfaces – Das Hier und Jetzt“ wurden bereits die Big Player unter die Lupe genommen. Die dort beschriebenen Interfaces sind allesamt Cloud-basiert. Somit findet die Analyse und Verarbeitung der Sprache nicht lokal auf dem eigenen Rechner statt, sondern in den jeweiligen Rechenzentren der Anbieter. Im Rahmen der DSGVO müssen diese Anbieter nicht nur Auskunft darüber geben, wo sich die verarbeitenden Server befinden, sondern sich ebenfalls an die geltende Grundverordnung halten. Doch stellt sich die Frage, welcher Finanzdienstleister oder welche Krankenkasse hoch sensible Kundendaten in der Cloud eines fremden Unternehmens speichern möchte. Amazon beispielsweise bietet beim Zugriff auf ihre Services mit der verschlüsselten Übertragung oder der Authentifizierung via OAUTH2 zwar ein hohes Maß an Sicherheitsstandards, doch ist alles andere in deren Infrastruktur für Nutzer oder Entwickler nicht einsehbar. Es ist nahezu unmöglich ein Voice Interface, welches mit sensiblen Daten arbeiten soll, so zu anonymisieren, dass auf Cloud-Seite des Anbieters keine Rückschlüsse auf den Nutzer möglich wären. Alles Gesagte wird in der Cloud verarbeitet – und alles, was das Interface zum Nutzer sagt, ebenfalls. Es gibt hier also nur die Möglichkeit einen Anwendungsfall zu finden, bei dem keine sensiblen Daten genutzt werden.

Warum die Cloud? Segen und Fluch bei aktuellen Voice Interfaces ist, dass das Transkribieren und Analysieren von Sätzen auf Machine-Learning-Technologie basiert. Sobald ein Dialogmodel erarbeitet wurde, muss das System dieses Model lernen, damit es anschließend auch ähnliche Satzvarianten verstehen kann. Dieses „Lernen“ ist ein rechenintensiver Vorgang, welcher auf der Hardware eines Servers ausgeführt wird. Aus dieser Perspektive sind diese Cloud-Lösungen natürlich pragmatisch und scheinbar essenziell. Doch es gibt einige wenige Lösungen im Bereich Voice Interfaces, die auf lokalen Rechnern oder eigenen Servern lauffähig sind. So bietet beispielsweise der Softwarehersteller „Nuance“ mit der Spracherkennungssoftware Dragon ein Tool, welches das Transkribieren auf eigener Hardware ermöglicht.

Was ist im Umgang mit Pins und Passwörtern zu beachten? Ein weiterer Aspekt bei der Datensicherheit ist die Art des Interfaces. Während wir bei einem visuellen Interface mit einem schnellen Schulterblick prüfen können, ob uns jemand bei der Eingabe unseres Passworts auf die Finger guckt, ist es bei der Sprache weitaus problematischer. Das Abgreifen sicherheitsrelevanter Daten ist daher ein leichtes Spiel. Pins und Passwörter sollten deshalb niemals Teil eines Voice Interfaces sein. Hier ist die Verbindung mit einer visuellen Komponente ratsamer. In der visuellen Komponente wird der Nutzer authentifiziert, während die sonstige Bedienung über die auditive Komponente läuft.

Fazit

Nach wie vor ist der Umgang mit sensiblen Daten eine der größten Herausforderungen beim Einsatz von Voice Interfaces. Hier gilt es, mit einem besonders kritischen Blick zu arbeiten und Dialoge entsprechend zu konzipieren. Sicherheitsabfragen sollten niemals Teil eines Dialogs in einem Voice Interface sein. Auch wenn es verlockend ist, sollten visuelle Konzepte keinesfalls eins zu eins auf ein Voice Interface übertragen werden. Dadurch wird der Nutzer überfordert sowie Dialoge viel zu lang oder auf Grund von Fehlern abgebrochen. Wenn Sie all diese Punkte berücksichtigen, wird der Nutzer das Arbeiten mit einem Voice Interface als angenehm, natürlich und hilfreich empfinden. Ob das Interface insgesamt Sinn macht, liegt natürlich maßgeblich an der Idee und dem Einsatzgebiet.

Dieser Beitrag erschien zuerst bei Adzine und ist der dritte Teil einer vierteiligen Serie zum Thema Voice Interfaces:

Bis zum Release von Amazons Echo aka Alexa haben die Big Player mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Mittlerweile gibt es zahlreiche weitere Varianten, doch welche sind die bekanntesten und welches Voice Interface ist das geeignetste?

Heutige Voice Interfaces sind eine Kombination zweier Komponenten, nämlich der Transkribierung und des Natural Language Processing (NLP). Ein gesprochener Satz wird in einen Text transkribiert. Dieser wird auf Basis von Künstlicher Intelligenz analysiert, darauf basierend eine Reaktion erzeugt und diese über eine Sprachsynthese wieder in analoge Sprache umgewandelt und ausgespielt (siehe auch Teil 1).

Unterschiedliche Klassifizierung

Zu differenzieren sind Conversational Interfaces ohne und mit sogenannten Wissensdomänen. Hierbei handelt es sich um digitale Strukturen, die Wissen rund um einen Themenbereich abbilden.

1) Conversational Interfaces mit Wissensdomäne 

Bei Conversational Interfaces mit Wissensdomänen geht es nicht nur um die Analyse von Satzteilen, sondern darum, den tatsächlichen Sinn hinter einem Satz zu verstehen. Diese Art von Interfaces werden Smart Assistants genannt. Betrachtet man den für uns Menschen einfachen Satz: „Reserviere zwei Plätze in einem Zwei-Sterne-Restaurant in Hamburg!“ ist uns klar, um was es geht. Wir wissen, dass einem Restaurant „Sterne“ verliehen werden können, dass Hamburg eine Stadt ist und dass man in einem Restaurant Plätze reservieren kann. Ohne das Wissen in diesem Bereich ist es jedoch schwer, dem Satz einen Sinn zu entnehmen. „Zwei Sterne“ könnte genauso gut der Name eines bestimmten Restaurants sein. Was zwei Plätze sind und wie man sie reservieren kann, ist dann völlig unklar. Das überhaupt ein Restaurant mit bestimmten Eigenschaften in Hamburg gesucht werden soll, ist dann unklar. Smart Assistants sollen aber genau diese Dinge verstehen können und benötigen deshalb ein spezielles Grundwissen in den entsprechenden Domänen wie Gastronomie, Events, Wetter, oder Reisen.

2) Conversational Interfaces ohne Wissensdomäne

Conversational Interfaces ohne Domänenwissen haben diesen Anspruch nicht – so beispielsweise Alexa. Hier ist der Ansatz ein anderer. Für einen möglichen Dialog werden bei der Implementierung Satzstrukturen vorgegeben, in denen variable Teile, sogenannte Slots, definiert werden können. Der gesprochene Satz wird dann analysiert und einer Satzstruktur zugeordnet. Anschließend wird derjenigen Komponente, die die Reaktion auf das Gesagte generiert, mitgeteilt, welche Satzstruktur mit welchen variablen Teilen erkannt wurde. Dass dabei kein Grundwissen benötigt wird, verdeutlicht folgender Satz: „Ich möchte ein rotes Hemd kaufen“. An dieser Stelle braucht das System kein Wissen über Kleidung oder Farben, denn es gleicht lediglich ab, wie bestimmte Sätze bezogen auf den Kauf eines Hemdes aussehen können. Dazu wird im Model des Dialogs für das Interface festgelegt, dass es eine Satzstruktur mit einer ID gibt, die beispielsweise „hemdkauf“ heißt. Weiter wird festgelegt, dass die Satzstruktur folgende Ausprägungen haben darf: „Ich möchte ein <farbe> Hemd kaufen“, „Ich möchte ein Hemd in der Farbe <farbe> kaufen“ und “Ich möchte ein Hemd kaufen und zwar in <farbe>“. Dadurch wird ebenfalls definiert, dass es einen variablen Satzteil (Slot) mit dem Namen „farbe“ gibt. Für diesen Slot werden die gewünschten Möglichkeiten angegeben, z.B. „rot“, “grün“ und „gelb“. Wird vom Nutzer nun oben genannter Satz gesagt, ergibt die Analyse, dass es sich um die Satzstruktur „hemdkauf“ mit dem Wert „rot“ für den Slot „farbe“ handelt. In entsprechend strukturierter Form kann ein Backendsystem mit diesen Angaben schon etwas anfangen.

Die aktuellen Hauptakteure

Bis zum Release von Amazons Echo aka Alexa, haben viele IT-Firmen mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Siri ist zwar mit einem Paukenschlag ans Licht der Öffentlichkeit getreten, wurde aber eher als hilfreiches Tool und nicht als eine völlig neue Klasse von Interfaces wahrgenommen. Die Vorteile von „hands free“ bei mobilen Geräten war aber nicht von der Hand zu weisen und so arbeitet nun jeder Big Player an seiner eigenen Sprachlösung. Hier eine kurze Vorstellung der aktuellen Hauptakteure:

Amazon‘s Alexa

Schaut man sich die Produktpalette von Amazon an, wird klar, dass Alexa eine konsequente Weiterentwicklung vorhandener Technologien ist. So waren schon die Fire Tablets (ab 2013), das Fire Phone (2014) und die ersten Fire TVs (2014) mit einer Sprachsteuerung ausgestattet. Die Technologie von Alexa als „Voice Interface as a Service“, oder auch der „Alexa Voice Service“, ist jedoch kein Smart Assistent. Hier werden im Hintergrund lediglich Sätze verglichen, statt den Sinn von Sätzen zu analysieren. Bei komplexeren Anfragen steigt Alexa schnell aus. Grund dafür ist, dass es nur sehr oberflächliche Wissensdomänen gibt, die dem Entwickler zudem nicht offenstehen. Auch die Anfragen, die man einem Echo gegenüber äußern kann, müssen sehr knapp und wenig komplex formuliert sein. So können Filme beispielsweise über den Namen von Schauspielern gesucht werden oder Restaurants nach der Angabe des Umkreises. Viel tiefer geht es hier schon nicht mehr.

Google Assistant

Google Now war ursprünglich ein Bestandteil von der Google Search und bezog sich rein auf die Suche im Web. Später wurde es ausgegliedert, um Domänenwissen erweitert und damit konkurrenzfähig gegenüber Assistenten wie Apple’s Siri oder Samsung‘s S Voice gemacht. Im letzten Jahr wurde Google Now dann durch den Google Assistent ersetzt. Wie stark die unterschiedlichen Wissensdomänen beim Google Assistent indessen verzahnt sind, wurde mit dem Produkt „Google Duplex“ eindrucksvoll auf der Entwicklerkonferenz von Google veranschaulicht. Google Duplex als Bestandteil des Assistenten kann mit realen Personen telefonieren und Termine für beispielsweise den Frisör machen oder einen Tisch reservieren. Dabei greift der Assistent nicht nur auf den Terminkalender zu, sondern muss auch über entsprechendes Domänenwissen verfügen.

Apple‘s Siri

Die Geschichte von Siri ist eine etwas andere. Der Smart Assistent wurde von der Firma Siri Inc. entwickelt und verfolgte von Anfang an den Ansatz, Sprache mittels Domänenwissen zu analysieren. Siri Inc. ist ein Spin-Off des Stanford Research Institutes (SRI). Vor 15 Jahren arbeitete SRI gemeinsam mit Institutionen an dem Projekt „CALO“ (Cognitive Assistant that Learns and Organizes), von dem viel Erfahrung in die Entwicklung Siris eingeflossen ist. 2010 wurde Siri im Appstore veröffentlicht und Siri Inc. prompt von Apple aufgekauft. Ein Jahr später verkündete Apple dann offiziell, dass Siri nun ein fester Bestandteil von iOS sei. Seitdem wurde es auf allen Plattformen ausgerollt. Zuletzt wurde mit dem HomePod ein smarter Lautsprecher herausgebracht, der mit dem Konkurrenzprodukt Echo von Amazon vergleichbar ist und auf den gegenwärtigen Trend der Voice Interfaces einzahlt.

Microsoft’s Cortana

Microsofts Cortana wurde der Öffentlichkeit 2014 das erste Mal auf einer Konferenz präsentiert. Ebenfalls als Smart Assistent ausgelegt, verfügt Cortana über interessante Adaptionen aus der Realität. Die sehen wie folgt aus: Ein realer Assistent macht sich meist Notizen über seinen Vorgesetzten oder Auftraggeber, um die Person besser kennenzulernen und sich ihre Gewohnheiten zu merken. Cortana nutzt dafür ein virtuelles Notebook. So fragt Cortana bereits bei der erstmaligen Nutzung einige Vorlieben ab, um schon früh personalisierte Antworten geben zu können. Diese Funktionalität kann je nach Bedarf auch ausgestellt werden. Das Herzstück von Cortana ist Bing; besser gesagt, sind es Services, die auf Bing basieren und erlauben, der Suchmaschine umgangssprachliche Anfragen zu stellen.

Samsung’s Viv

Auch Samsung versucht schon seit geraumer Zeit eine intelligente Software für ihre Geräte zu etablieren, die natürlich auch ein Sprachinterface bieten soll. Dazu kaufte Samsung 2016 kurzerhand das Unternehmen der Siri Urväter „Viv Labs“ auf. Viv Labs setzten mit ihrem System voll und ganz auf Domänenwissen. Anders als bei den Mitbewerbern soll es bei Viv jedoch möglich sein, die Wissensbasis von externen Entwicklern um neue Domänen erweitern zu lassen. Dadurch soll das System intelligenter werden und immer mehr verstehen können. Dazu stellt man sich beispielsweise eine Whisky-Manufaktur vor. Die Viv wird nun von Experten um die Wissensdomäne Whisky und die eigenen Produkte erweitert. Zusätzlich teilt eine Manufaktur ihr gesamtes Wissen über Holzfässer und deren Herstellung. Im Domänenwissen der Viv befindet sich nun wertvolle Expertise darüber, welche Holzfässer für den Geschmack bestimmter Alkoholsorten verantwortlich sind. So zum Beispiel, dass Eichenfässer für Whisky mit vanilligem Geschmack sorgen. Frage ich nun Viv, woher die Vanillenote eines bestimmten Whiskys von besagter Manufaktur kommt, kann mir die Viv antworten, dass der Geschmack höchstwahrscheinlich von der Lagerung in Eichenfässern herrührt. Viv hat dabei beide Domänen zusammengeführt.

IBM’s Watson

IBM Watson sei hier erwähnt, um mit Missverständnissen aufzuräumen. Es gibt keine „Künstliche Intelligenz Watson“, die alles versteht und kontinuierlich Wissen anhäuft. Watson ist eine Sammlung von verschiedenen Tools Künstlicher Intelligenz unter einem gemeinsamen Konzept, mit denen unterschiedlichste Projekte realisiert werden können. So gibt es beispielweise auch Projekte, die dazu dienen, eine große Wissensbasis aufzubauen. Allerdings sollte man sich nicht der Illusion hingeben, dass einem das eigene Watson-Projekt Zugriff auf dieses Wissen beschert. Wer ein Projekt mit Watson implementieren möchte, muss seine eigene Datenbasis mitbringen – so wie bei jedem anderen Maschine Learning Toolkit auch. Watson selbst stellt unter anderem Tools zum Transkribieren (The IBM® Speech to Text Service) und zur Textanalyse (Natural Language Understanding Service) zur Verfügung. Wer gemeinsam mit Watson ein Projekt realisieren möchte, baut bei der Implementierung von Voice Interfaces auf diesen zwei Tools auf.

Von der Analyse des Problems zum passenden Voice Interface

Natürlich gibt es viele weitere Lösungen, die teils sehr spezialisiert sind, teils aber auch die Restriktionen der Big Player aufbrechen möchten, um mehr Entwicklungsmöglichkeiten zu bieten. Es stellt sich nun natürlich die Frage: Wozu all die verschiedenen Voice Interfaces? Wie bei vielen anderen komplexen Problemstellungen auch, gibt es hier nicht die eine allgemeingültige Lösung. Es gibt kein „gutes“ oder „schlechtes“ Interface. Es gibt nur „richtige“ oder „falsche“ Anwendungsgebiete für die unterschiedlichen Technologien. Alexa taugt wenig für komplexe Satzstrukturen, eignet sich aber hervorragend für schnelle Umsetzungen und ist bereits weit verbreitet. Hingegen hat sich Viv noch nicht durchsetzen können, hat aber das Potenzial, beliebig komplexe Sätze verstehen zu können.

Für die Auswahl des passenden Voice Interfaces zählen also bestimmte Kriterien, wie der Anwendungsfall, der Fokus, die Problemstellung, die Bedürfnisse der Zielgruppe oder wie offen ein Interface für die Integration in eigene Projekte ist.

Dieser Artikel erschien zuerst bei Adzine und ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Bis ins Jahr 2015 wurden Voice Interfaces von den meisten eher als eine nette Spielerei wahrgenommen, die auf Smartphone und Navigationssysteme beschränkt war. Doch mit Amazon Echo kam diese Technologie quasi über Nacht in die Wohnzimmer vieler Verbraucher auf der ganzen Welt. Amazon behält sich zwar die genauen Absatzzahlen vor und hat bis heute keine weiteren Details veröffentlicht, jedoch wurden laut des Nachrichtenportals Business Insider im Jahr 2015 bereits 2,4 Millionen Amazon Echos weltweit verkauft. 2016 stieg der Absatz auf 5,2 Millionen an. Dadurch entdeckte auch Apple das bis dato stiefmütterlich behandelte Siri wieder und kündigte im Juni 2017, nach sechs Jahren Stille um das Spracherkennungsprogramm, ein ganz eigenes Device dafür an: den HomePod. Auch andere Unternehmen sahen sich gezwungen, diesem Trend zu folgen, wussten jedoch wenig damit anzufangen.

Back to the roots

Dabei sind Voice- bzw. Conversational Interfaces nicht wirklich etwas Neues. Voice Interfaces sind genau betrachtet Conversational Interfaces mit einem speziellen Eingabekanal, nämlich der analogen Sprache. Die Entwicklungsetappen der vergangenen Jahrzehnte dürften vielen Marktbeobachtern sogar bekannt sein. Betrachtet man die Technologie, die heutzutage hinter einem Voice Interface steckt, findet man zwei unterschiedliche Komponenten: Die eine ist für das Transkribieren von analoger Sprache in Text zuständig. Die andere analysiert den Text und reagiert entsprechend darauf. Dieser Teil wird durch Natural Language Processing und weitere Technologien der Künstlichen Intelligenz (KI) realisiert. Beide Komponenten gibt es als getrennte Technologien schon sehr lange:

1) Transkribieren

Transkribieren bedeutet einfach ausgedrückt, die Umwandlung von gesprochenem Text oder auch Gebärdensprache in eine schriftliche Form. Entsprechende Software gibt es bereits seit 1982. Seinerzeit hatte die Firma Dragon Systems dafür eine Software auf den Markt gebracht. Diese wurde für das damalige DOS(x86) entwickelt, hieß „DragonDictate“ und war eher rudimentär. Kontinuierlich zu transkribieren war damit nicht möglich. 15 Jahre später brachte dieselbe Firma „Dragon NaturallySpeaking 1.0“ auf den Markt. Die Software verstand natürliche Sprache bereits so gut, dass sie hauptsächlich für Diktate am Computer genutzt wurde. Allerdings mussten die damaligen Systeme stark auf die eigene Stimme trainiert oder das verwendete Vokabular begrenzt werden, um die Erkennungsgenauigkeit zu verbessern. Daher gab es bereits entsprechend vorgefertigte Sprachpakete für beispielsweise Anwälte oder Mediziner, deren Sprachgebrauch sehr speziell ist. Einmal optimiert, lieferten diese frühen System erstaunlich gute Resultate. Darüber hinaus bestand aber auch bereits die Möglichkeit, via Dragon ein Windows-System mit Sprachbefehlen zu steuern.

2) Natural Language Processing

Nachdem die Sprache transkribiert wurde, kann der Text weiterverarbeitet werden. Bei der Überlegung was für eine Technologie einen Text, der ansatzweise natürlich-sprachlich klingt, als Eingabe zulässt und darauf sinnvoll reagieren kann, kommt man schnell auf die sogenannten Chatbots. Diese sind eine Unterklasse autonomer Programme namens Bots, die bestimmte Aufgaben selbstständig erledigen. Chatbots simulieren Gesprächspartner, die oftmals themenbezogen agieren. Auch wenn sich diese erst in den letzten Jahren steigender Beliebtheit erfreuen, muss man auch hier eher von einer Renaissance sprechen; der erster Chatbot erblickte bereits vor 52 Jahren das Licht der Welt. Der Informatiker Joseph Weizenbaum entwickelte „ELIZA“, die heute als Prototyp der modernen Chatbots gilt und die Verarbeitung natürlicher Sprache erfolgreich demonstrieren sollte.

3) Künstliche Intelligenz

Die Entwicklung von ELIZA machte deutlich, dass einfache Mittel ausreichen, um beim Turing-Test für Künstliche Intelligenz (KI), bei dem es um die subjektive Bewertung eines Gesprächs geht, gute Ergebnisse zu erzielen. Probanden haben, trotz der simplen Mechanismen des Bots, angefangen eine persönliche Bindung aufzubauen, um dann sogar über private Dinge zu schreiben. Die Erfahrungen mit diesem ersten Conversational Interface sorgten für viel Aufmerksamkeit und kontinuierlich verbesserte Chatbot-Technologien.

So wurde 1981 beispielsweise BITNET (Because It’s There NETwork) ins Leben gerufen, ein Netzwerk, das die Forschungs- und Lehreinrichtungen der USA miteinander verband. Eine Komponente dieses Netzwerks war Bitnet Relay, ein Chatclient, aus dem später der Internet Relay Chat (IRC) wurde. Für diese Chat-Systeme, so auch für ICQ wurden im Laufe der Zeit von Studenten und Nerds unzählige, mehr oder weniger einfache, Chatbots entwickelt. Diese basierten, wie auch ELIZA, auf der einfachen Erkennung von Sätzen und nicht auf der Auswertung von Wissen.

2003 begann eine weitere wichtige Entwicklung, die auf eine neue Klasse von Chatbots einzahlt, nämlich auf die Smart Assistants wie beispielsweise Siri. CALO, der „Cognitive Assistant that Learns and Organizes“, war eine von der Defense Advanced Research Projects Agency ins Leben gerufene Entwicklung, an der sich viele amerikanische Universitäten beteiligten. Das System sollte dem Nutzer dabei helfen, effektiver mit Informationen umzugehen und ihm zu assistieren, indem es permanent seine Fähigkeit verbessern, die Wünsche des Nutzers richtig zu interpretieren. Basis dafür ist die digitale Wissensrepräsentation. Damit ist gemeint, wie Wissen in einem digitalen System festgehalten und nutzbar gemacht werden kann. Durch semantische Netze können Objekte und deren Fähigkeiten in Relation zu anderen Objekten abgebildet werden, die es dem Smart Assistant ermöglichen, Verständnis dafür zu entwickeln, was ein Nutzer mit einer bestimmten Äußerung ausdrücken möchte. Möchte beispielsweise ein Kunde einen „trockenen Wein“ über seinen Smart Assistant bestellen, so muss dieser kontextabhängig die Verbindung zwischen den Begriffen „trocken“ und „Wein“ kennen. Nur so versteht er, dass es sich hier um eine Geschmacksnuance handelt und nicht um die Abwesenheit von Flüssigkeit.

Die Learnings

Das einfache Erkennen und Vergleichen von Texten, auch Matching genannt, und die intelligente Analyse mittels Wissensrepräsentation sind zwei unterschiedliche Technologien, die sich unabhängig voneinander weiterentwickelt haben. Mit Hilfe des Matching-Ansatzes, lassen sich die meisten Anwendungsfälle mit überschaubaren Mitteln umsetzen. Für komplexere Anfragen eignet sich jedoch ein Smart Assistant deutlich besser. Allerdings ist diese Technologie in der Entwicklung und Umsetzung wiederum aufwendiger, da sie eine breite Wissensbasis benötigt.

Aktuell trifft man daher meist auf Chatbots, die auf der Matching-Technologie basieren und mit Hilfe von Machine Learning (ML) trainiert werden können. Bei dieser Methode werden dem System möglichst viele Textvarianten zu einer bestimmten Aussage übergeben, die es lernt, um in der späteren Anwendung auch Sätze zu erkennen, die Ähnlichkeit zu dem Gesagten haben, ohne über spezielles Wissen verfügen zu müssen.

Heutzutage können wir zwischen zwei Technologien wählen, die bei einem Conversational Interface zum Einsatz kommen können. Je nach Anforderungen muss man sich die Frage stellen, ob ein System, das Gesagtes mit gelernten Satzstrukturen vergleicht, genügt oder wird ein System benötigt, das versucht den Sinn des Gesagten zu verstehen und entsprechend darauf reagiert?

Dieser Artikel erschien zuerst bei Adzine. und ist der zweite Beitrag einer mehrteiligen Serie über Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Das Magazin Forbes hat das Jahr 2017 zum „Jahr der Sprachsuche“ erklärt, denn 43 Prozent der Erwachsenen, die in den USA online sind, verwenden inzwischen einen digitalen Assistenten, und 97 Prozent sagen heute, dass sie allgemeine Informationen gern von solchen digitalen Assistenten abrufen. Laut Techcrunch war der Echo Dot in der Phase zwischen Halloween über Weihnachten bis in die ersten Wochen 2018 das meistverkaufte Produkt bei Amazon. Das ist ein gewichtiger Grund dafür, dass 60 Prozent der Bevölkerung laut Mindmeld im vergangenen Jahr angefangen haben, die Sprachsuche zu nutzen. Aus diesen Statistiken geht ganz klar hervor, dass die 100 Milliarden Dollar schwere Branche globaler Suchmaschinen sich darauf vorbereitet, in eine neue Richtung auszuschlagen. Welche Auswirkungen hat die Sprachtechnologie oder „Voice Tech“ auf die Marketingstrategie Ihrer Marke? Hier lesen Sie, was Sie wissen müssen.

Was ist der Unterschied zwischen Sprachtechnologie und Sprachsuche?

  • Sprachtechnologie ist ein übergeordneter Sammelbegriff für alle sprachfähigen Systeme wie Telefone, iPhones, Siri, Cortana, Umwandlung von Sprache in Text usw. Die Sprachsuche ist ein Produkt von Google, mit dessen Hilfe Anwender die Google-Suche verwenden können, indem sie mit einem Handy, Computer oder einem verbundenen Heimgerät (Google Home, Amazon Echo usw.) sprechen.
  • Der Hauptvorteil von Sprachtechnologie ist, dass wir Informationen erhalten können, wenn wir mit den Händen oder Augen anderweitig beschäftigt sind. Außerdem kann der Mensch schneller sprechen als tippen.

Wie lange gibt es das schon?

Spracherkennung reicht tatsächlich zurück bis ins Jahr 1877, als Thomas Edison den Phonographen erfand, aber seitdem hat sich eine Menge getan.

Meilensteine

  •  4. Oktober 2011: Apple stellt Siri vor, eine persönliche digitale Assistentin. Siri kann nicht nur Sprache erkennen, sondern auch die Bedeutung dessen verstehen, was man ihr sagt und entsprechend reagieren.
  • 2. April 2014: Microsoft stellt Cortana vor, eine persönliche digitale Assistentin wie Siri.
  • 6. November 2014: Amazon stellt Echo vor, einen sprachgesteuerten Lautsprecher. Der Echo funktioniert mit Alexa, einer persönlichen digitalen Assistentin wie Siri und Cortana. Während Siri und Cortana jedoch nicht die wichtigsten Funktionen auf den Geräten darstellen, auf denen sie ausgeführt werden, ist der Echo ganz Alexa gewidmet.

Eine kolossale Verschiebung in der Nutzung von Sprache hat bereits eingesetzt. ComScore gibt an, dass 40 Prozent der erwachsenen US-Bürger im Jahr 2017 die Sprachsuche genutzt haben und prognostiziert, dass bis 2020 mehr als 50 Prozent aller Suchen sprachbasiert erfolgen werden. Der Trend geht exponentiell weiter.

Wie wird die Sprachsuche aktuell genutzt?

  1. Google liefert eine einzelne direkte Antwort auf Suchanfragen, da eine herkömmliche Suchergebnisseite nicht besonders hilfreich wäre. Eine laut vorgelesene Antwort sorgt vielmehr für unmittelbare Befriedigung und eine deutlich bessere Nutzererfahrung. Deshalb hat Google die Antwortbox entwickelt.
  2. Die Antwortbox von Google wird durch den „Knowledge Graph“ und die Fähigkeiten für maschinelles Lernen von Google angetrieben. Auf diese Weise erlangt Google ein Verständnis dessen, was der Nutzer beabsichtigt und kann die beste Antwort darauf geben.
    • Die Antwortbox von Google ist die EINZIGE Antwort auf Sprachsuchanfragen. Es ist das Ergebnis, das über allen anderen Antworten der Suchergebnisseite, also mit der „Platzierung Null“ angezeigt wird.
    • Wenn Sie die Antwortbox gewinnen, wird Ihr Ergebnis dem Nutzer vorgelesen, der die Sprachsuche ausgeführt hat.
    • Es basiert NICHT auf Branchen- oder Kategorierelevanz, sondern auf einer Vielzahl von Auslösern, den Keyword-Triggern.
    • Die Erstellung einer Content-Marketing-Strategie auf Grundlage gemeinsamer Trigger für Kunden trägt zur Steigerung Ihrer Chancen bei, über die Antwortbox die organische Spitzenplatzierung zu gewinnen – angetrieben durch eine Suchanfrage oder eine Sprachsuche.

Zur Vorbereitung

Starten Sie mit den Grundlagen: Sprachsuchanfragen sind anders als Textsuchanfragen

Der erste Schritt für jede Marke ist eine umfassende Analyse, um zu verstehen, wie Kunden nach den Produkten suchen. Anders als die Suche nach Keywords, die man in den Computer eingibt, verläuft eine Sprachsuche eher in Gesprächsform, in natürlichem Ton und oft auf die lokalen Gegebenheiten konzentriert.

  • Wo kann ich … kaufen?
  • Welches ist das beste …?

Was dahinter steckt und zugleich eine Chance darstellt, ist die Verschiebung in der Suchmaschinenoptimierung von der Konzentration auf Keywords hin zur Optimierung von Themen.

  • Mit Themen lässt sich besser auf die wahren Bedürfnisse von Nutzern und die gewaltige Bandbreite ihrer Suchformate eingehen.
  • Schaffen Sie eine Verschiebung von den Suchen per Einzel-Keywords (Shorthead) über detailliertere, aneinandergereihte Keywords (Longtail) hin zur natürlichen Sprache.
  • Straffen Sie Ihre Markenbeschreibung: Antwortboxen enthalten zwischen drei und fünf Wörtern.

Machen Sie sich bereit für eine Welt bezahlter Werbeanzeigen in Sprachsuchanfragen

Da weder Google noch Amazon (derzeit) Werbeschaltungen bei der Sprachsuche zulassen, wird hier höchstwahrscheinlich sogar innerhalb des nächsten Jahres eine Veränderung stattfinden. Werden Sie heute aktiv und:

  • Brainstormen Sie neue zielgerichtete Keywords. Widmen Sie sich eingehend Ihrer Keyword-Strategie. Wie viele Ihrer Targets sind Head-Keywords, wie viele sind Longtail-Keywords, und wie viele sind allgemein thematisierende Targets?
  • Machen Sie sich einen Namen (Tempo vs. Taschentücher). Schlagen Sie nicht jede Schlacht. Der Kampf um Top-Platzierungen auf einer Handvoll wesentlicher Suchergebnisseiten ist sicher lohnender, und Sie können sich das Gerangel um Keywords, die Ihnen nicht so viel bedeuten, sparen.
  • Bedenken Sie das nahe Umfeld. Wenn Sie bisher noch nicht in lokale Suchmaschinenoptimierung investiert haben, sollten Sie jetzt damit anfangen. Dieser Bereich verdient vielleicht den größten Fokus, da Suche nach Dingen „in meiner Nähe“ für dieses Medium zur Norm geworden sind.
  • Überdenken Sie Ihren Werbemix. Falls Sie PPC-Werbeanzeigen nutzen, müssen Sie Ihre Herangehensweise womöglich überdenken: bald schon ist die Interaktion von Verbrauchern damit ganz anders, und es kann sein, dass Sie Ihre zielgruppengesteuerte Werbung in ein anderes Format überführen müssen.

Die nächsten Schritte

Wir als Marketingprofis müssen voraussehen, wie Daten, die aus Sprachsuchen erfasst werden, andere Medienentscheidungen beeinflussen können. Wenn sich die Sprachsuche über die Plattformen persönlicher Assistenten hinaus entwickelt, erfassen DMP auch Daten von Geräten wie Kühlschränken, Autos, Uhren usw. Insbesondere in abgeschlossenen Umgebungen wie Google oder Amazon bietet sich die Gelegenheit, neu auf Verbraucher abzuzielen. Will sagen: wir können vielleicht heute noch keine Suchwerbung laufen lassen, aber wir können Amazon/Google dazu nutzen, im GDN/auf YouTube und anderen Medien zu segmentieren und neue Targets zu formulieren.

Noch wissen wir nicht genau, wie sich die Revolution durch die Sprachsuche genau gestaltet, daher zahlt sich eine gewisse Flexibilität aus, wenn die Änderungen dann eintreten. Die beste Vorbereitung auf die Zukunft ist letztendlich: stellen Sie sicher, dass Ihre Marke die herkömmlichen Standards im Marketing erfüllt – klare Vorteile, eindeutige Markenbotschaft, ein prägnanter Call-to-Action sowie die Fähigkeit, von Kunden geliebt und mit anderen geteilt zu werden.