Bis zum Release von Amazons Echo aka Alexa haben die Big Player mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Mittlerweile gibt es zahlreiche weitere Varianten, doch welche sind die bekanntesten und welches Voice Interface ist das geeignetste?
Heutige Voice Interfaces sind eine Kombination zweier Komponenten, nämlich der Transkribierung und des Natural Language Processing (NLP). Ein gesprochener Satz wird in einen Text transkribiert. Dieser wird auf Basis von Künstlicher Intelligenz analysiert, darauf basierend eine Reaktion erzeugt und diese über eine Sprachsynthese wieder in analoge Sprache umgewandelt und ausgespielt (siehe auch Teil 1).
Unterschiedliche Klassifizierung
Zu differenzieren sind Conversational Interfaces ohne und mit sogenannten Wissensdomänen. Hierbei handelt es sich um digitale Strukturen, die Wissen rund um einen Themenbereich abbilden.
1) Conversational Interfaces mit Wissensdomäne
Bei Conversational Interfaces mit Wissensdomänen geht es nicht nur um die Analyse von Satzteilen, sondern darum, den tatsächlichen Sinn hinter einem Satz zu verstehen. Diese Art von Interfaces werden Smart Assistants genannt. Betrachtet man den für uns Menschen einfachen Satz: „Reserviere zwei Plätze in einem Zwei-Sterne-Restaurant in Hamburg!“ ist uns klar, um was es geht. Wir wissen, dass einem Restaurant „Sterne“ verliehen werden können, dass Hamburg eine Stadt ist und dass man in einem Restaurant Plätze reservieren kann. Ohne das Wissen in diesem Bereich ist es jedoch schwer, dem Satz einen Sinn zu entnehmen. „Zwei Sterne“ könnte genauso gut der Name eines bestimmten Restaurants sein. Was zwei Plätze sind und wie man sie reservieren kann, ist dann völlig unklar. Das überhaupt ein Restaurant mit bestimmten Eigenschaften in Hamburg gesucht werden soll, ist dann unklar. Smart Assistants sollen aber genau diese Dinge verstehen können und benötigen deshalb ein spezielles Grundwissen in den entsprechenden Domänen wie Gastronomie, Events, Wetter, oder Reisen.
2) Conversational Interfaces ohne Wissensdomäne
Conversational Interfaces ohne Domänenwissen haben diesen Anspruch nicht – so beispielsweise Alexa. Hier ist der Ansatz ein anderer. Für einen möglichen Dialog werden bei der Implementierung Satzstrukturen vorgegeben, in denen variable Teile, sogenannte Slots, definiert werden können. Der gesprochene Satz wird dann analysiert und einer Satzstruktur zugeordnet. Anschließend wird derjenigen Komponente, die die Reaktion auf das Gesagte generiert, mitgeteilt, welche Satzstruktur mit welchen variablen Teilen erkannt wurde. Dass dabei kein Grundwissen benötigt wird, verdeutlicht folgender Satz: „Ich möchte ein rotes Hemd kaufen“. An dieser Stelle braucht das System kein Wissen über Kleidung oder Farben, denn es gleicht lediglich ab, wie bestimmte Sätze bezogen auf den Kauf eines Hemdes aussehen können. Dazu wird im Model des Dialogs für das Interface festgelegt, dass es eine Satzstruktur mit einer ID gibt, die beispielsweise „hemdkauf“ heißt. Weiter wird festgelegt, dass die Satzstruktur folgende Ausprägungen haben darf: „Ich möchte ein <farbe> Hemd kaufen“, „Ich möchte ein Hemd in der Farbe <farbe> kaufen“ und “Ich möchte ein Hemd kaufen und zwar in <farbe>“. Dadurch wird ebenfalls definiert, dass es einen variablen Satzteil (Slot) mit dem Namen „farbe“ gibt. Für diesen Slot werden die gewünschten Möglichkeiten angegeben, z.B. „rot“, “grün“ und „gelb“. Wird vom Nutzer nun oben genannter Satz gesagt, ergibt die Analyse, dass es sich um die Satzstruktur „hemdkauf“ mit dem Wert „rot“ für den Slot „farbe“ handelt. In entsprechend strukturierter Form kann ein Backendsystem mit diesen Angaben schon etwas anfangen.
Die aktuellen Hauptakteure
Bis zum Release von Amazons Echo aka Alexa, haben viele IT-Firmen mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Siri ist zwar mit einem Paukenschlag ans Licht der Öffentlichkeit getreten, wurde aber eher als hilfreiches Tool und nicht als eine völlig neue Klasse von Interfaces wahrgenommen. Die Vorteile von „hands free“ bei mobilen Geräten war aber nicht von der Hand zu weisen und so arbeitet nun jeder Big Player an seiner eigenen Sprachlösung. Hier eine kurze Vorstellung der aktuellen Hauptakteure:
Amazon‘s Alexa
Schaut man sich die Produktpalette von Amazon an, wird klar, dass Alexa eine konsequente Weiterentwicklung vorhandener Technologien ist. So waren schon die Fire Tablets (ab 2013), das Fire Phone (2014) und die ersten Fire TVs (2014) mit einer Sprachsteuerung ausgestattet. Die Technologie von Alexa als „Voice Interface as a Service“, oder auch der „Alexa Voice Service“, ist jedoch kein Smart Assistent. Hier werden im Hintergrund lediglich Sätze verglichen, statt den Sinn von Sätzen zu analysieren. Bei komplexeren Anfragen steigt Alexa schnell aus. Grund dafür ist, dass es nur sehr oberflächliche Wissensdomänen gibt, die dem Entwickler zudem nicht offenstehen. Auch die Anfragen, die man einem Echo gegenüber äußern kann, müssen sehr knapp und wenig komplex formuliert sein. So können Filme beispielsweise über den Namen von Schauspielern gesucht werden oder Restaurants nach der Angabe des Umkreises. Viel tiefer geht es hier schon nicht mehr.
Google Assistant
Google Now war ursprünglich ein Bestandteil von der Google Search und bezog sich rein auf die Suche im Web. Später wurde es ausgegliedert, um Domänenwissen erweitert und damit konkurrenzfähig gegenüber Assistenten wie Apple’s Siri oder Samsung‘s S Voice gemacht. Im letzten Jahr wurde Google Now dann durch den Google Assistent ersetzt. Wie stark die unterschiedlichen Wissensdomänen beim Google Assistent indessen verzahnt sind, wurde mit dem Produkt „Google Duplex“ eindrucksvoll auf der Entwicklerkonferenz von Google veranschaulicht. Google Duplex als Bestandteil des Assistenten kann mit realen Personen telefonieren und Termine für beispielsweise den Frisör machen oder einen Tisch reservieren. Dabei greift der Assistent nicht nur auf den Terminkalender zu, sondern muss auch über entsprechendes Domänenwissen verfügen.
Apple‘s Siri
Die Geschichte von Siri ist eine etwas andere. Der Smart Assistent wurde von der Firma Siri Inc. entwickelt und verfolgte von Anfang an den Ansatz, Sprache mittels Domänenwissen zu analysieren. Siri Inc. ist ein Spin-Off des Stanford Research Institutes (SRI). Vor 15 Jahren arbeitete SRI gemeinsam mit Institutionen an dem Projekt „CALO“ (Cognitive Assistant that Learns and Organizes), von dem viel Erfahrung in die Entwicklung Siris eingeflossen ist. 2010 wurde Siri im Appstore veröffentlicht und Siri Inc. prompt von Apple aufgekauft. Ein Jahr später verkündete Apple dann offiziell, dass Siri nun ein fester Bestandteil von iOS sei. Seitdem wurde es auf allen Plattformen ausgerollt. Zuletzt wurde mit dem HomePod ein smarter Lautsprecher herausgebracht, der mit dem Konkurrenzprodukt Echo von Amazon vergleichbar ist und auf den gegenwärtigen Trend der Voice Interfaces einzahlt.
Microsoft’s Cortana
Microsofts Cortana wurde der Öffentlichkeit 2014 das erste Mal auf einer Konferenz präsentiert. Ebenfalls als Smart Assistent ausgelegt, verfügt Cortana über interessante Adaptionen aus der Realität. Die sehen wie folgt aus: Ein realer Assistent macht sich meist Notizen über seinen Vorgesetzten oder Auftraggeber, um die Person besser kennenzulernen und sich ihre Gewohnheiten zu merken. Cortana nutzt dafür ein virtuelles Notebook. So fragt Cortana bereits bei der erstmaligen Nutzung einige Vorlieben ab, um schon früh personalisierte Antworten geben zu können. Diese Funktionalität kann je nach Bedarf auch ausgestellt werden. Das Herzstück von Cortana ist Bing; besser gesagt, sind es Services, die auf Bing basieren und erlauben, der Suchmaschine umgangssprachliche Anfragen zu stellen.
Samsung’s Viv
Auch Samsung versucht schon seit geraumer Zeit eine intelligente Software für ihre Geräte zu etablieren, die natürlich auch ein Sprachinterface bieten soll. Dazu kaufte Samsung 2016 kurzerhand das Unternehmen der Siri Urväter „Viv Labs“ auf. Viv Labs setzten mit ihrem System voll und ganz auf Domänenwissen. Anders als bei den Mitbewerbern soll es bei Viv jedoch möglich sein, die Wissensbasis von externen Entwicklern um neue Domänen erweitern zu lassen. Dadurch soll das System intelligenter werden und immer mehr verstehen können. Dazu stellt man sich beispielsweise eine Whisky-Manufaktur vor. Die Viv wird nun von Experten um die Wissensdomäne Whisky und die eigenen Produkte erweitert. Zusätzlich teilt eine Manufaktur ihr gesamtes Wissen über Holzfässer und deren Herstellung. Im Domänenwissen der Viv befindet sich nun wertvolle Expertise darüber, welche Holzfässer für den Geschmack bestimmter Alkoholsorten verantwortlich sind. So zum Beispiel, dass Eichenfässer für Whisky mit vanilligem Geschmack sorgen. Frage ich nun Viv, woher die Vanillenote eines bestimmten Whiskys von besagter Manufaktur kommt, kann mir die Viv antworten, dass der Geschmack höchstwahrscheinlich von der Lagerung in Eichenfässern herrührt. Viv hat dabei beide Domänen zusammengeführt.
IBM’s Watson
IBM Watson sei hier erwähnt, um mit Missverständnissen aufzuräumen. Es gibt keine „Künstliche Intelligenz Watson“, die alles versteht und kontinuierlich Wissen anhäuft. Watson ist eine Sammlung von verschiedenen Tools Künstlicher Intelligenz unter einem gemeinsamen Konzept, mit denen unterschiedlichste Projekte realisiert werden können. So gibt es beispielweise auch Projekte, die dazu dienen, eine große Wissensbasis aufzubauen. Allerdings sollte man sich nicht der Illusion hingeben, dass einem das eigene Watson-Projekt Zugriff auf dieses Wissen beschert. Wer ein Projekt mit Watson implementieren möchte, muss seine eigene Datenbasis mitbringen – so wie bei jedem anderen Maschine Learning Toolkit auch. Watson selbst stellt unter anderem Tools zum Transkribieren (The IBM® Speech to Text Service) und zur Textanalyse (Natural Language Understanding Service) zur Verfügung. Wer gemeinsam mit Watson ein Projekt realisieren möchte, baut bei der Implementierung von Voice Interfaces auf diesen zwei Tools auf.
Von der Analyse des Problems zum passenden Voice Interface
Natürlich gibt es viele weitere Lösungen, die teils sehr spezialisiert sind, teils aber auch die Restriktionen der Big Player aufbrechen möchten, um mehr Entwicklungsmöglichkeiten zu bieten. Es stellt sich nun natürlich die Frage: Wozu all die verschiedenen Voice Interfaces? Wie bei vielen anderen komplexen Problemstellungen auch, gibt es hier nicht die eine allgemeingültige Lösung. Es gibt kein „gutes“ oder „schlechtes“ Interface. Es gibt nur „richtige“ oder „falsche“ Anwendungsgebiete für die unterschiedlichen Technologien. Alexa taugt wenig für komplexe Satzstrukturen, eignet sich aber hervorragend für schnelle Umsetzungen und ist bereits weit verbreitet. Hingegen hat sich Viv noch nicht durchsetzen können, hat aber das Potenzial, beliebig komplexe Sätze verstehen zu können.
Für die Auswahl des passenden Voice Interfaces zählen also bestimmte Kriterien, wie der Anwendungsfall, der Fokus, die Problemstellung, die Bedürfnisse der Zielgruppe oder wie offen ein Interface für die Integration in eigene Projekte ist.
Dieser Artikel erschien zuerst bei Adzine und ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:
Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“