Beiträge

Künstliche Intelligenz hat viele Facetten. Neben autonomem Fahren, Mediaplanung und anderen Anwendungsfeldern ist sie auch im Kontext von Voice ein wichtiger Innovationstreiber. Doch kann Voice überhaupt einen echten Mehrwert bieten und wenn ja, für wen?

Auch fünf Jahre nachdem Amazon sein erstes Echo-Gerät veröffentlicht hat, steht die Technologie Voice noch am Anfang. Die Flut neuer Geräte sowohl von Amazon, als auch von Google und die ständige Veröffentlichung neuer Funktionen und Verbesserungen zeigen, dass es noch viel zu tun gibt, bis Voice sein volles Potenzial entfaltet. Nichtsdestotrotz kann es auch jetzt schon in vielen Bereichen das Leben erleichtern, oder zumindest bequemer machen. Es ist zum Beispiel selbst für die Oma kein Hexenwerk mehr, über Sprache das Licht ein- und auszuschalten, die Heizung zu steuern, nach dem Wetter zu fragen oder die richtige Antwort auf eine Trivial Pursuit-Frage zu erhalten. Und in bestimmten Situationen macht Voice sogar mehr Sinn, zum Beispiel im Auto (zumindest solange wir es noch selbst fahren müssen), auf dem Fahrrad, für Menschen mit Behinderungen oder ältere Menschen, die sich mit anderen Schnittstellen nicht wohl fühlen. Voice ist leicht verständlich und aufgrund seiner Natürlichkeit für jeden gut zugänglich.

Voice kann die Persönlichkeit einer Marke erweitern

Marken kommunizieren mit ihren Kunden hauptsächlich über Kombinationen aus Texten und Bildern. Und natürlich ist jede Marke hier sehr individuell was Tonalität und Bildwelten angeht. Aber ein „echter“ Dialog konnte bis jetzt eigentlich nur mit Stellvertretern oder Markenbotschaftern stattfinden. Durch Voice ändert sich die Situation. Unternehmen müssen sich genau überlegen, wie sie sich als Marke nach außen darstellen, welche Antworten sie wie liefern wollen und können – und das möglichst authentisch.

Man sollte Voice also immer als eine Möglichkeit betrachten, die Persönlichkeit einer Marke zu erweitern und zu schärfen. Dabei hilft es, mit verschiedenen Ansätzen, Inhaltsformaten und Angeboten zu experimentieren, um die „Stimme“ Ihrer Marke zu finden.

In den letzten Jahren haben wir im Plan.Net Innovation Studio mit Kunden aus verschiedenen Bereichen zusammengearbeitet, um sie bei ihren ersten Schritten im Bereich Voice zu begleiten. Diese Branchen reichen von Finanzen bis Automotive, vom Einzelhandel bis zur Reisebranche und vieles mehr.

Die erste Frage, die man sich bei solchen Projekten stellen sollte ist: Welche Rolle soll meine Marke im Markt eigentlich einnehmen? Will ich einfach nur meine Produkte und Services bewerben, oder versuchen einen gesamten Themenbereich zu besetzen? Will ich nur informieren, oder meinen Kunden direkt die Möglichkeit geben etwas zu kaufen?

In jedem Fall sollte man Mehrwerte liefern, reine Selbstdarstellung kann man sich sparen.

Voice ist aus dem Berufsalltag nicht mehr wegzudenken

Voice ist hier, um zu bleiben. Wie das Internet wird es nicht wieder verschwinden. Deshalb ist es fundamental wichtig, dass man in allen Fachbereichen hinterfragt, inwieweit dieses Thema von Relevanz ist.

Nehmen wir zum Beispiel das Thema Search: Im Web ist es so, dass die ersten drei bis vier Suchergebnisse zu einem Keyword den Großteil der Nutzer abholen. Bei Voice ist eigentlich nur noch das erste Ergebnis relevant. Das führt zu einem noch größeren Wettbewerb und viele Anfragen beantworten die Plattformen mittlerweile komplett autark. Die eigenen Inhalte zu platzieren wird also immer schwieriger, zusätzlich sind die Plattformen noch sehr vorsichtig, was den Einsatz von Werbung angeht. Sie haben – zurecht – Angst, das Vertrauen der Nutzer zu verspielen. Aktuell gibt es daher eine Renaissance der Audio-Spots, die Audio-Streaming-Anbieter beispielsweise als Pre-Roll-Ads vor ihre Inhalte schalten. Ein gelernter Mechanismus, den YouTube seit Jahren verwendet.

Vor diesem Hintergrund ist es besonders wichtig, dass sich die Kollegen und Mitarbeiter gezielt mit Voice auseinandersetzen, dafür die notwendigen Freiräume eingeräumt bekommen und mit der Thematik experimentieren. Da es momentan noch relativ wenige Voice-Experten gibt, bietet dies für interessierte Kollegen die Möglichkeit, sich in dem Bereich fortzubilden und somit für das Unternehmen in einem innovativen Bereich einen Mehrwert zu generieren.

Dieser Artikel erschien zuerst bei Lead-digital.de.

Bis zum Release von Amazons Echo aka Alexa haben die Big Player mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Mittlerweile gibt es zahlreiche weitere Varianten, doch welche sind die bekanntesten und welches Voice Interface ist das geeignetste?

Heutige Voice Interfaces sind eine Kombination zweier Komponenten, nämlich der Transkribierung und des Natural Language Processing (NLP). Ein gesprochener Satz wird in einen Text transkribiert. Dieser wird auf Basis von Künstlicher Intelligenz analysiert, darauf basierend eine Reaktion erzeugt und diese über eine Sprachsynthese wieder in analoge Sprache umgewandelt und ausgespielt (siehe auch Teil 1).

Unterschiedliche Klassifizierung

Zu differenzieren sind Conversational Interfaces ohne und mit sogenannten Wissensdomänen. Hierbei handelt es sich um digitale Strukturen, die Wissen rund um einen Themenbereich abbilden.

1) Conversational Interfaces mit Wissensdomäne 

Bei Conversational Interfaces mit Wissensdomänen geht es nicht nur um die Analyse von Satzteilen, sondern darum, den tatsächlichen Sinn hinter einem Satz zu verstehen. Diese Art von Interfaces werden Smart Assistants genannt. Betrachtet man den für uns Menschen einfachen Satz: „Reserviere zwei Plätze in einem Zwei-Sterne-Restaurant in Hamburg!“ ist uns klar, um was es geht. Wir wissen, dass einem Restaurant „Sterne“ verliehen werden können, dass Hamburg eine Stadt ist und dass man in einem Restaurant Plätze reservieren kann. Ohne das Wissen in diesem Bereich ist es jedoch schwer, dem Satz einen Sinn zu entnehmen. „Zwei Sterne“ könnte genauso gut der Name eines bestimmten Restaurants sein. Was zwei Plätze sind und wie man sie reservieren kann, ist dann völlig unklar. Das überhaupt ein Restaurant mit bestimmten Eigenschaften in Hamburg gesucht werden soll, ist dann unklar. Smart Assistants sollen aber genau diese Dinge verstehen können und benötigen deshalb ein spezielles Grundwissen in den entsprechenden Domänen wie Gastronomie, Events, Wetter, oder Reisen.

2) Conversational Interfaces ohne Wissensdomäne

Conversational Interfaces ohne Domänenwissen haben diesen Anspruch nicht – so beispielsweise Alexa. Hier ist der Ansatz ein anderer. Für einen möglichen Dialog werden bei der Implementierung Satzstrukturen vorgegeben, in denen variable Teile, sogenannte Slots, definiert werden können. Der gesprochene Satz wird dann analysiert und einer Satzstruktur zugeordnet. Anschließend wird derjenigen Komponente, die die Reaktion auf das Gesagte generiert, mitgeteilt, welche Satzstruktur mit welchen variablen Teilen erkannt wurde. Dass dabei kein Grundwissen benötigt wird, verdeutlicht folgender Satz: „Ich möchte ein rotes Hemd kaufen“. An dieser Stelle braucht das System kein Wissen über Kleidung oder Farben, denn es gleicht lediglich ab, wie bestimmte Sätze bezogen auf den Kauf eines Hemdes aussehen können. Dazu wird im Model des Dialogs für das Interface festgelegt, dass es eine Satzstruktur mit einer ID gibt, die beispielsweise „hemdkauf“ heißt. Weiter wird festgelegt, dass die Satzstruktur folgende Ausprägungen haben darf: „Ich möchte ein <farbe> Hemd kaufen“, „Ich möchte ein Hemd in der Farbe <farbe> kaufen“ und “Ich möchte ein Hemd kaufen und zwar in <farbe>“. Dadurch wird ebenfalls definiert, dass es einen variablen Satzteil (Slot) mit dem Namen „farbe“ gibt. Für diesen Slot werden die gewünschten Möglichkeiten angegeben, z.B. „rot“, “grün“ und „gelb“. Wird vom Nutzer nun oben genannter Satz gesagt, ergibt die Analyse, dass es sich um die Satzstruktur „hemdkauf“ mit dem Wert „rot“ für den Slot „farbe“ handelt. In entsprechend strukturierter Form kann ein Backendsystem mit diesen Angaben schon etwas anfangen.

Die aktuellen Hauptakteure

Bis zum Release von Amazons Echo aka Alexa, haben viele IT-Firmen mit wenig Beachtung an ihren Voice-Technologien gearbeitet. Siri ist zwar mit einem Paukenschlag ans Licht der Öffentlichkeit getreten, wurde aber eher als hilfreiches Tool und nicht als eine völlig neue Klasse von Interfaces wahrgenommen. Die Vorteile von „hands free“ bei mobilen Geräten war aber nicht von der Hand zu weisen und so arbeitet nun jeder Big Player an seiner eigenen Sprachlösung. Hier eine kurze Vorstellung der aktuellen Hauptakteure:

Amazon‘s Alexa

Schaut man sich die Produktpalette von Amazon an, wird klar, dass Alexa eine konsequente Weiterentwicklung vorhandener Technologien ist. So waren schon die Fire Tablets (ab 2013), das Fire Phone (2014) und die ersten Fire TVs (2014) mit einer Sprachsteuerung ausgestattet. Die Technologie von Alexa als „Voice Interface as a Service“, oder auch der „Alexa Voice Service“, ist jedoch kein Smart Assistent. Hier werden im Hintergrund lediglich Sätze verglichen, statt den Sinn von Sätzen zu analysieren. Bei komplexeren Anfragen steigt Alexa schnell aus. Grund dafür ist, dass es nur sehr oberflächliche Wissensdomänen gibt, die dem Entwickler zudem nicht offenstehen. Auch die Anfragen, die man einem Echo gegenüber äußern kann, müssen sehr knapp und wenig komplex formuliert sein. So können Filme beispielsweise über den Namen von Schauspielern gesucht werden oder Restaurants nach der Angabe des Umkreises. Viel tiefer geht es hier schon nicht mehr.

Google Assistant

Google Now war ursprünglich ein Bestandteil von der Google Search und bezog sich rein auf die Suche im Web. Später wurde es ausgegliedert, um Domänenwissen erweitert und damit konkurrenzfähig gegenüber Assistenten wie Apple’s Siri oder Samsung‘s S Voice gemacht. Im letzten Jahr wurde Google Now dann durch den Google Assistent ersetzt. Wie stark die unterschiedlichen Wissensdomänen beim Google Assistent indessen verzahnt sind, wurde mit dem Produkt „Google Duplex“ eindrucksvoll auf der Entwicklerkonferenz von Google veranschaulicht. Google Duplex als Bestandteil des Assistenten kann mit realen Personen telefonieren und Termine für beispielsweise den Frisör machen oder einen Tisch reservieren. Dabei greift der Assistent nicht nur auf den Terminkalender zu, sondern muss auch über entsprechendes Domänenwissen verfügen.

Apple‘s Siri

Die Geschichte von Siri ist eine etwas andere. Der Smart Assistent wurde von der Firma Siri Inc. entwickelt und verfolgte von Anfang an den Ansatz, Sprache mittels Domänenwissen zu analysieren. Siri Inc. ist ein Spin-Off des Stanford Research Institutes (SRI). Vor 15 Jahren arbeitete SRI gemeinsam mit Institutionen an dem Projekt „CALO“ (Cognitive Assistant that Learns and Organizes), von dem viel Erfahrung in die Entwicklung Siris eingeflossen ist. 2010 wurde Siri im Appstore veröffentlicht und Siri Inc. prompt von Apple aufgekauft. Ein Jahr später verkündete Apple dann offiziell, dass Siri nun ein fester Bestandteil von iOS sei. Seitdem wurde es auf allen Plattformen ausgerollt. Zuletzt wurde mit dem HomePod ein smarter Lautsprecher herausgebracht, der mit dem Konkurrenzprodukt Echo von Amazon vergleichbar ist und auf den gegenwärtigen Trend der Voice Interfaces einzahlt.

Microsoft’s Cortana

Microsofts Cortana wurde der Öffentlichkeit 2014 das erste Mal auf einer Konferenz präsentiert. Ebenfalls als Smart Assistent ausgelegt, verfügt Cortana über interessante Adaptionen aus der Realität. Die sehen wie folgt aus: Ein realer Assistent macht sich meist Notizen über seinen Vorgesetzten oder Auftraggeber, um die Person besser kennenzulernen und sich ihre Gewohnheiten zu merken. Cortana nutzt dafür ein virtuelles Notebook. So fragt Cortana bereits bei der erstmaligen Nutzung einige Vorlieben ab, um schon früh personalisierte Antworten geben zu können. Diese Funktionalität kann je nach Bedarf auch ausgestellt werden. Das Herzstück von Cortana ist Bing; besser gesagt, sind es Services, die auf Bing basieren und erlauben, der Suchmaschine umgangssprachliche Anfragen zu stellen.

Samsung’s Viv

Auch Samsung versucht schon seit geraumer Zeit eine intelligente Software für ihre Geräte zu etablieren, die natürlich auch ein Sprachinterface bieten soll. Dazu kaufte Samsung 2016 kurzerhand das Unternehmen der Siri Urväter „Viv Labs“ auf. Viv Labs setzten mit ihrem System voll und ganz auf Domänenwissen. Anders als bei den Mitbewerbern soll es bei Viv jedoch möglich sein, die Wissensbasis von externen Entwicklern um neue Domänen erweitern zu lassen. Dadurch soll das System intelligenter werden und immer mehr verstehen können. Dazu stellt man sich beispielsweise eine Whisky-Manufaktur vor. Die Viv wird nun von Experten um die Wissensdomäne Whisky und die eigenen Produkte erweitert. Zusätzlich teilt eine Manufaktur ihr gesamtes Wissen über Holzfässer und deren Herstellung. Im Domänenwissen der Viv befindet sich nun wertvolle Expertise darüber, welche Holzfässer für den Geschmack bestimmter Alkoholsorten verantwortlich sind. So zum Beispiel, dass Eichenfässer für Whisky mit vanilligem Geschmack sorgen. Frage ich nun Viv, woher die Vanillenote eines bestimmten Whiskys von besagter Manufaktur kommt, kann mir die Viv antworten, dass der Geschmack höchstwahrscheinlich von der Lagerung in Eichenfässern herrührt. Viv hat dabei beide Domänen zusammengeführt.

IBM’s Watson

IBM Watson sei hier erwähnt, um mit Missverständnissen aufzuräumen. Es gibt keine „Künstliche Intelligenz Watson“, die alles versteht und kontinuierlich Wissen anhäuft. Watson ist eine Sammlung von verschiedenen Tools Künstlicher Intelligenz unter einem gemeinsamen Konzept, mit denen unterschiedlichste Projekte realisiert werden können. So gibt es beispielweise auch Projekte, die dazu dienen, eine große Wissensbasis aufzubauen. Allerdings sollte man sich nicht der Illusion hingeben, dass einem das eigene Watson-Projekt Zugriff auf dieses Wissen beschert. Wer ein Projekt mit Watson implementieren möchte, muss seine eigene Datenbasis mitbringen – so wie bei jedem anderen Maschine Learning Toolkit auch. Watson selbst stellt unter anderem Tools zum Transkribieren (The IBM® Speech to Text Service) und zur Textanalyse (Natural Language Understanding Service) zur Verfügung. Wer gemeinsam mit Watson ein Projekt realisieren möchte, baut bei der Implementierung von Voice Interfaces auf diesen zwei Tools auf.

Von der Analyse des Problems zum passenden Voice Interface

Natürlich gibt es viele weitere Lösungen, die teils sehr spezialisiert sind, teils aber auch die Restriktionen der Big Player aufbrechen möchten, um mehr Entwicklungsmöglichkeiten zu bieten. Es stellt sich nun natürlich die Frage: Wozu all die verschiedenen Voice Interfaces? Wie bei vielen anderen komplexen Problemstellungen auch, gibt es hier nicht die eine allgemeingültige Lösung. Es gibt kein „gutes“ oder „schlechtes“ Interface. Es gibt nur „richtige“ oder „falsche“ Anwendungsgebiete für die unterschiedlichen Technologien. Alexa taugt wenig für komplexe Satzstrukturen, eignet sich aber hervorragend für schnelle Umsetzungen und ist bereits weit verbreitet. Hingegen hat sich Viv noch nicht durchsetzen können, hat aber das Potenzial, beliebig komplexe Sätze verstehen zu können.

Für die Auswahl des passenden Voice Interfaces zählen also bestimmte Kriterien, wie der Anwendungsfall, der Fokus, die Problemstellung, die Bedürfnisse der Zielgruppe oder wie offen ein Interface für die Integration in eigene Projekte ist.

Dieser Artikel erschien zuerst bei Adzine und ist der erste Beitrag einer mehrteiligen Serie zum Thema Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Bis ins Jahr 2015 wurden Voice Interfaces von den meisten eher als eine nette Spielerei wahrgenommen, die auf Smartphone und Navigationssysteme beschränkt war. Doch mit Amazon Echo kam diese Technologie quasi über Nacht in die Wohnzimmer vieler Verbraucher auf der ganzen Welt. Amazon behält sich zwar die genauen Absatzzahlen vor und hat bis heute keine weiteren Details veröffentlicht, jedoch wurden laut des Nachrichtenportals Business Insider im Jahr 2015 bereits 2,4 Millionen Amazon Echos weltweit verkauft. 2016 stieg der Absatz auf 5,2 Millionen an. Dadurch entdeckte auch Apple das bis dato stiefmütterlich behandelte Siri wieder und kündigte im Juni 2017, nach sechs Jahren Stille um das Spracherkennungsprogramm, ein ganz eigenes Device dafür an: den HomePod. Auch andere Unternehmen sahen sich gezwungen, diesem Trend zu folgen, wussten jedoch wenig damit anzufangen.

Back to the roots

Dabei sind Voice- bzw. Conversational Interfaces nicht wirklich etwas Neues. Voice Interfaces sind genau betrachtet Conversational Interfaces mit einem speziellen Eingabekanal, nämlich der analogen Sprache. Die Entwicklungsetappen der vergangenen Jahrzehnte dürften vielen Marktbeobachtern sogar bekannt sein. Betrachtet man die Technologie, die heutzutage hinter einem Voice Interface steckt, findet man zwei unterschiedliche Komponenten: Die eine ist für das Transkribieren von analoger Sprache in Text zuständig. Die andere analysiert den Text und reagiert entsprechend darauf. Dieser Teil wird durch Natural Language Processing und weitere Technologien der Künstlichen Intelligenz (KI) realisiert. Beide Komponenten gibt es als getrennte Technologien schon sehr lange:

1) Transkribieren

Transkribieren bedeutet einfach ausgedrückt, die Umwandlung von gesprochenem Text oder auch Gebärdensprache in eine schriftliche Form. Entsprechende Software gibt es bereits seit 1982. Seinerzeit hatte die Firma Dragon Systems dafür eine Software auf den Markt gebracht. Diese wurde für das damalige DOS(x86) entwickelt, hieß „DragonDictate“ und war eher rudimentär. Kontinuierlich zu transkribieren war damit nicht möglich. 15 Jahre später brachte dieselbe Firma „Dragon NaturallySpeaking 1.0“ auf den Markt. Die Software verstand natürliche Sprache bereits so gut, dass sie hauptsächlich für Diktate am Computer genutzt wurde. Allerdings mussten die damaligen Systeme stark auf die eigene Stimme trainiert oder das verwendete Vokabular begrenzt werden, um die Erkennungsgenauigkeit zu verbessern. Daher gab es bereits entsprechend vorgefertigte Sprachpakete für beispielsweise Anwälte oder Mediziner, deren Sprachgebrauch sehr speziell ist. Einmal optimiert, lieferten diese frühen System erstaunlich gute Resultate. Darüber hinaus bestand aber auch bereits die Möglichkeit, via Dragon ein Windows-System mit Sprachbefehlen zu steuern.

2) Natural Language Processing

Nachdem die Sprache transkribiert wurde, kann der Text weiterverarbeitet werden. Bei der Überlegung was für eine Technologie einen Text, der ansatzweise natürlich-sprachlich klingt, als Eingabe zulässt und darauf sinnvoll reagieren kann, kommt man schnell auf die sogenannten Chatbots. Diese sind eine Unterklasse autonomer Programme namens Bots, die bestimmte Aufgaben selbstständig erledigen. Chatbots simulieren Gesprächspartner, die oftmals themenbezogen agieren. Auch wenn sich diese erst in den letzten Jahren steigender Beliebtheit erfreuen, muss man auch hier eher von einer Renaissance sprechen; der erster Chatbot erblickte bereits vor 52 Jahren das Licht der Welt. Der Informatiker Joseph Weizenbaum entwickelte „ELIZA“, die heute als Prototyp der modernen Chatbots gilt und die Verarbeitung natürlicher Sprache erfolgreich demonstrieren sollte.

3) Künstliche Intelligenz

Die Entwicklung von ELIZA machte deutlich, dass einfache Mittel ausreichen, um beim Turing-Test für Künstliche Intelligenz (KI), bei dem es um die subjektive Bewertung eines Gesprächs geht, gute Ergebnisse zu erzielen. Probanden haben, trotz der simplen Mechanismen des Bots, angefangen eine persönliche Bindung aufzubauen, um dann sogar über private Dinge zu schreiben. Die Erfahrungen mit diesem ersten Conversational Interface sorgten für viel Aufmerksamkeit und kontinuierlich verbesserte Chatbot-Technologien.

So wurde 1981 beispielsweise BITNET (Because It’s There NETwork) ins Leben gerufen, ein Netzwerk, das die Forschungs- und Lehreinrichtungen der USA miteinander verband. Eine Komponente dieses Netzwerks war Bitnet Relay, ein Chatclient, aus dem später der Internet Relay Chat (IRC) wurde. Für diese Chat-Systeme, so auch für ICQ wurden im Laufe der Zeit von Studenten und Nerds unzählige, mehr oder weniger einfache, Chatbots entwickelt. Diese basierten, wie auch ELIZA, auf der einfachen Erkennung von Sätzen und nicht auf der Auswertung von Wissen.

2003 begann eine weitere wichtige Entwicklung, die auf eine neue Klasse von Chatbots einzahlt, nämlich auf die Smart Assistants wie beispielsweise Siri. CALO, der „Cognitive Assistant that Learns and Organizes“, war eine von der Defense Advanced Research Projects Agency ins Leben gerufene Entwicklung, an der sich viele amerikanische Universitäten beteiligten. Das System sollte dem Nutzer dabei helfen, effektiver mit Informationen umzugehen und ihm zu assistieren, indem es permanent seine Fähigkeit verbessern, die Wünsche des Nutzers richtig zu interpretieren. Basis dafür ist die digitale Wissensrepräsentation. Damit ist gemeint, wie Wissen in einem digitalen System festgehalten und nutzbar gemacht werden kann. Durch semantische Netze können Objekte und deren Fähigkeiten in Relation zu anderen Objekten abgebildet werden, die es dem Smart Assistant ermöglichen, Verständnis dafür zu entwickeln, was ein Nutzer mit einer bestimmten Äußerung ausdrücken möchte. Möchte beispielsweise ein Kunde einen „trockenen Wein“ über seinen Smart Assistant bestellen, so muss dieser kontextabhängig die Verbindung zwischen den Begriffen „trocken“ und „Wein“ kennen. Nur so versteht er, dass es sich hier um eine Geschmacksnuance handelt und nicht um die Abwesenheit von Flüssigkeit.

Die Learnings

Das einfache Erkennen und Vergleichen von Texten, auch Matching genannt, und die intelligente Analyse mittels Wissensrepräsentation sind zwei unterschiedliche Technologien, die sich unabhängig voneinander weiterentwickelt haben. Mit Hilfe des Matching-Ansatzes, lassen sich die meisten Anwendungsfälle mit überschaubaren Mitteln umsetzen. Für komplexere Anfragen eignet sich jedoch ein Smart Assistant deutlich besser. Allerdings ist diese Technologie in der Entwicklung und Umsetzung wiederum aufwendiger, da sie eine breite Wissensbasis benötigt.

Aktuell trifft man daher meist auf Chatbots, die auf der Matching-Technologie basieren und mit Hilfe von Machine Learning (ML) trainiert werden können. Bei dieser Methode werden dem System möglichst viele Textvarianten zu einer bestimmten Aussage übergeben, die es lernt, um in der späteren Anwendung auch Sätze zu erkennen, die Ähnlichkeit zu dem Gesagten haben, ohne über spezielles Wissen verfügen zu müssen.

Heutzutage können wir zwischen zwei Technologien wählen, die bei einem Conversational Interface zum Einsatz kommen können. Je nach Anforderungen muss man sich die Frage stellen, ob ein System, das Gesagtes mit gelernten Satzstrukturen vergleicht, genügt oder wird ein System benötigt, das versucht den Sinn des Gesagten zu verstehen und entsprechend darauf reagiert?

Dieser Artikel erschien zuerst bei Adzine. und ist der zweite Beitrag einer mehrteiligen Serie über Voice Interfaces:

Teil 1: „Voice Interfaces – Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“