Die per Signalwort ( z.B. „Ok, Google“) oder auf Knopfdruck zu aktivierenden Voice Assistants übermitteln das gesprochene Anliegen ihres Nutzers an eine dem Assistenten zugrunde liegende, oftmals cloud-basierte Software. Diese verarbeitet das Anliegen und gibt daraufhin Informationen über eine simulierte Konversation aus bzw. stößt Aktivitäten oder Transaktionen an. Gesteuert werden die Voice Assistants in den meisten Fällen über das Smartphone, dedizierte Lautsprecher oder den Laptop. Dabei erfreut sich die Interaktion mit den Sprachassistenten kontinuierlich steigender Beliebtheit. Die Zeit, in der das Sprechen mit Geräten als unnatürlich und unangenehm empfunden wurde, scheint somit längst vorüber zu sein.
Steigende Nutzerbasis durch intuitive Bedienbarkeit und expandierendes Ökosystem
Gründe für die immer routiniertere Verwendung von Voice Assistants sind die stetig präziser werdende Anliegenerkennung und der im Vergleich zur Interaktion mit z.B. Chatbots höhere Komfort durch das Wegfallen der Eingabe von Text oder Informationen in ein webbasiertes oder mobiles Interface. Für den Nutzer ist eine Interaktion in natürlicher Sprache somit einfacher, barrierefrei und zeitsparend – und genau das sind die wesentlichen Vorteile der Sprachassistenten.
Weitere Gründe für den vermehrten Einsatz von Voice Assistants sind das sich formierende und wachsende Ökosystem an Services sowie die mit den Sprachassistenten verbundenen Geräte. Diese werden über eine steigende Zahl an Alexa Skills oder Google Actions mit den Voice Assistants verknüpft, was die Fähigkeiten der Assistenten kontinuierlich erweitert. So können immer mehr Internet-of-Things-fähige Geräte wie bspw. Haushalts- und Entertainmentdevices oder Licht und Heizung per Spracheingabe gesteuert werden. Auch die Automobilindustrie setzt mittlerweile verstärkt Sprachassistenten ein.
Kommerzielles Potential bei Voice Assistants besonders ausgeprägt
Neben der Informationssuche und sprachbasierten Gerätesteuerung werden Voice Assistants gemäß einer Adobe Digital Insights-Studie bereits von 22% der befragten US-amerikanischen Konsumenten auch zum Shoppen verwendet. Während das Interesse an „V-Commerce“ in Deutschland noch geringer ausgeprägt ist (12%), sollen in drei Jahren bereits 13 % aller Konsumausgaben über Voice Assistants erfolgen. Dies könnte mit einer erheblichen Steigerung des Umsatzes einhergehen, wie bspw. Gartner prognostiziert. Steigende Kundenzufriedenheit durch den Einsatz von Voice Assistants, anhaltende Loyalität und positives Word-of-Mouth können den Effekt noch verstärken. Aus diesem Grund erwägen 2018 laut einer Studie der Universität Oxford und des Reuters Institutes 58% der Entscheider im digitalen Bereich, Inhalte und Anbindungen für diesen Kanal bereitzustellen.
Langfristige Nutzung abhängig von technologischer Weiterentwicklung und kontinuierlicher Nutzenstiftung für den Kunden
Ob sich Voice Assistants tatsächlich als Kommunikations-und Vertriebskanal etablieren, wird abhängig vom ihrem technologischen Fortschritt sein. Aktuell existiert laut einer Benchmarking-Studie des Unternehmens Snips noch keine Lösung, die nicht zumindest einige Anliegen missversteht oder falsch interpretiert. Um die Dissonanz zwischen Mensch und Maschine zu reduzieren und die Technologie zu optimieren, müssen insbesondere folgende Teilbereiche weiterentwickelt werden:
- die computerbasierte Verarbeitung natürlicher Sprache (Natural Language Processing (NLP)),
- maschinelles Lernen sowie
- die Rechenleistung und Telekommunikationsinfrastruktur.
Unter der computerbasierten Verarbeitung natürlicher Sprache oder NLP versteht man die Techniken und Methoden, welche die Aufnahme gesprochener Sprache, ihre Strukturierung, das Verständnis und die Reaktion darauf umfassen und ermöglichen. Um diesen Prozess zu realisieren, sind zwei weitere Bestandteile des NLPs essentiell:
- Natural Language Understanding (NLU) und
- Natural Language Generation (NLG)
Da Mensch und Computer sich meist unterschiedlicher Sprachen bedienen, kommt NLU zum Einsatz. Sie bringt unstrukturierte Inhalte in Form natürlicher Sprache mithilfe von Algorithmen in eine strukturierte, für den Computer verständliche und zu verarbeitende Form (speech-to text), welcher Bedeutung zugeschrieben werden kann.
Wesentlich einfacher als der erste Teil des Verarbeitens natürlicher Sprache ist das Generieren synthetischer Sprache, NLG. Dazu wird zunächst die Information festgelegt, die in Text übertragen werden soll. Diese wird daraufhin basierend auf einem Regelwerk erneut strukturiert und in einem letzten Schritt in natürliche, für den Nutzer verständliche Sprache übersetzt (text-to-speech) und ausgegeben.
In Bezug auf diesen Verarbeitungsprozess muss berücksichtigt werden, dass performante Voice Assistants großer Trainingsmengen an realen Customer Service-Daten und einer kontinuierlichen Redaktionierung der Inhalte bedürfen. Konträr zu den Versprechen einiger Anbieter funktionieren die Sprachassistenten somit nicht auf Anhieb und automatisch, sondern benötigen Ressourcen, um durch fortwährendes Training ein positives Interaktionserlebnis zu liefern.
Ausblick: Eine vielversprechende Zukunft für Voice Assistants
Neben der fehlerfreien Sprachverarbeitung sind in Zukunft jedoch auch Barrieren hinsichtlich des Datenschutzes und der Datensicherheit zu überwinden, damit Voice Assistants Akzeptanz von einer steigenden Nutzerbasis erreichen. Nur wenn der Nutzer und seine Daten geschützt sind und auf Dauer ein Mehrwert für sie entsteht, wird sich der Kanal nachhaltig etablieren.
Wenn man dem Tenor in Wirtschaft, Wissenschaft und Medien Gehör und Glauben schenkt, werden die digitalen Assistenten in Zukunft noch präsenter und vielseitiger eingesetzt. Diese Entwicklung wird immer mehr auch professionelle Bereiche erreichen: So prognostiziert Gartner, dass Customer Service bis zum Jahr 2020 zu 25% von virtuellen Assistenten wie Voice Assistants oder Chatbots unterstützt werden wird. Ebenfalls davon betroffen sein werden Bereiche wie Self-Service und die Unterstützung von Vertriebsprozessen.
Auch interne betriebliche Prozesse können durch Einsatz der Sprachassistenten beschleunigt und vereinfacht werden. Vom Office-und Terminmanagement über die Bearbeitung einfacher, sich wiederholender Tätigkeiten bis hin zur Recherche ist eine Vielzahl an möglichen Aufgaben denkbar, die zukünftig von Voice Assistants übernommen werden könnte.
Um diesen Kanal mit den übrigen zu orchestrieren sowie inhaltlich und technisch zu harmonisieren, ist es somit ratsam, Voice Assistants in die strategische und operative Planung aufzunehmen und sich intensiv mit den Chancen und Risiken auseinanderzusetzen.
Dr. Carolin Wernicke
Dr. Carolin Wernicke arbeitet bei Arvato CRM im Bereich Portfolio Management und ist hier als Innovation Management Consultant tätig. Im Rahmen dessen beschäftigt sie sich u.a. mit Marktanalysen, Trend- und Techscouting sowie der Ideengenerierung und Geschäftsmodellentwicklung für neue Solutions.