Ein Voice User Interface (VUI) ermöglicht es Benutzern, mit einem Gerät oder einer Anwendung über gesprochene Sprachbefehle zu interagieren. VUIs ermöglichen dem Benutzer die vollständige Kontrolle über die Technologie. Für die Erstellung von VUIs wird eine Kombination aus Technologien der Künstlichen Intelligenz (KI) verwendet, darunter automatische Spracherkennung, Namensentitätserkennung und Sprachsynthese. VUIs können auch entweder in Geräten oder innerhalb von Anwendungen enthalten sein. Die Backend-Infrastruktur, einschließlich der KI-Technologien, die zur Erstellung der Sprachkomponenten der VUI verwendet werden, sind oft in einer öffentlichen oder privaten Cloud gespeichert, wo die Sprache des Benutzers verarbeitet wird. In der Cloud ermitteln die KI-Komponenten die Absicht des Benutzers und geben eine bestimmte Antwort zurück an das Gerät oder die Anwendung, in der der Benutzer mit der VUI interagiert.

Zu den bekannten VUIs gehören Amazon Alexa, Apple Siri, Google Assistant, Samsung Bixby, Yandex Alisa und Microsoft Cortana. Für ein optimales Benutzererlebnis verfügen VUIs über eine grafische Benutzeroberfläche und zusätzliche Soundeffekte, die sie begleiten. Jede VUI hat heute ihre eigene Art der Handhabung von Soundeffekten, die verwendet werden, damit Benutzer wissen, wann die VUI aktiv ist, zuhört, Sprache verarbeitet oder dem Benutzer antwortet. Zu den Vorteilen von VUIs gehören die freihändige Zugänglichkeit, die Produktivität und eine bessere Kundenerfahrung, die die Art und Weise verändern wird, wie die Welt mit künstlicher Intelligenz interagiert.

Warum Sie VUIs auf dem Radar behalten sollten

Die Anzahl an Nutzern, die VUIs in ihrem Alltag nutzen, nimmt stetig zu. Der Trend und die Relevanz dieses Themas sind somit steigend. Daher sollten sich Software-Agenturen mit dieser Technologie vertraut machen und VUI in Ihre Anwendungen einbinden, um noch attraktivere Produkte für ihre Kunden zu entwickeln. Die folgenden Erhebungen von Google sind nur wenige Beispiele dafür, weshalb es sich lohnt das Thema VUIs im Fokus zu behalten [1][2].

 

Voice as User Interface VUI

 

Voice as User Interface VUI

Trigger – die Grundlage von VUIs

Die Ausstattung und Einrichtung einer Anwendung, die für die Sprachsuche geeignet ist, basiert auf einem detaillierten Verständnis der stimmlichen Auslöser für die Eingabe. Solche Auslöser haben vier Kategorien.

a: Sprachauslösung: Der Benutzer spricht seinen Befehl aus, beginnend mit der Phrase – Ok Google, Hello Alexa, Hey Siri, Hello Cortana. Damit wird mit der Verarbeitung der Sprache begonnen.

b: Geräte-Selbstauslöser: Manchmal lösen vorher festgelegte Einstellungen am Gerät den Sprachstart aus.

c: Bewegungsauslöser: Eine bloße Bewegung der Hand vor dem Sensor eines Geräts löst den Sprachstart aus.

d: Taktiler Trigger: Der Benutzer drückt eine Taste oder schaltet ein Symbol um, um mit den Sprachbefehlen zu beginnen.

Wir fokussieren uns in diesem Artikel auf die Sprachauslösung mittels Sprachbefehl.

 

Sind Sie auf der Suche nach einer Software-Agentur?

Wir würden Sie gerne zu einer kostenlosen Erstberatung einladen,
um mit Ihnen über Ihre VUI Software zu sprechen und Sie bei der Realisierung
Ihrer Vision zu unterstützen!

Die Anatomie eines Sprachbefehls

Bevor ein Dialogablauf erstellt werden kann, müssen Designer zunächst die Anatomie eines Sprachbefehls verstehen. Beim Entwerfen von VUIs müssen Designer stets über das Ziel der Sprachinteraktion nachdenken (d. h., was will der Benutzer in diesem Szenario erreichen?). Der Sprachbefehl eines Benutzers besteht aus drei Schlüsselfaktoren: der Absicht, der Äußerung und dem Slot.

Lassen Sie uns die folgende Anfrage analysieren: “Spiele etwas entspannende Musik auf Spotify ab.”

Intent (die Absicht der Sprachinteraktion)

Der Intent stellt das übergeordnete Ziel des Sprachbefehls eines Benutzers dar, und es kann sich entweder um eine Low-Utility- oder High-Utility-Interaktion handeln. Bei einer High-Utility-Interaktion geht es darum, eine ganz bestimmte Aufgabe auszuführen, z. B. das Licht im Wohnzimmer auszuschalten oder die Dusche auf eine bestimmte Temperatur einzustellen. Das Design dieser Anfragen ist einfach, da es sehr klar ist, was vom KI-Assistenten erwartet wird. Anfragen mit geringem Nutzen sind vager und schwieriger zu entschlüsseln. Wenn der Benutzer z. B. mehr über Amsterdam erfahren möchte, würden wir zunächst prüfen, ob dies in den Anwendungsbereich des Dienstes passt, und dem Benutzer dann weitere Fragen stellen, um die Anfrage besser zu verstehen.

In dem gegebenen Beispiel ist die Absicht offensichtlich: Der Benutzer möchte Musik hören.

Utterance (Wie der Benutzer einen Befehl formuliert)

Eine Äußerung spiegelt wider, wie der Benutzer seine Anfrage formuliert. Im gegebenen Beispiel wissen wir, dass der Benutzer Musik auf Spotify abspielen möchte, indem er “Play me…” sagt, aber das ist nicht die einzige Möglichkeit, wie ein Benutzer diese Anfrage stellen könnte. Der Benutzer könnte zum Beispiel auch sagen: “Ich möchte Musik hören … .” Designer müssen jede Variation der Äußerung berücksichtigen. Dies wird der KI-Engine helfen, die Anfrage zu erkennen und sie mit der richtigen Aktion oder Antwort zu verknüpfen.

Slots (die erforderlichen oder optionalen Variablen)

Manchmal reicht eine Absicht allein nicht aus und es werden weitere Informationen vom Benutzer benötigt, um die Anfrage zu erfüllen. Alexa nennt dies einen “Slot”, und Slots sind wie herkömmliche Formularfelder in dem Sinne, dass sie optional oder erforderlich sein können, je nachdem, was zum Ausfüllen der Anfrage benötigt wird. In unserem Fall ist der Slot “Entspannen”, aber da die Anfrage auch ohne ihn abgeschlossen werden kann, ist dieser Slot optional. In dem Fall, dass der Benutzer ein Taxi buchen möchte, wäre der Slot jedoch das Ziel, und er wäre erforderlich. Optionale Eingaben überschreiben eventuelle Vorgabewerte; so würde z. B. ein Benutzer, der ein Taxi um 16 Uhr anfordert, den Vorgabewert “so bald wie möglich” überschreiben.

Praktische Tipps für VUI-Designer vor dem Beginn des VUI-Prozesses

Halten Sie die Kommunikation einfach und konversationell

Bei der Gestaltung von mobilen Apps und Websites müssen die Designer darüber nachdenken, welche Informationen primär und welche sekundär (d. h. nicht so wichtig) sind. Benutzer wollen sich nicht überfordert fühlen, aber gleichzeitig brauchen sie genug Informationen, um ihre Aufgabe zu erledigen. Bei der Sprache müssen die Designer noch vorsichtiger sein, weil Worte (und vielleicht eine relativ einfache GUI) alles sind, was zur Kommunikation zur Verfügung steht. Das macht es besonders schwierig, wenn es darum geht, komplexe Informationen und Daten zu vermitteln. Das bedeutet, dass weniger Worte besser sind, und die Designer müssen sicherstellen, dass die App das Ziel der Benutzer erfüllt und streng konversationell bleibt.

Bestätigen Sie, wenn eine Aufgabe abgeschlossen wurde

Bei der Gestaltung eines eCommerce-Checkout-Flows ist einer der wichtigsten Bildschirme die Abschlussbestätigung. Diese lässt den Kunden wissen, dass die Transaktion erfolgreich erfasst wurde. Das gleiche Konzept gilt für das VUI-Design. Wenn ein Benutzer beispielsweise im Wohnzimmer seinen Sprachassistenten bittet, das Licht im Badezimmer auszuschalten, müsste er ohne eine Bestätigung ins Wohnzimmer gehen und nachsehen, was den Zweck einer “hands-off”-VUI-App völlig zunichtemacht.

In diesem Szenario reicht die Antwort “Badezimmerlicht ausgeschaltet” aus.

Erstellen Sie eine starke Fehlerstrategie

Als VUI-Designer ist es wichtig, eine starke Fehlerstrategie zu haben. Entwerfen Sie immer für das Szenario, dass der Assistent etwas nicht versteht oder gar nicht hört. Mit Hilfe von Analysen können auch falsche Abzweigungen und Fehlinterpretationen identifiziert werden, so dass die Fehlerstrategie verbessert werden kann.

Einige der wichtigsten Fragen, die bei der Prüfung auf alternative Dialoge gestellt werden sollten:

  • Haben Sie das Ziel der Interaktion identifiziert?
  • Kann die KI die vom Benutzer gesprochenen Informationen interpretieren?
  • Benötigt die KI weitere Informationen vom Benutzer, um die Anfrage zu erfüllen?
  • Sind wir in der Lage, das zu liefern, wonach der Benutzer gefragt hat?

Fügen Sie eine zusätzliche Sicherheitsebene hinzu

Google Assistant, Siri und Alexa können nun individuelle Stimmen erkennen. Dies fügt eine zusätzliche Sicherheitsebene hinzu, ähnlich wie Face ID oder Touch ID. Die Spracherkennungssoftware wird ständig verbessert, und es wird immer schwieriger, die Stimme zu imitieren; zum jetzigen Zeitpunkt ist sie jedoch möglicherweise nicht sicher genug und eine zusätzliche Authentifizierung kann erforderlich sein. Wenn mit sensiblen Daten gearbeitet wird, müssen Designer möglicherweise einen zusätzlichen Authentifizierungsschritt wie Fingerabdruck, Passwort oder Gesichtserkennung einbauen. Dies gilt insbesondere für persönliche Nachrichten und Zahlungen.

 

1

Wir verstehen Ihre Anforderungen und Ihre Vision!

1

Ganzheitliche Produktentwicklung und breites Know-How!

1

Wir begleiten Sie langfristig und sind für Sie da!

 

Wie Sie mit dem VUI-Prozess starten können

Schritt 1: Forschung

Natürlich geht es bei sprachgesteuerten Anwendungen, wie bei jedem anderen digitalen Produkt auch, in erster Linie darum, das Zielverhalten der Nutzer zu ergründen. Dies bildet die Grundlage für alle Produktanforderungen. In diesem Fall müssen die Designer einen Blick in die Psychologie der Nutzer werfen, sich auf ihre Schmerzpunkte konzentrieren und sich auf die Benutzersprache konzentrieren.

Schritt 2: Definieren

Dieser Schritt umfasst die Gestaltung des Produkts und die Definition der Fähigkeiten desselben. Dies beinhaltet wiederum zwei Teile

  1. Definieren der wichtigsten Interaktionsszenarien – Das Entwerfen von Szenarien, die für die anvisierte Klientel von hohem Wert sind, ist von vorrangiger Bedeutung. Sie können auch eine Matrix verwenden, die dabei hilft, die einzelnen Szenarien zu bewerten und somit zu unterteilen, welche der Optionen primär, welche sekundär oder lediglich “nice to have” sind.
  2. Sicherstellen, dass die oben genannten Szenarien mit Sprache funktionieren – Während die Verwendung von Sprache ein trendiges Element bei der Gestaltung von Websites ist, sollte es einige zwingende Gründe für die Verwendung von Sprache geben. Die Einbindung von Sprache in Websites muss notwendigerweise eine einfachere und schnellere Lösung von Problemen auf eine effizientere Weise gewährleisten.

Die Designer müssen spezifische und häufige Fälle identifizieren, in denen die Benutzer definitiv den Hebel ansetzen werden. Die Einschränkungen der Sprachinteraktion müssen ebenfalls berücksichtigt werden.

Schritt 3: Erstellen

Bei der Sprachsuche geht es wie bei jedem anderen Designtrend darum, einen fehlerfreien Prototyp zu erstellen. In diesem Fall beginnt der Prototyp am Reißbrett. Der allererste Schritt sind die Voice User Experience Flows. Darauf aufbauend werden die Benutzerinteraktionen abgebildet. Dabei gibt es zwei Teile – Erstellen und Fehlerbehandlung.

Beim Erstellen muss der Fokus auf der Verwendung von Storyboards liegen, um die Idee zu skizzieren und Dialoge zu erstellen.

a: Storyboards: Diese werden verwendet, um den Ablauf und die Interaktion im Kontext zu visualisieren. Dies vermittelt sowohl den Designern als auch den Benutzern ein realistisches Gefühl.

b: Dialoge schreiben: Beim Voice User Flow sind vor allem die Dialoge der Hit. Mit jedem Szenario, das durch Voice-Apps gut unterstützt wird, beginnen die Dialoge zwischen den Apps und ihren Nutzern. Da menschliche Konversationen oft vielschichtig sind, sollte beim Schreiben der Dialoge und beim Durchdenken der Szenarien jede der Wendungen berücksichtigt werden. Am besten wäre es, wenn die Designer –

    1. Nicht “Befehl” lehren
    2. Präzise mit der Antwort und der Frage sein
    3. Verringern Sie die Anzahl der Schritte, die zur Erfüllung der vorgesehenen Aufgabe erforderlich sind.

Schritt 4: Fehlerbehandlung

Ich will Sie nicht entmutigen, aber Entwickler und Designer wissen, dass unabhängig von der Vorbereitung, die Sie für eine fehlerfreie VUI treffen, diverse Elemente schief gehen können. Für diese Fallstricke zu entwerfen ist die Herausforderung. Die besten Maßnahmen, um diesen zu begegnen, sind die folgenden

  • Tipp 1: Nutzung des Kontexts, um ein besseres Benutzererlebnis mit Anpassungen zu schaffen.
  • Tipp 2: Einfühlungsvermögen in Interaktionen einbauen und sicherstellen, dass die Antworten jedes Mal leicht angepasst werden, um das Gefühl zu vermeiden, dass die Interaktionen maschinenartig sind.
  • Tipp 3: Spiegeln Sie die einzigartige Identität der Marke über die VUI-Personas durch das Wording Ihrer strukturierten Dialoge wider.
  • Tipp 4: Bestätigungen nach Abschluss von Aufgaben, um sicherzustellen, dass sich der Nutzer über die Erfassung seiner Transaktion sicher ist.
  • Tipp 5: Abdeckung von alternativen Phrasen, um sicherzustellen, dass Ihre Seite trotz eines komplexen Prozesses zur Abbildung der Vokalisierung der Voice User Interface die Höhen der SERP erklimmt.
  • Tipp 6: Prototyping von Apps/Seiten, die die Erstellung von Sprachauslösern und Sprachwiedergaben beinhalten.
  • Tipp 7: Testen von Dialogen, um sicherzustellen, dass die konversationelle und informelle Tonalität darin erhalten bleibt. Es ist ratsam, Gespräche in Rollenspielen nachzuspielen und Audio mit den Dialogen aufzunehmen und abzuspielen.

Schritt 5: Testen

Nach dem Entwurfsprozess ist das Testen ein entscheidender Schritt, um festzustellen, ob die Website/Anwendung für den anvisierten Benutzer geeignet ist oder nicht. Der Testvorgang muss für zwei Gateways anfallen

a: Mit Zielnutzern: Usability-Testsitzungen mit ausgewählten Vertretern der Zielgruppe und Beobachtung, wie die Benutzer mit der Website und der App interagieren. Behalten Sie den Customer Satisfaction Score und die Rate der Aufgabenerledigung im Auge.

b: Teststimulatoren: Sie können Test-Tools von renommierten Marken haben, um die Aktion oder den Skill in der Simulation Ihrer Hardware-Geräte und deren Einstellungen zu testen. Dies bietet ein großartiges Sprachgefühl in der realen Welt.

Schritt 6: Verfeinern

Designer und Entwickler müssen ihre sprachgesteuerten Websites und Anwendungen verfeinern, bevor sie sie auf den Markt bringen. Dazu müssen die Designer die Analysen sammeln, indem sie einige Schlüsselmetriken verfolgen, darunter – Verhaltensabläufe, Äußerungen und Absichten sowie Metriken für die Benutzereinbindung.

Das Besondere an den vorgenannten Schritten ist, dass ein solches Verfahren auf verschiedene Arten von Sprachschnittstellen angewendet werden kann. Zu diesen Typen gehören reine Sprachschnittstellen, Sprachschnittstellen und sprachgesteuerte Schnittstellen.

Sie möchten mehr über aktuelle App-Trends 2021 erfahren?

Wir haben in einem unserer Blogbeiträge die wichtigsten Informationen für Sie zusammengefasst. Schauen Sie gerne vorbei!

 

Wie wird ein Prototyp für ein Voice User Interface Design erstellt?

Ein erfolgreicher Voice User Interface Design-Prozess spiegelt jedes fachmännische UI-Verfahren wider. Dies erfordert Prototyping, um das Auftreten von Fehlern in einer sprachgesteuerten Anwendung zu vermeiden.

Das Prototyping-Verfahren umfasst die folgenden Schritte

  • Schritt 1: Hören und transkribieren Sie eine Konversation von Mensch zu Mensch, die der perfekten Schnittstelle ähnlich ist.
  • Schritt 2: Konzentrieren Sie sich auf die Möglichkeiten, die die Funktionalität Ihrer Schnittstelle bietet. Diese Möglichkeiten sollten zunächst einfach gehalten werden.
  • Schritt 3: Plotten Sie die Beispieldialoge. Beginnen Sie mit der Arbeit am kürzesten Weg zum Abschlussprozess. Dieser bietet ein Layout, das erkennen lässt, dass der Benutzer alle wesentlichen Informationen angeboten hat.
  • Schritt 4: Strukturieren Sie die Komplexitäten und Ebenen in Ihre Gesprächslogik. Dazu gehört das Schreiben von Dialogen für die Behandlung von Fehlern und Dialogen. Dieser Schritt ist vor allem für Erstbenutzer entscheidend.
  • Schritt 5: Dokumentieren Sie die Beziehung zwischen den einzelnen Skripten und der Konversationslogik, und verwenden Sie ein Flussdiagramm für alle diese Aktivitäten.

Die Leistung von Voice User Interface (VUI) besitzt noch deutliche Entwicklungspotenziale

Obwohl es mittlerweile viele persönliche VUI-Assistenten auf dem Markt gibt, gibt es eine Gemeinsamkeit: Ihre Leistung steckt noch in den Kinderschuhen. Die meisten Voice User Interface Assistenten müssen so programmiert und trainiert werden, dass sie nicht nur auf verschiedene Sprachen, Fragen und Akzente reagieren, sondern auch mit Sprachbehinderungen umgehen können. Es wird Zeit und fortschrittliche Algorithmen brauchen, damit VUIs neue Muster lernen und mit prädiktiven Daten arbeiten können, zusammen mit einer besseren Optimierung der Benutzerfreundlichkeit.

Fazit Voice as User Interface

Zusammenfassend lässt sich sagen, dass sich die Voice User Interface (VUI) immer noch entwickelt und ein stetiges Wachstum aufweist und innerhalb der Suchmaschinenfähigkeiten mehr Bedeutung und einen höheren Marktanteil erlangt. Sie wird ihr volles Potenzial entfalten, wenn sie sich weiter mit bildschirmbasierter Interaktion, prädiktiven Daten und der Genauigkeit des natürlichen Sprachverständnisses integriert und konvergiert. Hierzu bedarf es Designern und Entwicklern, die sich kontinuierlich mit den Methoden zur Verbesserung der VUI auseinandersetzen und ihr Wissen sowie ihre Erfahrungen teilen.

 

 

Predictive Analytics & Predictive Maintenance
App-Konzept

 

0 Kommentare

Beitrag kommentieren

Wir freuen uns auf Ihr Feedback!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diesen Beitrag bewerten