Use LEFT and RIGHT arrow keys to navigate between flashcards;
Use UP and DOWN arrow keys to flip the card;
H to show hint;
A reads text to speech;
12 Cards in this Set
- Front
- Back
Welche Möglichkeiten der Fusion von Eingabemodalitäten gibt es (und wann ist welche geeigneter)? |
1. sensor data fusion mehrere Mikrofone in der Freisprecheinrichtung = n gleiche Sensoren, erf. Zeitsynchronizität 2. feature fusion Spracherkennung + obtisches Lippenlesen = hohe Koppelung, erf. Zeitsynchronizität 3. decision fusion (Erkenntnisse werden zusammengeführt) |
|
Benennen Sie Vor- und Nachteile multimodaler gegenüber rein sprachbasierter Mensch-Maschine-Interaktion! |
+ Systemleistung von Sprachsystemen eingeschränkt: Listen besser? + Mimik/Gestik kann übertragen werden = mehr Natürlichkeit, intuitiver + Anzeigen, dass ein Input erwartet wird - wie bei Widersprüchen reagieren? - Fusion/Fission/Wahl der richtigen Modalität |
|
Was ist der Unterschied zwischen einem multimedialen und einem multimodalen Dialogsystem? |
Multimodal= Sinne (auditiv, haptisch, visuell) System kann mehrere Sinne adressieren, d.h. Medien stehen in Beziehung(Fusion) zu einander! Multimedial System kann mehrere Medien, Bild, Video, Ton nutzen (parallel und ungebunden) |
|
Erläutern Sie Aufbau und Funktionsweise eines multimodalen Dialogsystems! |
|
|
Benennen Sie Ein- und Ausgabemodalitäten! |
Eingabe: - Gesichtspostition erkennen - Blickbewegung erkennen - Mundbewegung erkennen - Gesten erkennen - Handschrifterkennung Ausgabe: ECAs, Sprachproduktion, angezeigter Text, Bilder, Positionen auf Karten |
|
Wie können Sie ein Gesicht maschinell erkennen? |
1. regelbasiert (rel. Position von Augen/Mund bekannt) 2. Mustervergleich 3. Farb(art) 4. invariante Merkmale = Merkmale aus dem Bild statistisch verarbeiten |
|
Wie können Sie eine Blickrichtung erkennen und verfolgen? |
1. Cornea-Reflex-Methode Eyetracker auf Kopf oder Leiste am PC, arbeitet mit Reflektion an der Hornhaut 2. Elektro-Okulogramme elektrisches Potential zwischen Netzhaut und Hornhaut wird gemessen |
|
Welche Vorteile bringt die audiovisuelle gegenüber der rein akustischen Spracherkennung? |
Verbesserte Spracherkennung - optisches Erkennen der Lippen für verbesserte Unterscheidung von schwierigen Lauten bspw. m vs. n - zusätzliche Informationen für die Spracherkennung = weniger potentielle Fehler - erkennen von Sarkasmus möglich!
|
|
Erläutern Sie die Begriffe Fusion und Fission! |
Fusion Zusammenführen der Informationen aller Medien Fisson Aufteilung der Informationen auf das spez. Medium |
|
Welche Arten von Gesten kennen Sie, und wie können Sie diese maschinell erkennen? |
1. symbolisch = 1 mit einem Finger darstellen 2. deikitisch = Zeigegesten 3. ikonisch = visuelle Beschreibung 4. metaphorisch = Bspw. Nussschale 5. Rhytmisch
1-3 mit Cam, 4 mit Lexikon, 5 Touchsensor/Cam |
|
Was ist ein Embodied Conversational Agent (ECA), und wie funktioniert er? |
- Computer berechnet Gesicht und Mimik/Gestik/Sprache bzgl. einer virtuellen Bezugsperson Funktion: - parametrisiertes Gesicht erzeugt nach Katalog Bewegungen um bspw. Emotionen auszudrücken - Parameter stammen vom Menschen
|
|
Nach welchen Regeln können Sie für einen Anwendungsfall geeignete Ein- und Ausgabemodalitäten auswählen? |
- möglichst Unterschiedlich um mehrere Wahrnehmungskanäle erreichen zu können - Sicherheit gewährleisten, d.h. im Auto eher nicht visuelle Sinne nutzen -" auf welchem Sinneskanal liegt die geringste Störung" |