Das AIVA-Projekt diente in erster Linie dazu, Test- und Evaluierungsmethoden in der UX-Forschung zu erlernen. Anhand der Entwicklung eines intuitiven Sprachassistenten für Senior:innen im Kontext autonomer Busse setzten wir einen iterativen Designprozess um.
Unser Projekt begann mit einer Wettbewerbsanalyse bestehender Lösungen im Bereich autonomer Busse, speziell für Senior:innen mit begrenzten technischen Vorkenntnissen. Schnell wurde klar, dass unser Konzept innovativ war – es gab kaum KI-gestützte Systeme mit diesem Fokus.
Nach der Research-Phase entwickelten wir einen Low-Fidelity-Papierprototyp für AIVA, den wir in einer formativen Nutzerstudie mit sieben Teilnehmenden testeten. Mithilfe eines szenariobasierten Cognitive Walkthroughs und der Think-Aloud-Methode konnten wir die Nutzerinteraktionen in Echtzeit beobachten und qualitative Daten zu Erwartungen und mentalen Modellen sammeln.
Die Tests deckten Schwächen in der Informationsarchitektur und im Icon-Design des Dashboards auf, die wir in der nächsten Iteration verbesserten. Zudem zeigte sich ein geringes Vertrauen in sprachgesteuerte KI – ein kritischer Faktor für unsere Zielgruppe.
Basierend auf dem ersten Testing und Nutzerfeedback entwickelten wir einen High-Fidelity-Prototyp und führten eine zweite Usability-Studie mit 14 Teilnehmenden durch. Die Tests umfassten vier Kernaufgaben, um Sprachinteraktion und manuelle Eingabe via Bildschirmtastatur direkt zu vergleichen.
Zur summativen Evaluation setzten wir standardisierte Methoden ein:
Die gesammelten Daten wurden in zwei Altersgruppen (>60 und <60) segmentiert und anhand der offiziellen Metriken in Microsoft Excel ausgewertet. Für die Visualisierung habe ich R Studio verwendet und konnte meine Kenntnisse in diesem Tool erweitern und die Möglichkeiten schätzen lernen. Zuvor habe ich hauptsächlich JMP genutzt. Durch meinen Informatikhintergrund fiel es mir leicht, mich in R einzuarbeiten und eigene Scripte zu erstellen.
- SUS-Werte zeigten eine nahezu exzellente Usability.
- NASA-TLX: Die Aufgabe „Sie sind unsicher, wie Sie das System nutzen – was tun Sie?“ verursachte eine hohe kognitive Belastung (40,1), besonders bei älteren Nutzer:innen. Grund war die Verwechslung von „Hilfe“- und „Sprachassistent“-Icons.
- Manuelle Zieleingabe (9,0) hatte eine geringere Arbeitslast als Sprachsteuerung (22,0).
- UEQ-Werte: Positive Gesamtbewertung (0,9), wobei pragmatische Qualität (1,12) höher abschnitt als hedonische (0,66).
- Ältere Teilnehmende hatten Schwierigkeiten, das Konzept eines Prototyps zu verstehen – ein Hinweis für klarere Briefing-Protokolle.
Unser datengetriebener Ansatz lieferte wertvolle Erkenntnisse über Nutzererwartungen und Herausforderungen im Umgang mit sprachgesteuerten KI-Systemen, insbesondere in autonomen Fahrzeugen. Die enge Zusammenarbeit im Team, kombiniert mit Research, visuellem Design und Testing, ermöglichte die Entwicklung eines Prototyps, der gezielt auf die Bedürfnisse unserer Zielgruppe eingeht.