Wurden Sie schon einmal von einem Barista begrüßt, der Ihre Kaffeebestellung bereits kennt? Es ist großartig, einen Kaffee zu bekommen, ohne dass Sie alle Einzelheiten wissen – Temperatur, Brühzeit, Wassermenge, Herkunft der Bohnen, Mahlgrad, Röstung usw. Dies veranschaulicht das Spektrum, in dem wir uns heute mit KI bewegen.
In diesem Artikel geht es nicht um Kaffee, sondern darum, wie sich Benutzerinteraktionen verändern und anpassen, wie sich generative KI-Benutzerinteraktionen auf der Grundlage früherer Trends in der Benutzeroberfläche und neuer Trends in der generativen KI-Interaktion weiterentwickeln können. Wir werden den Wert von Kontextbündelung, Benutzerkuration, Vertrauen und Ökosystemen als Schlüsseltrends für die KI-Benutzererfahrung betrachten.
Von Befehlen zu Konversationen
Erinnern wir uns an die Anfänge der Computertechnik, als die Verwendung eines Computers noch bedeutete, präzise Befehle in eine Befehlszeilenschnittstelle (CLI) einzugeben. Stellen Sie sich die Herausforderung vor, sich den genauen Befehl zum Öffnen einer Datei oder zum Kopieren von Daten zu merken, ganz zu schweigen von der Suche nach dem Ordner „Hausaufgaben“. Nicht jeder war als Programmierer geeignet. Um die Benutzerfreundlichkeit zu erhöhen, war ein Umdenken erforderlich.
So entstand 1964 ELIZA, ein früher Versuch der natürlichen Sprachverarbeitung, der die Benutzer durch Schlüsselworterkennung und geskriptete Antworten in einfache Unterhaltungen einbezog. Obwohl die Interaktionen von ELIZA bahnbrechend waren, waren sie bei weitem nicht flexibel oder skalierbar.
Etwa zur gleichen Zeit entwickelte Xerox PARC die grafische Benutzeroberfläche (GUI), die 1984 von Apple und später von Microsoft der breiten Masse zugänglich gemacht wurde. Die grafischen Benutzeroberflächen veränderten die Computerwelt, indem sie komplexe Befehle durch Symbole, Menüs und Fenster ersetzten, die mit der Maus gesteuert werden konnten. Diese Innovation machte Computer für alltägliche Aufgaben zugänglich und intuitiv und schuf die Voraussetzungen für die universelle Rolle, die die Technologie in unserem Leben spielt.
Sehen Sie sich das Beispielbild oben an. Wir sind heute Zeugen einer parallelen Entwicklung. Benutzeraufforderungen sind im Grunde Miniprogramme, die in natürlicher Sprache verfasst sind, wobei die Qualität der Ergebnisse von unseren Fähigkeiten bei der Eingabeaufforderung abhängt. So wie sich die frühe Computertechnik von der Komplexität der Befehlszeilen zu den einfachen grafischen Benutzeroberflächen (GUIs) entwickelt hat, um die Technologie für jedermann zugänglich zu machen, sehen wir einen ähnlichen Trend bei der generativen KI, die komplexe Eingaben in einfachere, benutzerfreundlichere Schnittstellen bündelt, wobei die Komplexität im Hintergrund bleibt.
Die oben gezeigten Bildgeneratoren wie Stable Diffusion WebUI, Mid Journey und DALL‑E 3 erfordern ein unterschiedliches Maß an Präzision bei den Eingabeaufforderungen, um Ergebnisse zu erzielen. Während Mid Journey und DALL‑E einfacher zu bedienen sind, ermöglicht Stable Diffusion viel spezifischere Ergebnisse. Je mehr wir jedoch über unsere Benutzer wissen, desto leichter können wir ihnen eine einfache Erfahrung bieten und gleichzeitig die von ihnen gewünschte Spezifität beibehalten.
Context Bundling
Die Kontextbündelung vereinfacht Interaktionen, indem sie zusammenhängende Informationen in einem einzigen Befehl zusammenfasst und sich so der Herausforderung stellt, komplexe Anweisungen zu übermitteln, um die gewünschten Ergebnisse zu erzielen. Dies steigert die Effizienz und die Qualität der Ausgabe, indem die Absicht des Benutzers und das Verständnis der Maschine in einem Schritt abgeglichen werden, wodurch das manuelle Schreiben von Benutzeranweisungen überflüssig wird.
Wir haben dies bei generativen KI-Tools gesehen, z. B. bei den Beispiel-Prompts in Edge, dem Tab-Manager von Google Chrome, und bei den Trigger-Wörtern in Stable Diffusion handelt es sich um spezielle Token in einem Prompt, die mit einer Textinversion, LoRa, einem Modell oder anderen Verfeinerungen fein abgestimmt werden können.
In der Kontextbündelung bedeutet „Conversational“ AI nicht immer Konversation. Es geht um das Ergebnis, das der Benutzer erreichen möchte, ohne sich auf eine textbasierte Eingabeaufforderung zu verlassen. Die Kontextbündelung bietet den Nutzern eine Abkürzung zu den gewünschten Ergebnissen, ohne dass sie sich auf eine langwierige Konversation einlassen müssen. Die Benutzererfahrung hängt nicht mehr von einer allgemeinen Konversationsschnittstelle ab. Die Differenzierung wird durch spezifische Daten und speziellere Erfahrungen vorangetrieben.
Beispiele für diese Besonderheit sind Miro Assist , Clay AI Formelgenerator und SCOPUS AI. Sie vereinfachen die Interaktion, indem sie verwandte Informationen in spezifischen Einzelbefehlen zusammenfassen.
Eine weitere Möglichkeit, die Kontextbündelung zu erweitern, besteht darin, den Benutzern die Möglichkeit zu geben, Eigenschaften dieser Bündel zu definieren. Die vom Benutzer einstellbaren Präferenzen und die Personalisierung werden im Kontext gebündelt und bieten dem Benutzer später im Produkt produktivere und relevantere Interaktionen.
Bei der Kontextbündelung geht es nicht nur um die Vereinfachung von Konversationen, sondern auch darum, den Nutzern zu helfen, ihre Ziele direkt zu erreichen, sei es durch Suchanfragen, Zusammenfassungen oder andere spezifische Aufgaben. Sie verwandelt detaillierte Anweisungen in einfache, benutzerfreundliche Interaktionen, was besonders bei einfachen oder sich wiederholenden Aufgaben von Vorteil ist. Aber was ist mit Aufgaben mit offenem Ende, wie z. B. Erkundungen, oder mit Zielen, bei denen eine Verfeinerung wünschenswert ist? Hier sind kontinuierliche Feedback-Mechanismen oder Feedback-Schleifen erforderlich.
User Curation
Trotz der Fortschritte bei der intuitiveren Gestaltung von KI-Interaktionen gibt es nach wie vor ein Spektrum von Bedürfnissen, bei denen die Nutzer die Ergebnisse verfeinern müssen, um ihre spezifischen Ziele zu erreichen. Dies gilt insbesondere für Aktivitäten wie Recherche, Brainstorming, Erstellung kreativer Inhalte, Verfeinerung von Bildern oder sogar Bearbeitung. Die immer größer werdenden Kontextfenster und multimodalen Fähigkeiten machen es noch wichtiger, die Nutzer durch die Komplexität zu führen.
Ob wir uns dessen bewusst sind oder nicht, wir Menschen kuratieren ständig unsere Erfahrungen mit der Welt. Diese Kuratierung kann so aussehen, dass wir bestimmte Schlüsselwörter, die uns interessieren, in einem Gespräch hervorheben oder in einem Buch manuell markieren. Bei der Beobachtung von Nutzern, die ChatGPT zum Brainstorming verwenden, fiel mir ein ähnliches Markierungsverhalten auf. Die Benutzer konnten zu diesem Zeitpunkt nicht mit den Hervorhebungen interagieren, sondern nutzten Teile davon, um ihre nächsten Schritte zu leiten. Dies zeigt, dass die anfängliche Ausgabe zwar nicht ganz den Bedürfnissen des Nutzers entspricht, aber dennoch konkrete Anhaltspunkte für die nächsten Schritte liefert. Wenn es den Nutzern leichter gemacht wird, ihre Ergebnisse zu kuratieren und zu verfeinern, können sowohl der Nutzer als auch die Maschine qualitativ hochwertigere Ergebnisse erzielen.
In der obigen Abbildung sind Inpainting, Threaded Conversations und das Hervorheben von Interaktionen Beispiele, die zeigen, wie Benutzer bestimmte Teile der Informationen kuratieren können, um einen relevanteren Kontext zu schaffen und bessere Ergebnisse zu erzielen.
Ein weiteres Beispiel ist das Verfassen eines gut recherchierten Berichts. Die Reise eines Benutzers beginnt oft mit einer umfassenden Recherche, die zur Entdeckung von Schlüsselpunkten führt, die eine tiefere Untersuchung rechtfertigen. Während er Informationen sammelt und bewertet, stellt er sie nach und nach zusammen und fasst sie in seinem endgültigen Bericht zusammen. In diesem Prozess fungieren Momente, in denen bestimmte Inhalte hervorgehoben oder ausgewählt werden, als wichtige Anker, die die KI dazu anleiten, relevantere Ergebnisse und mehr Kontext zu liefern. Dieser Weg erfordert Möglichkeiten für die Nutzer, Hervorhebungen sowohl zu speichern als auch zu konsumieren.
In der obigen Abbildung sind Inpainting, Threaded Conversations und das Hervorheben von Interaktionen Beispiele, die zeigen, wie Benutzer bestimmte Teile der Informationen kuratieren können, um einen relevanteren Kontext zu schaffen und bessere Ergebnisse zu erzielen.
Ein weiteres Beispiel ist das Verfassen eines gut recherchierten Berichts. Die Reise eines Benutzers beginnt oft mit einer umfassenden Recherche, die zur Entdeckung von Schlüsselpunkten führt, die eine tiefere Untersuchung rechtfertigen. Während er Informationen sammelt und bewertet, stellt er sie nach und nach zusammen und fasst sie in seinem endgültigen Bericht zusammen. In diesem Prozess fungieren Momente, in denen bestimmte Inhalte hervorgehoben oder ausgewählt werden, als wichtige Anker, die die KI dazu anleiten, relevantere Ergebnisse und mehr Kontext zu liefern. Dieser Weg erfordert Möglichkeiten für die Nutzer, Hervorhebungen sowohl zu speichern als auch zu konsumieren.
Genügend Vertrauen schaffen
Die generative KI hat zwar die Interaktion mit der Technologie für die Nutzer vereinfacht, aber das Vertrauen ist nach wie vor ein großes Hindernis für eine breite Akzeptanz. Das war in der Vergangenheit so und ist auch heute noch so. Der Schlüssel zum Aufbau und zur Förderung der Akzeptanz neuer KI-Tools liegt im Umgang mit Vertrauen.
Unter den vielen Rahmenwerken zum Verständnis der Akzeptanz und Nutzung neuer Technologien durch Menschen waren zwei besonders inspirierend: die Unified Theory of Acceptance and Use of Technology (UTAUT) und das Fogg’s Behavior Model (FBM).
Das ist eine nützliche Vereinfachung: UTAUT geht davon aus, dass die Nutzungsabsicht von der Leistungserwartung, der Anstrengungserwartung, dem sozialen Einfluss und den erleichternden Bedingungen beeinflusst wird. Beispielsweise könnte sich jemand für die Nutzung eines Kundenmanagement-Tools entscheiden, weil er glaubt, dass es ihm effektiv hilft, seine Verkaufsziele zu erreichen (Leistungserwartung), er die App einfach und benutzerfreundlich findet (Anstrengungserwartung), seine Kollegen und Mentoren sie ebenfalls nutzen und empfehlen (sozialer Einfluss) und seine Unternehmensdatenbank über sie zugänglich ist (erleichternde Bedingungen).
Eine parallele Theorie, die FBM, vereinfacht das Verhalten in eine Funktion von Motivation, Fähigkeit und einem Anlass (oder Auslöser). Der Kauf eines Kaffees wird beispielsweise durch den Wunsch nach Koffein, das Vorhandensein von Geld und eines nahegelegenen Cafés sowie durch das Schild des Cafés als Auslöser ausgelöst.
Generative KI reduziert den wahrgenommenen Aufwand, um Ergebnisse zu erzielen. Anekdotisch betrachtet, haben viele Nutzer mit generativer KI ihre Trägheit bei der Aktivierung überwunden. Um jedoch sicherzustellen, dass mehr Nutzer versuchen, sich zu engagieren und dabei zu bleiben, spielt Vertrauen eine entscheidende Rolle.
Im Zusammenhang mit der Gestaltung von Vertrauen gibt es viele Perspektiven und Rahmenwerke wie die oben genannten. Hier werden wir weiter vereinfachen und darüber nachdenken, dass Vertrauen durch folgende Faktoren geprägt wird: frühere Erfahrungen, Risikotoleranz, Konsistenz der Interaktion und sozialer Kontext.
Frühere Erfahrungen: Wir müssen uns darüber im Klaren sein, dass die Benutzer ein gewisses Gepäck mitbringen. Sie kommen mit einem durch frühere Erfahrungen geschaffenen Kontext zu uns. Um diese Vertrauensbasis zu beeinflussen, müssen wir einfach das Rad nicht neu erfinden. Vertraute Schnittstellen und Interaktionen ermöglichen es den Benutzern, das Vertrauen aus der Vergangenheit in die Gegenwart zu übertragen. Es ist viel einfacher, auf dieser Vertrauensbasis aufzubauen, als gegen sie zu arbeiten. Ein Beispiel aus dem Bereich der Konversations-KI: Anstatt einen Benutzer aufzufordern, eine Eingabeaufforderung einzugeben, können wir die unterbewussten Tendenzen zur Spiegelung in Gesprächen nutzen, indem wir Antworten verwenden, um die Art und Weise der Benutzerinteraktion zu beeinflussen.
Risikotoleranz: Verstehen Sie, dass die Nutzer negative Ergebnisse vermeiden wollen. Der Schlüssel dazu ist zu verstehen, welche Risiken die Nutzer nicht eingehen wollen. Wir müssen das Risiko unter die Risikotoleranz der Nutzer senken. Einige Methoden zur Beeinflussung der Risikotoleranz sind: Erhöhung der Transparenz, Benutzerkontrolle, Zustimmung des Benutzers, Einhaltung von Vorschriften. Die Schaffung ausgefeilter Erfahrungen kann die ästhetische Benutzerfreundlichkeit nutzen, um die Risikoerwartung zu senken. Produktspezifische Ansätze werden jedoch immer effektiver sein. Stellen Sie sich zum Beispiel eine konversationelle KI für Ärzte vor, die Diagnosen stellt. Die Risikotoleranz ist sehr gering. Eine Fehldiagnose wäre sowohl für den Arzt als auch für den Patienten äußerst folgenreich. Die Gewährleistung von Transparenz bei der Ausgabe mit Verweisen, prompten Unterbrechungen und widersprüchlichen Perspektiven würde das Risiko wirksam verringern.
Konsistenz der Interaktion: Interaktion ist sowohl der Output als auch die Art und Weise, wie ein Nutzer dorthin gelangt. Die Benutzer sollten sich nicht fragen müssen, ob verschiedene Wörter, Situationen oder Aktionen dasselbe bedeuten. Um die Konsistenz der Interaktion zu verbessern, muss sichergestellt werden, dass die interne und externe Konsistenz vom Layout bis zum Text der Schaltflächen gewahrt bleibt. Im Kontext einer konversationellen KI kann Interaktionskonsistenz so aussehen, dass die Antworten ähnliche Formate haben und die Wörter während der gesamten Konversation dieselbe Bedeutung haben. Wenn ein Benutzer eine Zusammenfassung eines Themas anfordert, sollte diese nicht in einer Interaktion wie ein Essay und in einer anderen wie eine Aufzählung aussehen, es sei denn, der Benutzer fragt ausdrücklich danach.
Sozialer Kontext: Möglicherweise die sichtbarste Ebene. Der soziale Kontext kann Befürwortungen von vertrauenswürdigen Quellen wie einem Vorgesetzten oder Erleichterungen innerhalb eines vertrauenswürdigen Netzwerks umfassen, wie z. B. die Verbindung mit vorab genehmigter Unternehmenssoftware. Der soziale Kontext kann durch Social-Proofing-Strategien und die Schaffung von Social-Proofing-Möglichkeiten innerhalb der Interaktion beeinflusst werden. Im Zusammenhang mit einem LLM für interne Datenbanken kann dies bedeuten, dass die Arbeit des Benutzers und seines direkten Teams hervorgehoben wird. Der Hinweis darauf, dass das System Einblick in interne Daten hat, trägt dazu bei, das Vertrauen zu stärken, dass das System in diesem sozialen Kontext zugelassen ist.
Bei der Entwicklung von KI-Erfahrungen, die Vertrauen schaffen sollen, lohnt es sich zu überlegen, welche dieser Faktoren im Vordergrund stehen sollten. Wenn diese Aspekte des Vertrauens verstanden und berücksichtigt werden, können KI-Erfahrungen mit den Erwartungen und Bedürfnissen der Nutzer in Einklang gebracht werden, was die allgemeine Akzeptanz erhöht. Die Berücksichtigung von Vertrauen ist nicht nur vorteilhaft, sondern auch notwendig für die zukünftige Integration und Akzeptanz von generativen KI-Tools.
Context Ecosystems
Dieser Artikel befasst sich mit den aufkommenden Trends der Kontextbündelung und der Nutzerkuration sowie mit dem Design für Vertrauen. Insgesamt hat die generative KI die Produktivität revolutioniert, indem sie die Hürde für alltägliche Nutzer senkt, mit Aufgaben zu beginnen, was die Vorteile und den Weg der GUI widerspiegelt. Die moderne UX hat sich jedoch weit über Fenster und Zeiger hinaus entwickelt. Wohin könnte sich die generative KI also als nächstes entwickeln?
GUIs ermöglichten tiefere und effizientere Benutzerinteraktionen, indem sie mehrere Programmschnittstellen unterstützten. Dies ermöglichte es den Benutzern, nahtlos zwischen verschiedenen Aufgaben zu wechseln – z. B. Buchhaltung in einer Anwendung und Berichterstattung in einer Präsentation in einer anderen Anwendung. Die Verwaltung und das Handeln in unterschiedlichen Kontexten unterstreicht die Produktivitätsgewinne, die sich aus der Überbrückung verschiedener Benutzerabsichten und Anwendungen ergeben.
Zu den oben gezeigten Beispielen gehören Edge, Chrome und Pixel Assistant, die KI-Funktionen integrieren, damit der Benutzer generative KI für die Schnittstelle mit seiner Software nutzen kann. In diesem Fall ist sich der LLM der Software bewusst, was über ein Gesprächsfenster hinausgeht, auf das frühere Anwendungen ihn beschränkten.
Wenn wir uns die Vergangenheit anschauen, sehen wir, wie die grafische Benutzeroberfläche eine digitale Leinwand für den Benutzer geschaffen hat, die er gestalten kann. Die Vorteile gegenüber der physischen Welt: verbesserte Effizienz, Skalierbarkeit und Produktivität. Es ist sehr wahrscheinlich, dass die generative KI einen ähnlichen Weg einschlagen wird, bei dem KI zu Kollaborateuren wird, die unser tägliches Leben zu einer gemeinsamen Erfahrung machen. Die Zukunft könnte ein erweitertes Ökosystem sein, in dem konversationelle und generative KI-Tools spezialisierte Agenten innerhalb eines zusammenhängenden Workflows verbinden. Dieser Ökosystem-Ansatz könnte die Interaktionen zwischen den Nutzern weiter vertiefen und ein integrierteres und produktiveres Erlebnis in verschiedenen digitalen und realen Umgebungen ermöglichen.
Künftige Trends sind nicht nur Konversations- oder Begleit-Erfahrungen. Ähnlich wie heute wird die generative KI direkt an der Erstellung von Ergebnissen arbeiten. Derzeit beschäftigen sich die Nutzer mit den Ergebnissen, aber der Schöpfer und Eigentümer der Leinwand ist letztendlich die KI. Mit der Entwicklung von KI-Produkten, die den Menschen in den Mittelpunkt stellen, werden die nächsten Schritte darin bestehen, Räume zu schaffen, in denen die KI und der Benutzer auf derselben Leinwand zusammenarbeiten können. Wir haben das bereits bei älteren Tools wie Grammarly gesehen, und es entwickelt sich bei generativen Tools wie Github Copilot. Wir sehen die generative KI als Mitwirkenden, wobei der Benutzer letztendlich den Arbeitsbereich erstellt und besitzt. Wenn sich unser Komfort und die Technologie weiterentwickeln, könnte generative KI eine größere Rolle bei der Verwaltung sowohl der digitalen als auch der physischen Aspekte unseres täglichen Lebens (IoT) spielen, die Realität erweitern und unseren Ansatz für Leben und Produktivität neu definieren.
Die sich entwickelnden generativen KI-Interaktionen wiederholen die Geschichte der Mensch-Computer-Interaktion. In dem Maße, wie wir bessere Erfahrungen schaffen, die den Kontext in einfachere Interaktionen einbinden, den Nutzern die Möglichkeit geben, ihre Erfahrungen selbst zu gestalten, und bekannte Ökosysteme erweitern, werden wir generative KI vertrauenswürdiger, zugänglicher, nutzbarer und vorteilhafter für alle machen.
Quelle: medium.com