AI时代的人机交互:从工具到伙伴的设计演进
2025年6月1日

普罗米修斯为人类盗取火种的神话,象征着工具使用对文明的根本性改变。如今,我们正目睹着另一个普罗米修斯时刻:AI开始掌握工具调用的能力。
自GPT等大语言模型问世以来,纯文本交互已成为主流形态。这种直观而直觉的交互方式,让我们不自觉地将AI视为朋友或陪伴者,催生了像Replika这样的AI陪伴应用。

这些应用从文字进化到语音,再到视频互动,甚至引入记忆功能,让虚拟伙伴变得有血有肉。然而,真正的拐点并非交互形式的多样化,而在于AI工具调用能力的觉醒。这个时代的到来比我们想象的更快,也更深刻地改变着人机交互的本质。
理论框架的演进与融合
从DOS系统到可视化界面,再到如今的自然语言交互,我们见证了一条清晰的发展脉络:用户学习成本不断降低,操作门槛持续下降。传统的技术接受模型(TAM)和统一技术接受与使用理论(UTAUT)关注用户如何理解和接受新技术,强调感知有用性和感知易用性等核心要素。即便在AI时代,这些理论仍是理解用户行为的重要基础。
但新的理论框架也在兴起。CASA(计算机作为社会行为者)理论作为重要补充,将计算机视为具有社会属性的交互个体。这种理论补充并非要取代传统技术接受理论,而是提供了理解用户与AI交互的新视角。用户既会考虑AI的实用性和易用性,也会不自觉地将AI视为社会行为者。

这种理论融合意味着交互设计需要同时考虑技术接受的传统要素和社会交互的新特征。很难想象让老年人使用Photoshop合成照片,但我们却能轻易想象他们通过语音描述需求,让AI直接生成图片。这既体现了技术易用性的提升,也展现了社会化交互的自然性。
认知负荷与归因机制的重新定义
AI的可解释性问题涉及技术透明度,更关乎用户的AI认知水平。"AI素养"(AI literacy)这一新概念,描述了用户对AI的认知程度如何影响信任度和协作体验质量。
从TAM理论角度,用户的AI素养直接影响其对AI技术的感知有用性和感知易用性。具备较高AI素养的用户更容易理解AI的能力边界,产生更合理的预期和更好的使用体验。
从CASA理论角度,用户期望AI能够像人类一样进行解释和沟通。
这种认知差异影响用户的付费意愿和归因方式。当结果出错时,用户会归咎于AI还是反思自己的指令?具备较高AI素养的用户往往能够更准确地进行归因,既不盲目信任也不完全否定AI的价值。
因此,设计AI交互界面时,需要在任务执行全过程保持透明度:
执行前 展示结果案例
执行中 告知具体步骤
完成后 反馈执行状况
这既符合TAM理论中提高感知易用性的要求,也满足了CASA理论中用户对社会化交互的期望。
Agent人机交互要点探析

在从事Agent设计工作的过程中,我们意识到一个重要转变:从把AI当作处理工具,转向让它交付期望的结果。由于世界上存在各种工具和信息系统,这些结果比想象中更加多样化。更重要的是,随着深度思考能力的加入,AI在执行前可以自主制定计划并逐步执行。
任务式交互的兴起
基于这种变化,我们引入了任务式交互。这与传统的to-do list有本质区别:传统清单是个人提醒工具,执行者是自己;而面向Agent的任务清单,执行者是AI。这不仅是执行主体的改变,更是交互模式的根本转变。用户只需描述期望结果和约束条件,AI会自主完成从规划到执行的全过程。

从理论角度分析,这种任务式交互既提高了技术的感知有用性(用户更直接获得结果),也降低了感知复杂性(无需学习复杂操作)。同时,这种委托式交互符合CASA理论中用户将计算机视为能够承担责任的社会行为者特征。
我们选择任务式交互源于对AI交互本质的深度思考。自大语言模型问世以来,讨论的不只是语言处理工具本身,而是更深层次的问题:AI是否会成为新的知识工作者?正是因为AI的交互载体是最自然的人类交流方式——自然语言。
让人机交互更加符合「直觉」
跟随人工智能发展的人机交互,必然朝着无限接近人与人交互方式的方向前进。
复杂的交互会被替代,符合直觉的设计会继续兴起。但这种趋势并不意味着可以忽视传统技术接受理论,相反,需要在保持技术易用性和有用性基础上,融入更多社会化交互元素。
在制作Agent任务界面时,我们尝试了多种形式。实践中发现,高效工具无法触达更多用户的重要原因是学习门槛过高。从TAM理论角度,这正是感知易用性不足导致的用户接受度问题。
通过Agent方式降低门槛,产品必然迈上新台阶。这会体现在受众扩大、商业指标改善和用户评价提高等维度。降低门槛不意味着功能简化,而是通过更自然的交互方式,让复杂功能变得易于使用。
用户与直觉化设计的Agent交互时,既能感受到技术的强大功能(感知有用性),又能以最自然方式使用这些功能(感知易用性),同时享受类似与人交流的社会化体验。这种多层次用户体验正是现代AI产品设计的核心目标。

可解释性与信任建构机制
市场上许多公司在做自动化流程,如自动化爬虫等,它们强调将用户界面改得更友好,现在也在使用AI改进流程。然而,单纯做自动化工具更适合拓展B端用户。从用户使用角度说,AI时代意味着拥有更简单、直接、高效的与计算机互动方式。展示工具复杂性反而可能成为障碍,关键是直接交付用户需要的结果。
从理论层面分析,B端用户通常具有更高技术素养,更能理解自动化工具价值(感知有用性高),也更愿意投入时间学习(对感知易用性要求相对较低)。C端用户更希望通过简单直观方式获得结果,对感知易用性要求更高,也更容易将AI视为能够提供服务的社会行为者。
为建立用户对AI的信任,需要在整个任务执行过程中保持适度透明度:任务开始前展示可能的执行结果案例,执行中适时汇报关键步骤进展,完成后清晰反馈执行状况。这种信任建构机制需要同时考虑技术接受和社会交互的双重需求。

Agent人机交互框架的核心要素
基于以上分析,我们可以预测未来Agent人机交互框架将包含以下几个关键要素:
自然语言理解
AI助手要能理解用户说的话,把不明确的要求转化为具体任务,并把复杂任务拆分成小步骤。这样用户就不用学习特别的操作方法,直接说出需求就行。
多模态
AI助手要支持文字、语音、图片等多种交流方式,让用户可以用最习惯的方式表达需求和接收回复。
及时反馈
AI助手在执行任务时要告诉用户它在做什么,包括计划怎么做、现在进行到哪一步、完成得怎么样。这样用户能够了解整个过程,更放心地使用。
长期记忆
AI助手要记住用户的喜好和以前的对话内容,这样就能提供更贴心的服务,像一个了解你的朋友,而不是冷冰冰的工具。
错误处理
当任务出现问题时,AI助手要能主动找出原因,询问用户或提供其他方案。同时要根据用户的反馈不断改进,提供更好的服务。
©️ 2023 LI DONG LIN