AI硬件的交互，正在往更深层次走

2026-04-28 11:42

引言

“App时代结束。”

近日，一段一分多钟的视频在网络上流传。视频里没有繁琐的操作，只有日常口语说出需求，AI便直接生成对相应的显示画面、呈现详细信息——不用找图标、不用翻菜单，也不用在App界面之间反复切换。

在此之前，「AR圈」获悉，乐奇Rokid发布了一张海报，写明近期推送OTA将联合开发者共同推动，并打出"AI交互分水岭，乐奇Rokid开发者狂欢"，而海报正中央，几个醒目的大字：真正Native AIUI架构，即将开启新时代！

“下一代智能终端不是更大的屏，而是眼前的世界”乐奇Rokid创始人&CEO祝铭明的这句话，恰恰戳中了更基础的问题：终端的价值，正在从"承载孤立的App"转向"让数字能力无缝融入真实世界"。当交互入口不再是局限一个个App，承接这种新范式的硬件载体，也必然随之迭代。智能眼镜，正在走到舞台中央。

为什么下一代智能终端，是智能眼镜？

要回答这个问题，先要明确消费级终端的核心迭代底层演讲逻辑：更短的交互路径、更自然的感官适配、更全时的场景覆盖。

从这个标准来衡量，智能手机的形态局限已逐步显现。它始终是一块需要"拿起来看"的屏幕，要求用户把视线从现实世界里抽离，转移到几英寸的屏幕上，同时腾出手来操作——本质上是让人的感官适应硬件，而不是反过来。

智能眼镜提供的，是另一种方向。

交互路径大幅缩短：数字信息直接叠加在你正在看的现实场景里，口语就能完成指令输入和信息接收，无需手部参与。例如，骑行途中收到导航提示，手机需要停车、掏出来、解锁、打开App，而智能眼镜是将导航提示直接呈现在你的视野里。

听劝”的乐奇Rokid，率先走向智能眼镜下一站

乐奇AI眼镜导航功能，图源：乐奇Rokid

感官适配更符合人类本能：人类超80%的外界信息获取来自视觉，日常交流依赖听觉与口语表达，这是最本能的信息交互方式。智能眼镜直接锚定用户第一视角，无需用户转移视线、切换场景即可获取数字信息，实现了硬件形态对人类感官的原生适配。

场景覆盖实现全时在线：智能手机是典型的 “被动等待唤醒” 设备，在运动、双手被占用、亲子陪伴等场景中，使用体验会受到严重限制；而当前主流消费级智能眼镜，整机重量已普遍控制在50g以内，接近普通太阳镜的佩戴体验，可满足用户全天候佩戴需求，实现 “低存在感、全时在线”，覆盖绝大多数日常使用场景。

形态之外，还有一个逻辑层面的转变。手机生态的核心是"人适配应用"——用户必须知道哪个App能解决需求，进去，按预设路径操作。而AI时代的方向是"应用适配人"——以用户意图为核心，由Agent跨场景完成响应。智能眼镜的摄像头、麦克风是AI Agent的第一视角感知入口，光学显示是实时输出窗口，全时在线让Agent可以全程伴随。例如，游客在国外街头，AI助手便能直接帮你识别翻译路牌、菜单等，信息叠加在视野里，省去打开翻译App的步骤。

这种“应用适配人”的理念，正是未来人机交互的核心方向。它要求终端不仅仅是简单的信息载体，更要能够深入理解用户的意图，并高效、直观地提供服务。然而，要让智能眼镜真正成为承载这种“意图驱动”交互的理想平台，仍需突破现有的交互模式局限。

而在那段一分多钟的视频里，展示佩戴智能眼镜不需要繁琐的操作，只需要日常口语说出需求，便能让AI便直接生成对应的显示界面、呈现详细信息场景。直观地描绘了AIUI这一全新人机交互范式的核心特征。而乐奇Rokid高喊：“真正Native AIUI架构，即将开启新时代！”，这也意味着，搭载AIUI的智能眼镜有望成为破局现有交互瓶颈、释放AI硬件潜力的关键所在。

乐奇Rokid发布一张海报，写明近期推送OTA将联合开发者共同推动，并打出"AI交互分水岭，乐奇Rokid开发者狂欢"，而海报正中央，几个醒目的大字：真正Native AIUI架构，即将开启新时代！，图源：乐奇Rokid

从机器适配人，到机器懂人

那么，AIUI是什么？与之前的交互方式有何区别？首先要理清人机交互的演进逻辑。

CLI（Command Line Interface 命令行界面）：机器的语言，属于少数人的特权

作为人机交互最早的形态。它的底层逻辑是“人类必须适配机器”——用户想要操控设备，必须记忆大量的文本命令和固定语法。这种模式在UNIX、MS-DOS的普及走向成熟。对于程序员、运维人员等专业用户来说，指令操作高效且灵活，能实现高度定制化的设备操控；但对于普通大众而言，专业语法筑起的门槛难以跨越。

打个通俗的比方：CLI就像直接走进后厨指挥厨师做菜，你必须精通专业烹饪术语，懂火候、配料、工序，才能做出想要的菜品，外行人完全摸不着头脑。

CLI（Command Line Interface 命令行界面），图源：51CTO

GUI（Graphical User Interface 图形用户界面）：人类的视觉语言，普及但自带桎梏

用户通过窗口、图标、按钮、菜单等视觉元素与计算机交互。GUI构建了一套“现实隐喻系统”，用桌面、文件夹、垃圾桶等大众熟悉的图形符号映射现实生活逻辑，用户不需要懂专业指令，通过点击、拖拽等就能完成操作。

但GUI依旧没有摆脱“人适应机器预设”的底层逻辑。所有操作都被限定在开发者提前设计好的App路径里，打车、订餐、办公、转账都要对应独立App。用户需要在一个个功能孤岛里切换、寻路，想要完成复杂任务，必须一步步点击入口。

用点菜场景来比喻，GUI就像是看图点餐的快餐店，直观易懂，老少皆宜，但你只能点菜单上固定的套餐，没法随心所欲表达个性化需求。

GUI（Graphical User Interface 图形用户界面），图源：thetechhacker

AIUI（AI User Interface 人工智能用户界面）：意图的语言，突破预设的边界

是当前人机交互演进中，正在快速成型的第三种核心范式。在大语言模型普及之前，Siri、Alexa等早期语音助手，已经尝试自然语言交互，但受限于模型能力，只能执行固定语音指令，无法理解深层意图，更没法处理复杂任务，始终停留在辅助工具层面。

大语言模型的出现改变了这一局面。AIUI的核心逻辑是“机器主动理解人类意图”，用户不需要记忆指令、不需要寻找App入口，只用日常口语、自然语言表达想法，机器就能自主解读意图、跨工具执行任务。

还是用点餐来比喻：AIUI就像是懂你的“私人管家”，不用看着固定菜单点套餐，也不需要亲自跑到后厨用专业的烹饪术语指挥火候和配料，只需随口说明喜好和需求，就能直接安排妥当，直接跳出预设选项的束缚。

AIUI 的技术内核：从“能听懂”到“能落地”

AIUI从来不是在GUI上加一层AI包装，而是基于AI大模型驱动的、多模态融合的、主动式的人机交互范式。

其精髓体现在两大维度：

一是多模态融合感知，区别于传统交互 “指令-执行” 的单一路径，AIUI则是一套覆盖 “感知-理解-推理-执行-反馈” 全链路，理解用户的 “深层意图” 而非仅识别 “表面指令”。

二是上下文连续感知，可基于用户的使用场景、历史交互信息实现连续交互，无需用户每一次操作都重复完整指令。例如用户说 “查询某家公司” ，传统语音助手仅能完成相关信息的搜索展示，而在AIUI框架下，智能眼镜的AI Agent可同步处理视觉、语音、上下文多维度信息。

而AIUI从技术概念到落地可用，核心依赖云端与端侧的深度协同，二者分工明确、互为支撑，缺一不可。

云端负责"想清楚"：云端承担的是高复杂度的计算任务：千亿参数级别的大模型推理、复杂的多模态内容生成、跨场景任务调度，这些目前都需要云端的算力来支撑。同时，云端也是跨设备连续交互的基础——用户在眼镜上开始的对话，上下文不断。

端侧负责"做得到"：云端再强，如果端侧承接不住，体验依然会断。端侧的核心价值在于：低延迟响应。端侧NPU芯片的持续迭代，让小体积设备可以在本地完成部分模型推理，是AIUI真正可用的硬件前提。

值得关注的是，原有AI交互架构存在两大痛点：一是只能回复文本内容，无法承载图形化界面；二是智能体只能在独立场景里运行，有明显的进入和退出逻辑，交互上不够自然。

针对这两个问题，乐奇Rokid的Native AIUI给出了方案。据乐奇Rokid介绍，Agent支持 JavaScript渲染，可实现图形化界面的渲染方式；智能体增加了"即用即走"的能力，由AI统一分发处理意图、对齐上下文，一段对话中可以自然触发多个智能体，交互流程不再割裂。

与此同时，这套架构向开发者全面开放，JavaScript开发者可以参与到乐奇Rokid AI Agent开放平台，拓宽开发者的生态；对于用户而言交互更加优化，有效提高信息获取的效率。

App时代的底层逻辑，正在被重写

回到文章开头："App时代结束。"

这一判断的深层依据在于，当智能眼镜为AIUI提供了契合的硬件载体，这场变革最终指向——App的核心生存逻辑，正在被AIUI重写。

传统UI和AIUI不同区别：

维度传统UIAIUI核心逻辑人适配机器机器适配人交互方式固定控件（图标、菜单、按钮）语音+多模态感知+预测操作模式用户分步手动操作AI理解意图能力边界仅能响应开发者预设的功能，有固定边界可基于用户意图动态生成解决方案，无固定边界

GUI时代的核心产品单元是App。其本质是一种"意图的预分配"，开发者提前把所有可能的用户行为，拆解成一个个固定的按钮、菜单和操作路径，分门别类地打包进独立的应用里。用户操作必须严格遵循预设路线，无自主空间。

手机桌面的图标网格，是一张被切分得支离破碎的 “功能地图”——外卖、银行、出行、办公，每一个App都是一座信息孤岛。用户每天要做的，就是在这些孤岛之间来回穿梭、手动搬运信息、切换场景，完成一个复杂任务往往要切换五六个App，十几步操作。

AIUI的核心逻辑不是"用户进入容器完成任务"，而是"意图直接触发行动"——当AI能够理解意图并跨系统调用工具执行任务，用户就不再需要在App之间手动搬运信息、切换场景。固定的界面不再是必需品，预设的操作路径失去了核心价值，用户的意图，会直接触发行动。

此外，爆火的OpenClaw所展示的就让大模型具备了操作电脑的“手脚”，用户只需一句话指令，AI便能接管电脑完成复杂的自动化工作流，彻底跳出对话框的限制。而OpenClaw社区负责人AndyML在X平台（推特）表示：将基于Rokid Glasses Developer Kit，开发OpenClaw的官方正式版本。

OpenClaw社区负责人AndyML在X平台（推特）表示：将基于Rokid Glasses Developer Kit，开发OpenClaw的官方正式版本，图源：AR圈

这一趋势已成为全球消费电子行业的共识。手机品牌Nothing CEO Carl Pei在SXSW大会上更是直言：“现有的App生态终将被AI取代，未来装置的核心不再是应用程式，而是理解使用者意图的AI系统。”

“在未来5-6年内，我们将不再有传统意义上的手机。我们现在称之为‘手机’的设备，实际上会变成一个AI推理的边缘节点（AI edge node）”马斯克在《Joe Rogan Experience》播客节目中详细阐述了对AI发展的看法，“没有操作系统，没有App，只剩下屏幕、音频，以及尽可能多的本地AI。服务器端的AI会和设备端的AI实时通信，生成你可能想要的任何实时视频或内容。大多数人类消费的内容，都将由AI生成。”

写在最后

从CLI到GUI，再到AIUI；从以云为中心的集中式架构到云边端协同落地；从App孤岛到Agent交互——人机交互的每一次范式跃迁都是一次"人与机器之间距离"的缩短。

XR研究院创始人朱殿荣指出，智能眼镜行业的竞争，终究要回归到系统能力的深度整合上来。胜负的关键从来不是单一的硬件参数，而是谁能真正打通硬件感知、AI能力与云边端协同的全链路。对于整个智能眼镜行业而言，这场变革带来的，不仅仅是产品形态的升级迭代，更是一次发展逻辑的重构。

原文标题 : AI硬件的交互，正在往更深层次走