AI硬件的交互,正在往更深层次走
01
引言
“App时代结束。”
近日,一段一分多钟的视频在网络上流传。视频里没有繁琐的操作,只有日常口语说出需求,AI便直接生成对相应的显示画面、呈现详细信息——不用找图标、不用翻菜单,也不用在App界面之间反复切换。
在此之前,「AR圈」获悉,乐奇Rokid发布了一张海报,写明近期推送OTA将联合开发者共同推动,并打出"AI交互分水岭,乐奇Rokid开发者狂欢",而海报正中央,几个醒目的大字:真正Native AIUI架构,即将开启新时代!
“下一代智能终端不是更大的屏,而是眼前的世界”乐奇Rokid创始人&CEO祝铭明的这句话,恰恰戳中了更基础的问题:终端的价值,正在从"承载孤立的App"转向"让数字能力无缝融入真实世界"。当交互入口不再是局限一个个App,承接这种新范式的硬件载体,也必然随之迭代。智能眼镜,正在走到舞台中央。
02
为什么下一代智能终端,是智能眼镜?
要回答这个问题,先要明确消费级终端的核心迭代底层演讲逻辑:更短的交互路径、更自然的感官适配、更全时的场景覆盖。
从这个标准来衡量,智能手机的形态局限已逐步显现。它始终是一块需要"拿起来看"的屏幕,要求用户把视线从现实世界里抽离,转移到几英寸的屏幕上,同时腾出手来操作——本质上是让人的感官适应硬件,而不是反过来。
智能眼镜提供的,是另一种方向。
交互路径大幅缩短:数字信息直接叠加在你正在看的现实场景里,口语就能完成指令输入和信息接收,无需手部参与。例如,骑行途中收到导航提示,手机需要停车、掏出来、解锁、打开App,而智能眼镜是将导航提示直接呈现在你的视野里。
乐奇AI眼镜导航功能,图源:乐奇Rokid
感官适配更符合人类本能:人类超80%的外界信息获取来自视觉,日常交流依赖听觉与口语表达,这是最本能的信息交互方式。智能眼镜直接锚定用户第一视角,无需用户转移视线、切换场景即可获取数字信息,实现了硬件形态对人类感官的原生适配。
场景覆盖实现全时在线:智能手机是典型的 “被动等待唤醒” 设备,在运动、双手被占用、亲子陪伴等场景中,使用体验会受到严重限制;而当前主流消费级智能眼镜,整机重量已普遍控制在50g以内,接近普通太阳镜的佩戴体验,可满足用户全天候佩戴需求,实现 “低存在感、全时在线”,覆盖绝大多数日常使用场景。
形态之外,还有一个逻辑层面的转变。手机生态的核心是"人适配应用"——用户必须知道哪个App能解决需求,进去,按预设路径操作。而AI时代的方向是"应用适配人"——以用户意图为核心,由Agent跨场景完成响应。智能眼镜的摄像头、麦克风是AI Agent的第一视角感知入口,光学显示是实时输出窗口,全时在线让Agent可以全程伴随。例如,游客在国外街头,AI助手便能直接帮你识别翻译路牌、菜单等,信息叠加在视野里,省去打开翻译App的步骤。
这种“应用适配人”的理念,正是未来人机交互的核心方向。它要求终端不仅仅是简单的信息载体,更要能够深入理解用户的意图,并高效、直观地提供服务。然而,要让智能眼镜真正成为承载这种“意图驱动”交互的理想平台,仍需突破现有的交互模式局限。
而在那段一分多钟的视频里,展示佩戴智能眼镜不需要繁琐的操作,只需要日常口语说出需求,便能让AI便直接生成对应的显示界面、呈现详细信息场景。直观地描绘了AIUI这一全新人机交互范式的核心特征。而乐奇Rokid高喊:“真正Native AIUI架构,即将开启新时代!”,这也意味着,搭载AIUI的智能眼镜有望成为破局现有交互瓶颈、释放AI硬件潜力的关键所在。
乐奇Rokid发布一张海报,写明近期推送OTA将联合开发者共同推动,并打出"AI交互分水岭,乐奇Rokid开发者狂欢",而海报正中央,几个醒目的大字:真正Native AIUI架构,即将开启新时代!,图源:乐奇Rokid
03
从机器适配人,到机器懂人
那么,AIUI是什么?与之前的交互方式有何区别?首先要理清人机交互的演进逻辑。
CLI(Command Line Interface 命令行界面):机器的语言,属于少数人的特权
作为人机交互最早的形态。它的底层逻辑是“人类必须适配机器”——用户想要操控设备,必须记忆大量的文本命令和固定语法。这种模式在UNIX、MS-DOS的普及走向成熟。对于程序员、运维人员等专业用户来说,指令操作高效且灵活,能实现高度定制化的设备操控;但对于普通大众而言,专业语法筑起的门槛难以跨越。
打个通俗的比方:CLI就像直接走进后厨指挥厨师做菜,你必须精通专业烹饪术语,懂火候、配料、工序,才能做出想要的菜品,外行人完全摸不着头脑。
CLI(Command Line Interface 命令行界面),图源:51CTO
GUI(Graphical User Interface 图形用户界面):人类的视觉语言,普及但自带桎梏
用户通过窗口、图标、按钮、菜单等视觉元素与计算机交互。GUI构建了一套“现实隐喻系统”,用桌面、文件夹、垃圾桶等大众熟悉的图形符号映射现实生活逻辑,用户不需要懂专业指令,通过点击、拖拽等就能完成操作。
但GUI依旧没有摆脱“人适应机器预设”的底层逻辑。所有操作都被限定在开发者提前设计好的App路径里,打车、订餐、办公、转账都要对应独立App。用户需要在一个个功能孤岛里切换、寻路,想要完成复杂任务,必须一步步点击入口。
用点菜场景来比喻,GUI就像是看图点餐的快餐店,直观易懂,老少皆宜,但你只能点菜单上固定的套餐,没法随心所欲表达个性化需求。
GUI(Graphical User Interface 图形用户界面),图源:thetechhacker
AIUI(AI User Interface 人工智能用户界面):意图的语言,突破预设的边界
是当前人机交互演进中,正在快速成型的第三种核心范式。在大语言模型普及之前,Siri、Alexa等早期语音助手,已经尝试自然语言交互,但受限于模型能力,只能执行固定语音指令,无法理解深层意图,更没法处理复杂任务,始终停留在辅助工具层面。
大语言模型的出现改变了这一局面。AIUI的核心逻辑是“机器主动理解人类意图”,用户不需要记忆指令、不需要寻找App入口,只用日常口语、自然语言表达想法,机器就能自主解读意图、跨工具执行任务。
还是用点餐来比喻:AIUI就像是懂你的“私人管家”,不用看着固定菜单点套餐,也不需要亲自跑到后厨用专业的烹饪术语指挥火候和配料,只需随口说明喜好和需求,就能直接安排妥当,直接跳出预设选项的束缚。
04
AIUI 的技术内核:从“能听懂”到“能落地”
AIUI从来不是在GUI上加一层AI包装,而是基于AI大模型驱动的、多模态融合的、主动式的人机交互范式。
其精髓体现在两大维度:
一是多模态融合感知,区别于传统交互 “指令-执行” 的单一路径,AIUI则是一套覆盖 “感知-理解-推理-执行-反馈” 全链路,理解用户的 “深层意图” 而非仅识别 “表面指令”。
二是上下文连续感知,可基于用户的使用场景、历史交互信息实现连续交互,无需用户每一次操作都重复完整指令。例如用户说 “查询某家公司” ,传统语音助手仅能完成相关信息的搜索展示,而在AIUI框架下,智能眼镜的AI Agent可同步处理视觉、语音、上下文多维度信息。
而AIUI从技术概念到落地可用,核心依赖云端与端侧的深度协同,二者分工明确、互为支撑,缺一不可。
云端负责"想清楚":云端承担的是高复杂度的计算任务:千亿参数级别的大模型推理、复杂的多模态内容生成、跨场景任务调度,这些目前都需要云端的算力来支撑。同时,云端也是跨设备连续交互的基础——用户在眼镜上开始的对话,上下文不断。
端侧负责"做得到":云端再强,如果端侧承接不住,体验依然会断。端侧的核心价值在于:低延迟响应。端侧NPU芯片的持续迭代,让小体积设备可以在本地完成部分模型推理,是AIUI真正可用的硬件前提。
值得关注的是,原有AI交互架构存在两大痛点:一是只能回复文本内容,无法承载图形化界面;二是智能体只能在独立场景里运行,有明显的进入和退出逻辑,交互上不够自然。
针对这两个问题,乐奇Rokid的Native AIUI给出了方案。据乐奇Rokid介绍,Agent支持 JavaScript渲染,可实现图形化界面的渲染方式;智能体增加了"即用即走"的能力,由AI统一分发处理意图、对齐上下文,一段对话中可以自然触发多个智能体,交互流程不再割裂。
与此同时,这套架构向开发者全面开放,JavaScript开发者可以参与到乐奇Rokid AI Agent开放平台,拓宽开发者的生态;对于用户而言交互更加优化,有效提高信息获取的效率。
05
App时代的底层逻辑,正在被重写
回到文章开头:"App时代结束。"
这一判断的深层依据在于,当智能眼镜为AIUI提供了契合的硬件载体,这场变革最终指向——App的核心生存逻辑,正在被AIUI重写。
传统UI和AIUI不同区别:
维度传统UIAIUI核心逻辑人适配机器机器适配人交互方式固定控件(图标、菜单、按钮)语音+多模态感知+预测操作模式用户分步手动操作AI理解意图能力边界仅能响应开发者预设的功能,有固定边界可基于用户意图动态生成解决方案,无固定边界
GUI时代的核心产品单元是App。其本质是一种"意图的预分配",开发者提前把所有可能的用户行为,拆解成一个个固定的按钮、菜单和操作路径,分门别类地打包进独立的应用里。用户操作必须严格遵循预设路线,无自主空间。
手机桌面的图标网格,是一张被切分得支离破碎的 “功能地图”——外卖、银行、出行、办公,每一个App都是一座信息孤岛。用户每天要做的,就是在这些孤岛之间来回穿梭、手动搬运信息、切换场景,完成一个复杂任务往往要切换五六个App,十几步操作。
AIUI的核心逻辑不是"用户进入容器完成任务",而是"意图直接触发行动"——当AI能够理解意图并跨系统调用工具执行任务,用户就不再需要在App之间手动搬运信息、切换场景。固定的界面不再是必需品,预设的操作路径失去了核心价值,用户的意图,会直接触发行动。
此外,爆火的OpenClaw所展示的就让大模型具备了操作电脑的“手脚”,用户只需一句话指令,AI便能接管电脑完成复杂的自动化工作流,彻底跳出对话框的限制。而OpenClaw社区负责人AndyML在X平台(推特)表示:将基于Rokid Glasses Developer Kit,开发OpenClaw的官方正式版本。
OpenClaw社区负责人AndyML在X平台(推特)表示:将基于Rokid Glasses Developer Kit,开发OpenClaw的官方正式版本,图源:AR圈
这一趋势已成为全球消费电子行业的共识。手机品牌Nothing CEO Carl Pei在SXSW大会上更是直言:“现有的App生态终将被AI取代,未来装置的核心不再是应用程式,而是理解使用者意图的AI系统。”
“在未来5-6年内,我们将不再有传统意义上的手机。我们现在称之为‘手机’的设备,实际上会变成一个AI推理的边缘节点(AI edge node)”马斯克在《Joe Rogan Experience》播客节目中详细阐述了对AI发展的看法,“没有操作系统,没有App,只剩下屏幕、音频,以及尽可能多的本地AI。服务器端的AI会和设备端的AI实时通信,生成你可能想要的任何实时视频或内容。大多数人类消费的内容,都将由AI生成。”
06
写在最后
从CLI到GUI,再到AIUI;从以云为中心的集中式架构到云边端协同落地;从App孤岛到Agent交互——人机交互的每一次范式跃迁都是一次"人与机器之间距离"的缩短。
XR研究院创始人朱殿荣指出,智能眼镜行业的竞争,终究要回归到系统能力的深度整合上来。胜负的关键从来不是单一的硬件参数,而是谁能真正打通硬件感知、AI能力与云边端协同的全链路。对于整个智能眼镜行业而言,这场变革带来的,不仅仅是产品形态的升级迭代,更是一次发展逻辑的重构。
原文标题 : AI硬件的交互,正在往更深层次走
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论