谷歌最新研究表明,增强的推理能力并非仅仅源于更长的计算量,而是源于对复杂、类似多智能体交互的隐式模拟。
他们发现,像 DeepSeek-R1 和 QwQ-32B 这样的推理模型比基线模型和仅进行指令调整的模型展现出更大的视角多样性,从而在推理过程中激活了更广泛的异质人格特征和专业知识相关特征之间的冲突。
团队认为,推理模型在计算层面上与人类群体的集体智慧相呼应,其中多样性在系统化构建后能够促进更优的问题解决能力,并为智能体组织利用群体智慧提供了新的思路。
准备工作
研究人员首先探究构成双向对话的会话行为和社会情感角色是否普遍存在于推理轨迹中。他们使用逻辑推理模型(LLM)作为评判者,量化了每个推理轨迹中四种会话行为的出现频率。
他们还基于贝尔斯互动过程分析(IPA)考察了社会情感角色。该分析识别出 12 种互动角色。
数据方面针对涵盖符号逻辑、数学问题解决、科学推理、指令遵循和多智能体推理的 8262 个推理问题生成了思路链和最终答案。团队一共使用六种模型生成响应。
团队使用稀疏自编码器 (SAE) 将神经网络激活分解为大量线性的、可解释的特征。这种方法可识别和操纵模型激活空间中与对话行为相关的特征,并研究引导这些特征如何影响模型的推理能力。
实验结果
结果表示,DeepSeek-R1 和 QwQ-32B 表现出对话行为的频率远高于指令调整模型。
除此之外,它们都表现出更互惠的社会情感角色:它们既会征求也会给予方向、意见和建议,同时还表现出消极和积极的角色。
研究人员还考察了 DeepSeek-R1 是否增加了推理过程中所表达的视角多样性。
结果显示,在控制视角数量的情况下,DeepSeek-R1 和 QwQ-32B 产生了明显更高的个性多样性。尤其是在开放性、神经质、宜人性和外向性方面。
为了进一步检验学习逻辑模型(LLM)在获得正确答案奖励时是否会自我强化对话行为,研究团队进行了一项自学习强化学习(RL)实验。
实验表明,对话行为的频率在整个训练过程中持续增加,尽管没有获得直接奖励。
而基于对话数据微调的模型比基于独白数据微调的模型准确率提升更快,尤其是在训练初期。在第 40 步,基于对话数据微调的 Qwen-2.5-3B 模型准确率达到约 38%,而基于独白数据微调的模型准确率仍停留在 28%。
像 DeepSeek-R1 这样的推理模型并非简单地生成更长或更复杂的思维链。相反,它们展现出一种社会对话过程的特征模式,这种过程会生成思维社群——提出问题、引入不同的视角、产生和解决冲突,以及协调各种社会情感角色。
即使控制了推理轨迹的长度,这些互动模式在不同规模(671B、70B、32B、8B)的非推理模型中也很少出现,这表明推理优化在推理过程本身中引入了一种内在的社会结构,而不仅仅是增加文本量。
该模型似乎通过模拟内部社群进行推理,将思维构建为对话者之间的交流,而不是单一不间断的声音。这意味着,社会推理是通过强化学习自主产生的,这是其持续产生正确答案能力的体现,而不是通过显式的人工监督或微调实现的。
当 DeepSeek-R1 面对更复杂的问题时,对话行为和社会情感角色会被更频繁地激活,这解释了其相对于非推理模型的大部分准确率优势。
这种互动组织是由推理痕迹中多种隐含声音的多样性所支撑的。这些声音在人格特质和领域专业知识方面存在系统性差异,机制可解释性分析证实,当模型被引导至对话标记时,会激活更多与人格和专业知识相关的特征。
参考资料:
https://arxiv.org/abs/2601.10825
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论