<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="谷歌DeepMind强化思维链训练，让AI语言模型不再“纸上谈兵”_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>谷歌DeepMind强化思维链训练，让AI语言模型不再“纸上谈兵”</big></p>
	<p align="right">2025-05-20 14:35</p>
	<p>5 月 20 日消息，科技媒体 marktechpost 昨日（5 月 19 日）发布博文，报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室，通过强化学习微调（RLFT）技术，提升语言模型的决策能力。<br />
IT之家援引博文介绍，基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力，可以通过内部知识推理，在交互环境中做出行动选择。<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2025_21/8D066A8FB2BCC979400417F6130E8B8FC4DB1F1B_size91_w1440_h635.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2025_21/8D066A8FB2BCC979400417F6130E8B8FC4DB1F1B_size91_w1440_h635.jpg" /></p><br />
不过这些语言模型在决策过程存在显著缺陷：模型能推导正确策略却无法执行（knowing-doing gap，纸上谈兵），过度偏好短期高回报选项（greediness，贪婪选择），较小模型还会机械重复常见动作（frequency bias，频次偏见）。<br />
传统强化学习方法如 UCB 算法虽能平衡探索与利用，但难以解决模型内在的推理-行动脱节问题。<br />
DeepMind 团队创新采用强化学习微调技术，以模型自生成的思维链作为训练信号，系统会评估每个推理步骤对应的行动奖励，促使模型优先选择逻辑自洽且实际高效的行动方案。<br />
具体实施时，模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列，通过蒙特卡洛（Monte Carlo）基线评估和广义优势估计进行优化；无效动作会触发惩罚机制，而奖励塑造技术既保证输出格式规范，又保留探索空间。<br />
在 10 臂的多臂老虎机（multi-armed bandit，MAB，有拥有 N 根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布）测试中，2B 参数模型的动作覆盖率提升 12 个百分点；面对 20 臂时改善幅度虽小但仍有意义，其频次偏见率从 70% 骤降至 35%。<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2025_21/A7F3CC342F9606A4F48372FC22D0A2335393BA3E_size99_w1440_h622.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2025_21/A7F3CC342F9606A4F48372FC22D0A2335393BA3E_size99_w1440_h622.jpg" /></p><br />
井字棋实验中，模型对阵随机对手的胜率提升 5 倍，与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是，27B 大模型生成正确推理的概率达 87%，但未微调时仅 21% 会执行最优动作，该强化学习微调有效缩小了这一差距。<br />
【来源：IT之家】<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=626363">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=653493">DeepMind之父坦言：我造的AI可能灭绝人类 但已无人能停下</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=651000">阿里批准林俊旸辞职，谷歌DeepMind向千问员工抛橄榄枝</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648864">诺奖得主、谷歌DeepMind创始人Hassabis要用AI“攻克人类疾病”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648835">OpenAI“急着”为ChatGPT引入广告，谷歌DeepMind CEO哈萨比斯表示惊讶</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648535">谷歌DeepMind CEO：中国AI公司落后大约6个月</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648534">Anthropic及谷歌DeepMind CEO：AI已开始取代公司内部的初级职位</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648218">谷歌DeepMind CEO：中美AI模型差距小，或许只有“几个月”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=647403">波士顿动力CES 2026发布Atlas人形机器人量产版本，首先发货现代汽车和谷歌DeepMind</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=645408">AI应用深入科学领域！谷歌DeepMind将在英国设立首个自动化实验室</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=643219">谷歌DeepMind AI模型精准预测五级飓风“梅丽莎”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=640390">谷歌DeepMind入局“人造太阳”控制系统，AI挑战1亿摄氏度高温</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=630366">谷歌DeepMind机器人AI模型实现本地化运行：可完成系鞋带等高难度任务</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=629537">谷歌DeepMind研究：Gemini AI存“畏死”情绪，导致推理能力明显下降</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=624008">谷歌DeepMind推QuestBench基准，测试AI模型的“补漏”能力</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=622621">谷歌DeepMind开发DolphinGemma AI模型，助力海豚“语言”研究</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=618935">谷歌DeepMind推出新AI模型 机器人未经训练也能执行现实任务</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=615571">超越国际数学奥林匹克金牌得主：谷歌DeepMind AI系统展现超强几何解题能力</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=612341">谷歌DeepMind优化AI模型新思路，计算效率与推理能力兼得</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=609448">OpenAI从谷歌DeepMind挖角三名高级工程师，专注于多模态AI研发</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=595229">银牌组最高分，谷歌DeepMind捅破AI数学推理上限：6道国际奥数题解出4道</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=586019">里程碑式突破！谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=567170">谷歌DeepMind推出人耳无法察觉的AI音频水印技术SynthID</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=566174">谷歌DeepMind创始人提出通用人工智能分级，ChatGPT只是初级</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=560362">谷歌DeepMind开发新模型，能预测哪些DNA突变引起遗传疾病</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月14日 22:56:34</p></card>
</wml>