<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="谷歌DeepMind推QuestBench基准，测试AI模型的“补漏”能力_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>谷歌DeepMind推QuestBench基准，测试AI模型的“补漏”能力</big></p>
	<p align="right">2025-04-26 16:26</p>
	<p>4 月 26 日消息，科技媒体 marktechpost 昨日（4 月 25 日）发布博文，报道称谷歌 DeepMind 团队推出 QuestBench 新基准，通过约束满足问题（CSPs）框架，评估模型在推理任务中识别和获取缺失信息的能力。<br />
现实挑战与信息获取需求<br />
大型语言模型（LLMs）在推理任务中广受关注，涵盖数学、逻辑、规划和编码等领域。然而，现实世界的应用场景常常充满不确定性。<br />
用户在提出数学问题时常忽略重要细节，机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾，迫使 LLMs 发展主动信息获取能力。<br />
IT之家援引博文介绍，识别信息缺口并生成针对性地澄清问题，成为模型在模糊场景中提供准确解决方案的关键。<br />
QuestBench：评估信息缺口的新框架<br />
为应对信息获取挑战，研究者推出了 QuestBench 基准，专门评估 LLMs 在推理任务中识别缺失信息的能力。<br />
该基准将问题形式化为约束满足问题（CSPs），聚焦于&ldquo;1-sufficient CSPs&rdquo;，即只需知道一个未知变量值即可解决目标变量的问题。<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/res/2025/EBAF23B8819DDED6E5F3E110B214A217705D5B34_size87_w1346_h384.jpg" border="0" data-lazyload="https://x0.ifengimg.com/res/2025/EBAF23B8819DDED6E5F3E110B214A217705D5B34_size87_w1346_h384.jpg" /></p><br />
QuestBench 覆盖逻辑推理（Logic-Q）、规划（Planning-Q）和小学数学（GSM-Q / GSME-Q）三个领域，按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类，精准揭示模型的推理策略和性能瓶颈。<br />
<p align="center"><img src="https://d.ifengimg.com/w640_h708_ablur_q90_webp/x0.ifengimg.com/res/2025/3D13E14A6F9BC95DF8272BF451433988DA731D23_size83_w640_h708.jpg" border="0" data-lazyload="https://x0.ifengimg.com/res/2025/3D13E14A6F9BC95DF8272BF451433988DA731D23_size83_w640_h708.jpg" /></p><br />
<p align="center"><img src="https://d.ifengimg.com/w640_h584_q90_webp/x0.ifengimg.com/res/2025/F51C0BAE33C2A6201EF2938C9E03806306B2453C_size66_w640_h584.jpg" border="0" data-lazyload="https://x0.ifengimg.com/res/2025/F51C0BAE33C2A6201EF2938C9E03806306B2453C_size66_w640_h584.jpg" /></p><br />
模型性能与未来改进空间<br />
QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型，覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行，涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。<br />
<p align="center"><img src="https://d.ifengimg.com/w640_h600_q90_webp/x0.ifengimg.com/res/2025/7EEE2CC56449CF3E7F9143E63C9E0D235A1D68B1_size91_w640_h600.jpg" border="0" data-lazyload="https://x0.ifengimg.com/res/2025/7EEE2CC56449CF3E7F9143E63C9E0D235A1D68B1_size91_w640_h600.jpg" /></p><br />
结果表明，思维链提示普遍提升了模型性能，而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力，但在复杂数学问题上表现不佳。<br />
研究指出，当前模型在简单代数问题上表现尚可，但随着问题复杂性增加，性能显著下降，凸显了在信息缺口识别和澄清能力上的改进空间。<br />
【来源：IT</p>
	<p><a href="javascript:void(0);" class="prev disable"></a><a href="https://wap.ikanchai.com/?action=show&amp;contentid=624008&amp;type=all">余下全部</a></p>	<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=624008">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=653493">DeepMind之父坦言：我造的AI可能灭绝人类 但已无人能停下</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=651000">阿里批准林俊旸辞职，谷歌DeepMind向千问员工抛橄榄枝</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648864">诺奖得主、谷歌DeepMind创始人Hassabis要用AI“攻克人类疾病”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648835">OpenAI“急着”为ChatGPT引入广告，谷歌DeepMind CEO哈萨比斯表示惊讶</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648535">谷歌DeepMind CEO：中国AI公司落后大约6个月</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648534">Anthropic及谷歌DeepMind CEO：AI已开始取代公司内部的初级职位</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648218">谷歌DeepMind CEO：中美AI模型差距小，或许只有“几个月”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=647403">波士顿动力CES 2026发布Atlas人形机器人量产版本，首先发货现代汽车和谷歌DeepMind</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=645408">AI应用深入科学领域！谷歌DeepMind将在英国设立首个自动化实验室</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=643219">谷歌DeepMind AI模型精准预测五级飓风“梅丽莎”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=640390">谷歌DeepMind入局“人造太阳”控制系统，AI挑战1亿摄氏度高温</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=630366">谷歌DeepMind机器人AI模型实现本地化运行：可完成系鞋带等高难度任务</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=629537">谷歌DeepMind研究：Gemini AI存“畏死”情绪，导致推理能力明显下降</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=626363">谷歌DeepMind强化思维链训练，让AI语言模型不再“纸上谈兵”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=622621">谷歌DeepMind开发DolphinGemma AI模型，助力海豚“语言”研究</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=618935">谷歌DeepMind推出新AI模型 机器人未经训练也能执行现实任务</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=615571">超越国际数学奥林匹克金牌得主：谷歌DeepMind AI系统展现超强几何解题能力</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=612341">谷歌DeepMind优化AI模型新思路，计算效率与推理能力兼得</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=609448">OpenAI从谷歌DeepMind挖角三名高级工程师，专注于多模态AI研发</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=595229">银牌组最高分，谷歌DeepMind捅破AI数学推理上限：6道国际奥数题解出4道</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=586019">里程碑式突破！谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=567170">谷歌DeepMind推出人耳无法察觉的AI音频水印技术SynthID</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=566174">谷歌DeepMind创始人提出通用人工智能分级，ChatGPT只是初级</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=560362">谷歌DeepMind开发新模型，能预测哪些DNA突变引起遗传疾病</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月14日 04:22:30</p></card>
</wml>