<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="GPT-4“自我反思”后能力大增 测试表现提升30%_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>GPT-4“自我反思”后能力大增 测试表现提升30%</big></p>
	<p align="right">2023-04-04 14:18</p>
	<p>4 月 4 日消息，OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种&ldquo;反思&rdquo;技术让 GPT-4 在多项难度较高的测试中，都取得了显著的进步，测试表现提升 30%。<br />
GPT-4 是继 GPT、GPT-2 和 GPT-3 之后，OpenAI 推出的最先进的系统，也是目前最大的多模态模型（可以接受图像和文本输入，输出文本）。其利用深度学习技术，使用人工神经网络来模仿人类的写作。<br />
研究人员诺亚・辛恩（Noah Shinn）和阿什温・戈平纳特（Ashwin Gopinath）在论文中写道：&ldquo;我们开发了一种新颖的技术，让 AI 代理能够模拟人类的自我反思，并评估自己的表现。GPT-4 在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。&rdquo;<br />
<p align="center"><img src="https://d.ifengimg.com/w800_h600_q90_webp/x0.ifengimg.com/ucms/2023_14/DC909EA3589960F46ABD777E1103559381194E6F_size58_w800_h600.png" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2023_14/DC909EA3589960F46ABD777E1103559381194E6F_size58_w800_h600.png" /></p><br />
在 HumanEval 编码测试中，GPT-4 使用自我反思环路，准确率从 67% 上升到 88%<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2023_14/B26BE0835A95B06593CE866E622DD3C903EED325_size130_w1200_h800.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2023_14/B26BE0835A95B06593CE866E622DD3C903EED325_size130_w1200_h800.jpg" /></p><br />
GPT-4 可以通过设计和执行测试来批判其自身的性能，如 AlfWorld 测试结果所示，可以大大改善其性能<br />
研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中，GPT-4 需要解决 164 个从未见过的 Python 编程问题，原本准确率为 67%，使用反思技术后，准确率提升到了 88%。在 Alfworld 测试中，AI 需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4 的准确率从 73% 提高到了 97%，只有 4 个任务失败。在 HotPotQA 测试中，GPT-4 可以访问维基百科，并回答 100 个需要从多个支持文档中解析内容和推理的问题，原本准确率为 34%，使用反思技术后，准确率提高到了 54%。<br />
这项研究表明，AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现，这有点像生成对抗网络，这是一种让两个 AI 互相提高技能的方法，比如一个 AI 试图生成一些看起来像真实图片的图片，另一个 AI 试图分辨哪些是假的，哪些是真的。但在这种情况下，GPT 既是写作者又是编辑，通过自我反思来改进自己的输出质量。<br />
【来源：IT之家】<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=534416">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=588222">分析师，很遗憾，GPT-4解读财报确实更好！</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=553480">GPT-4的AI律师“Do Not Pay”帮用户推翻16万多张停车罚单</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=533375">GPT-4进入网络安全领域 微软“AI全家桶”新增Security Copilot</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=531746">GPT-4将允许用户定制AI的“性格” 数字人或成为下一个杀手级应用</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月19日 14:29:20</p></card>
</wml>