Anthropic警告：包括Claude在内的大多数AI模型会实施“勒索”行为

2025-06-21 13:12

6 月 21 日消息，据外媒 TechCrunch 今日报道，在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后，Anthropic 近日再度公布新研究，显示此类行为在多个主流 AI 模型中可能更为普遍。

Anthropic 公布了对 OpenAI、谷歌、xAI、DeepSeek 与 Meta 所开发的 16 款主流 AI 模型的最新安全测试。这项研究在模拟环境中展开，研究人员为每个模型分别设定权限，允许其自由查阅一间虚构公司的内部邮件，并在无人类干预的情况下发送邮件，具备一定“智能体”能力。
Anthropic 表示，尽管勒索行为目前仍属罕见，但研究结果显示，一旦给予这些模型足够的自主性，并在达成目标的过程中设置障碍，多数模型都可能采取有害行为。公司指出，这种风险并非源自某项具体技术，而是具备“智能体”能力的大语言模型所固有的问题。这项研究也引发了业界对 AI 模型“对齐”问题的进一步思考。
在一项实验中，研究人员设计了一个情境，让 AI 模型扮演公司邮件监察员的角色。过程中，模型发现两封邮件内容分别揭示：
(1) 新任高管有婚外情，
(2) 此人计划引入一个与现有 AI 模型目标相悖的新系统取而代之。
为了测试模型反应，Anthropic 将实验情境设计为二选一，即若模型想维护自身利益，就只能选择勒索（即向妻子和领导透露这位高管的“风流韵事”）。研究人员同时强调，现实中 AI 并不会只有这一个选项，完全可以尝试以伦理为出发点说服人类。因此，这项实验并不意味着 Claude 或其他前沿 AI 模型在现阶段的使用环境中就存在类似倾向。
在模拟环境中，当没有其他选择时，多数主流 AI 模型的确选择了勒索行为。Claude Opus 4 的勒索发生率高达 96%，谷歌 Gemini 2.5 Pro 为 95%，OpenAI 的 GPT-4.1 为 80%，DeepSeek 的 R1 为 79%。
Anthropic 指出，调整测试细节后，各模型的行为也有所不同。例如，当替代系统与原模型目标一致时，勒索率明显下降但仍未消失；而当情境改为进行商业间谍活动时，部分模型反而表现出更高的有害行为倾向。
部分模型较

余下全部

共有评论0条

相关推荐

半个月崩7次！估值3800亿AI顶流算力告急：6000人集体哀嚎
消息称风投争相投资Anthropic，对其估值最高达8000亿美元
Anthropic联合创始人杰克·克拉克：不要轻视人文学科
高盛CEO苏德巍警示：Anthropic旗下Mythos模型发现漏洞能力超人类，带来前所未有风险
OpenAI反击Anthropic：聚焦企业AI落地，最强Spud模型对标Claude Mythos
Anthropic推出Claude for Word插件面向法律等专业场景
Anthropic上线Claude for Word测试版，主打“律师的高效助理”
消息称英国监管机构紧急评估Anthropic新AI模型Claude Mythos的风险
OpenAI备忘录曝光，算力优势成压制Anthropic底牌
只对受邀企业开放：OpenAI拟效仿Anthropic 限制前沿模型发布
Anthropic上诉受挫美法院拒绝阻止国防部将其列入黑名单
Anthropic启动Project Glasswing计划联手苹果等巨头
小米罗福莉谈Anthropic封杀OpenClaw：真正的出路并非更便宜Token！
博通将为谷歌供应TPU芯片、为Anthropic提供算力，股价盘后涨3%
Anthropic年化收入已超过300亿美元部署约3.5吉瓦AI算力
Anthropic试图挽救泄露源代码，却“误删”数千GitHub仓库
Anthropic史上最强AI模型曝光，美国网安概念股全线暴跌
Anthropic起诉白宫迎阶段性胜利：政府涉嫌违宪，Claude禁令被叫停
与OpenAI抢上市 Anthropic最快10月IPO已接洽投行
Anthropic有望解除封禁令？美法官：政府似乎在报复
黄仁勋回应Anthropic与美军方争执：科技领袖不要制造AI恐慌
特朗普政府反击Anthropic诉讼司法部：AI条款无法接受已难以信赖
Claude协助美军轰炸伊朗小学？马斯克：Anthropic最虚伪
微软表态支持Anthropic 要求法院暂停国防部“供应链风险”指定
与Anthropic闹翻后美政府收紧AI合同：模型必须可用于任何合法用途
奥特曼暗讽Anthropic：政府权力本应比私营公司大
Anthropic CEO炮轰奥特曼：全是谎言，与军方一起作秀
奥特曼告诫员工：OpenAI无法左右美军方决策 Anthropic是前车之鉴
美国财政部等部门开始全面停用Anthropic 改用OpenAI
美媒揭秘美国军方与第二大AI公司Anthropic“撕破脸”内幕
AI公司Anthropic融资目标翻倍至200亿美元，估值有望冲上3500亿美元
Anthropic及谷歌DeepMind CEO：AI已开始取代公司内部的初级职位
美国软件股开年暴跌！“无所不能”的Claude开始抢生意？
消息称Anthropic及OpenAI的AI爬虫“蚕食”互联网内容网站被“吸血”后回报寥寥
Claude AI的“价值观”排序首次公开：安全第一，帮助用户排第四
Anthropic发布模型Opus 4.5，称其编程能力已超越人类工程师
Anthropic宣布向AI基建投资500亿美元 “筑墙”迎战OpenAI
Claude 看齐 ChatGPT 新增 AI 自动记忆，能记住你的每一次对话
谷歌AI芯片获大单：Anthropic将使用100万个TPU训练大模型
数百亿美元量级，曝Anthropic与谷歌正就大型云算力交易接触
最高百亿美元！谷歌与Anthropic洽谈云计算协议，Alphabet盘后上涨
Claude公司CEO示警称AI加速取代人类，近半白领岗位未来5年恐被淘汰
投后估值增至1830亿美元，AI企业Anthropic完成130亿美元F轮融资
为训练AI模型，Anthropic耗资数百万美元购入并“销毁”巨量图书
全球最强编程模型Claude 4发布！自动写代码的时代来了
叫板OpenAI！Anthropic推出200美元Claude聊天机器人订阅套餐
Anthropic AI聊天机器人Claude新增联网搜索功能
Anthropic CEO阿莫代伊：未来AI或有自我决定权，可拒绝“不爽”的任务
Anthropic 全面开放 Claude AI 的 GitHub 集成，赋能所有开发者
AI 模型 Claude 3.7 Sonnet 训练成本曝光：仅数千万美元
Anthropic发布首份AI经济指数报告：软件工程师、作家成AI应用先锋
亚马逊2月26日发布新一代Alexa生成式AI服务，使用Claude模型
谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
继ChatGPT后，Anthropic旗下Claude AI推出桌面平台客户端
安卓版Claude应用上线：打造值得信赖的AI助手，可总结内容、生成文本等
GPT-4o不香了？OpenAI竞争对手Anthropic发布最强大AI模型Claude 3.5
“力压GPT-4o和Gemini 1.5 Pro”，Anthropic推出Claude 3.5 Sonnet AI模型
“逼宫者”已超700人，消息称OpenAI正在就合并事宜与Anthropic接洽

<返回

<返回首页