<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路</big></p>
	<p align="right">2024-11-19 12:25</p>
	<p>11 月 19 日消息，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队，最新推出了 LLaVA-o1，这是首个具备自发性（Spontaneous，具体解释可参考文末）、类似于 GPT-o1 的系统性推理视觉语言模型。<br />
LLaVA-o1 是一种新型的视觉语言模型（VLM），其设计目标是进行自主的多阶段推理。<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2024_47/030A4FBFDCC96F27A9400324B1CE5B5FD758F0B8_size30_w1440_h324.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/030A4FBFDCC96F27A9400324B1CE5B5FD758F0B8_size30_w1440_h324.jpg" /></p><br />
LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结（summary）、描述（caption）、推理（reasoning）和结论（conclusion）4 个推理阶段。<br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2024_47/6F22665B9FA996AF7F930CF68C14DE6DD8D96612_size174_w1413_h1178.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/6F22665B9FA996AF7F930CF68C14DE6DD8D96612_size174_w1413_h1178.jpg" /></p><br />
该模型使用名为 LLaVA-o1-100k 的数据集进行微调，该数据集源自视觉问答（VQA）来源和由 GPT-4o 生成的结构化推理注释。<br />
<p align="center"><img src="https://d.ifengimg.com/w874_h628_q90_webp/x0.ifengimg.com/ucms/2024_47/FB387C2E0023C7CC432615E48D4B9EB81BD4CE63_size135_w874_h628.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/FB387C2E0023C7CC432615E48D4B9EB81BD4CE63_size135_w874_h628.jpg" /></p><br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2024_47/ABE9F310EAFE2218C9046D69A51E8F8F01F4D1B8_size96_w1440_h300.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/ABE9F310EAFE2218C9046D69A51E8F8F01F4D1B8_size96_w1440_h300.jpg" /></p><br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2024_47/99D95FFC517778222BDE97F981F46FC2E05B3DE5_size137_w1440_h815.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/99D95FFC517778222BDE97F981F46FC2E05B3DE5_size137_w1440_h815.jpg" /></p><br />
LLaVA-o1 采用了阶段级束搜索（stage-level beam search）的推理时间 Scaling 技术，能够在每个推理阶段生成多个候选答案，并选取最佳答案。<br />
该模型在处理复杂任务时具备较强的能力，在复杂视觉问答任务中，可以突破传统视觉语言模型的局限性。<br />
与基础模型相比，LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能，超过了许多大型和闭源的竞争对手。<br />
<p align="center"><img src="https://d.ifengimg.com/w1016_h1024_ablur_q90_webp/x0.ifengimg.com/ucms/2024_47/1E71ABA222CBA34BEE3179EBA915796E702C378B_size111_w1016_h1024.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/1E71ABA222CBA34BEE3179EBA915796E702C378B_size111_w1016_h1024.jpg" /></p><br />
<p align="center"><img src="https://d.ifengimg.com/w1125_q90_webp/x0.ifengimg.com/ucms/2024_47/AD70824011D0F12DBC42C7A93EE673D16DAE63EB_size50_w1440_h287.jpg" border="0" data-lazyload="https://x0.ifengimg.com/ucms/2024_47/AD70824011D0F12DBC42C7A93EE673D16DAE63EB_size50_w1440_h287.jpg" /></p><br />
LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白，在多个基准测试中的优异表现，特别是在数学和科学视觉问题的推理领域，展示了结构化推理在视觉语言模型中的重要性。<br />
自发性人工智能（Spontaneous AI）是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。<br />
【来源：IT之家】<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=607306">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=205957">从CEO道歉到联手清华，快手的抉择与蜕变</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=196602">从《无问西东》到清华创业帮：关于人生选择</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=193678">前有96级，后有4字班，真正的清华不是《无问西东》</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=188260">移动VR走进清华科技园，明年能否迎来产业的春天？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=181551">养猪企业招清华北大毕业生，年薪近 50 万</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=175905">北上资金偏爱大消费 家用电器、医药或有戏</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=173867">李彦宏回母校当“助教”：企业家是科学家、艺术家、经理人的结合体</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=163742">卫哲：阿里巴巴为何不去清华招人？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=150484">金曼、戴玉强携北大歌剧院师生开唱，用中国美声唱中国作品</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=141551">电子竞技真能名利双收？其实难度远远高于考上清华</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=133495">那个北大“猪肉佬”已经50岁了，他现在在干嘛？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=118299">清华毕业，她却选择当主播，还遭网友骂！</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=115376">健林和思聪 是怎么把清华北大黑出翔的</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=99521">华为CFO孟晚舟：今年校招按价值定薪 上不封顶</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=97145">清华教师的1760万元是怎么被骗走的？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=86612">王小川清华毕业演讲：接到老板任务，带六个人灭掉百度</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=80506">清华支招汽车品牌建设 看宝马奥迪怎么说</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=16222">清华测试能降低PM2.5四成浓度的除霾利器</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月18日 22:33:25</p></card>
</wml>