尊龙凯时卫浴清洁z6尊龙凯时官方网站ღღ,Z6尊龙·凯时尊龙登录入口ღღ!多模态大模型虽然在视觉理解方面表现出色ღღ,但在需要深度数学推理的任务上往往力不从心ღღ,尤其是对于参数量较小的模型来说更是如此ღღ。
如图所示ღღ,通过LMM-R1框架训练的模型(下侧)能够正确应用勾股定理计算出圆锥的斜高ღღ,而基准模型(上侧)错误地识别了斜高位置ღღ,导致计算错误ღღ。这种显著的推理能力提升来自于一个创新的两阶段训练策略ღღ。
这是来自东南大学ღღ、香港中文大学ღღ、蚂蚁集团等研究人员的ღღ,两阶段多模态基于规则强化学习的框架LMM-R1ღღ,实现多模态大模型的推理性能飞跃ღღ。
针对多模态领域长期存在的”高训练成本MINUS8法老猫ღღ、低任务泛化”难题ღღ,LMM-R1框架创造性引入规则化奖励函数机制ღღ。
通过深度优化DeepSeek-R1核心思想尊龙人生appღღ,该框架在无需多模态标注数据的情况下ღღ,仅需240元GPU成本即可显著增强模型性能ღღ,成功将多模态模型的推理能力提升至工业级应用标准ღღ。
实验数据显示ღღ,经LMM-R1框架强化的QwenVL-2.5-3B模型ღღ,在推箱子等复杂路径规划任务中ღღ,性能显著超越GPT-4oMINUS8法老猫MINUS8法老猫尊龙人生appღღ、Claude3.5等100B+参数量产品级大模型尊龙人生appღღ。
DeepSeek-R1和OpenAI的o1等模型已经证明了基于规则奖励的强化学习在纯文本大语言模型中的有效性ღღ。然而ღღ,将这一成功经验扩展到多模态领域面临两大关键挑战ღღ:
数据限制ღღ:多模态领域中高质量的推理数据十分稀缺ღღ,且答案常常模糊不清ღღ,难以用于规则奖励基础推理能力薄弱ღღ:多模态预训练常常会削弱模型在纯文本任务上的能力ღღ,特别是对于参数量有限的小模型
FRE阶段利用丰富的高质量纯文本推理数据(如数学题ღღ、科学问题等)通过基于规则的强化学习来增强模型的基础推理能力ღღ。这一阶段避开了多模态数据的限制ღღ,专注于构建坚实的推理基础ღღ。
在这个阶段ღღ,模型学习如何进行严密的逻辑思考MINUS8法老猫ღღ、复杂的数学运算和多步骤推理ღღ,为后续的多模态泛化奠定基础ღღ。
几何推理领域ღღ:使用GeoDB等数据集ღღ,增强模型在几何图形推理方面的能力感知-推理平衡领域ღღ:使用VerMulti数据集ღღ,提升模型在多种视觉任务中的推理能力智能体相关领域ღღ:使用推箱子(Sokoban)等需要复杂规划的任务
值得注意的是ღღ,这种两阶段策略避免了对昂贵的高质量多模态训练数据的依赖ღღ,同时有效利用了丰富的文本推理数据资源ღღ,为构建高性能多模态模型提供了一种高效路径ღღ。
研究团队使用Qwen2.5-VL-Instruct-3B作为基准模型进行实验ღღ。经过LMM-R1框架训练后ღღ,模型在各类基准测试上均取得显著提升ღღ:
在纯文本和多模态基准测试上平均提升约4.5%~4.8%在推理密集型任务(如几何问题)上效果尤为明显
更重要的是ღღ,实验证明了一个关键发现ღღ:通过先增强基础推理能力再进行多模态泛化的策略ღღ,可以有效避免直接在多模态数据上训练时常见的推理能力退化问题ღღ。
在典型智能体应用场景验证中ღღ,研究团队选取推箱子任务作为评估基准ღღ。该任务要求模型同步处理视觉空间解析ღღ、目标匹配ღღ、动态路径规划等多模态推理能力ღღ,对智能体在现实场景中的决策能力具有重要指示意义ღღ。经LMM-R1框架强化后的模型ღღ,仅通过初始画面即可完成完整动作序列规划ღღ。
实验证明哪怕是3B规模的小模型ღღ,使用LMM-R1的两阶段RL训练ღღ,也可以极大增强推理能力ღღ,暗示了多模态R1的强大应用潜力MINUS8法老猫ღღ。
值得关注的是ღღ,该框架以上游项目OpenRLHF为基础ღღ,实现了完全自主研发的多模态训练方案ღღ:通过重构数据流实现多模态支持ღღ,基于张量并行优化和内存管理技术创新ღღ,构建起高效稳定的训练体系ღღ。其开创性的PackingSample + Ring FlashAttention技术实现了模型最大上下文长度基于GPU数量的线性增长率ღღ,配合动态梯度裁剪策略ღღ,在保证训练稳定性的同时大幅降低资源消耗ღღ。
项目自2025年2月开源以来迅速获得学术界关注ღღ,相关技术方案已被多个知名开源项目采纳为基准架构ღღ。目前ღღ,LMM-R1框架已在GitHub平台建立独立技术生态ღღ,累计获得超过500+星标关注ღღ。
团队表示将持续深耕多模态模型领域ღღ,推动多模态强化学习技术在智能体ღღ、视觉问答等场景的落地应用ღღ。与开源社区共建多模态强化学习框架ღღ。
03月14日尊龙人生appღღ,外媒ღღ:乌克兰代表团与特朗普高级代表会面ღღ,爱游戏网页版官方入口ღღ,果博首页ღღ,利记体育官网ღღ,至尊手游app
03月14日ღღ,浙江台州今年首批出口杨梅发往新加坡ღღ,九卅登入ღღ,网上玩牛牛怎么样能赢ღღ,开心捕鱼下载ღღ,必发下载地址
03月14日ღღ,黑河黄藏寺大坝碾压混凝土芯样长度突破20米ღღ,聚星平台登陆ღღ,AG线体育app在线网站ღღ,AG推荐网址
03月14日东西问·中法建交60周年丨这座“隐匿”于村落的古建ღღ,因何吸引中法携手保护研究?火狐娱乐六合风采A下载澳门金牛网站澳门新葡萄新京威尼斯
03月14日F1中国大奖赛ღღ:维斯塔潘夺冠 周冠宇第14位完赛e世博买球必威官网下载地址澳门百家补牌规则爱游戏体育平台app下载
03月14日北京ღღ:年货博览会吸引民众选购商品kb板材官网大奖网APP下载皇冠澳门国际宝博斗地主官网……
03月14日ღღ,爱乐汇2025新年演出季将启ღღ,真人德州ios下载ღღ,华体会登录手机版最ღღ,雷速指数怎么看ღღ,手机捕鱼游戏下载
03月14日ღღ,东西问丨荷兰青年建筑师和马町ღღ:于东西方之间探寻“天人合一”ღღ,bsport体育ღღ,真人AG亚洲登录app是多少ღღ,热血无赖麻将ღღ,澳门新莆京娱乐
03月14日“中国历代绘画大系”典藏馆(良渚)将在“良渚论坛”期间开馆bet365真人百家乐博鱼app平台w88体育明升体育怎么开户
03月14日ღღ,中柬两军将举行“金龙-2024”联合演习尊龙人生appღღ,九游会游戏官网ღღ,米乐m6吧ღღ,网络赌厅ღღ,线日ღღ,湿冷“魔法攻击”上线ღღ!南方遭今冬来最强雨雪 这份防抖指南请收好ღღ,下载凯时appღღ,斗地主赢三张ღღ,Fun88app官网478ღღ,以前的银河国际网站多少
03月14日ღღ,海河水利委员会针对“山河四省”启动干旱防御IV级应急响应 ღღ,沙巴体育投注appღღ,天博下载网址多少ღღ,官方k8网ღღ,188金宝网网址
03月14日广东下雪了ღღ!粤北清远市已启动防冻IV级应急响应kok网站是什么网上现金斗牛恒彩88注册登录官网威尼斯人游戏官网版下载
03月14日中央财政创新方法支持部分城市开展城市更新示范工作亚星娱乐游戏乐天堂fun88澳门永利下载APP送39皇冠电玩城安全吗
03月14日现场点交ღღ、包机货运 揭秘近800件埃及文物如何抵达上海必赢网站改成多少贝博在线试玩万利直营网BOB官网地址
火烬之女 第一季尊龙人生appღღ,队长视角ღღ:问鼎冠军之路国际专家读懂中国高质量发展ღღ:活力和创新是最为关键的推动力365体育网上注册介绍点击参与欧宝电子竞技平台开元app官网多少钱金沙在哪玩
三亚全市中小学停课ღღ,西游记【两会30秒】国家体育总局ღღ:坚决惩治体育领域腐败亚盈平台万博体育网站博狗在哪里玩百家补规则
王曼昱把埃及选手打生气了MINUS8法老猫ღღ,徐海博 小孩哥4名中央企业专职外部董事调整188bet亚洲体育大富豪下载网址谁有球球体育官网首页必红体育官网
边水往事ღღ,王昶梁伟铿男双决赛第十一届广州塔国际登高赛面向全球启动报名立博网投皇冠体育竞猜美高梅网上游戏6163银河电子游戏网站
唯一演遍四大名著的女演员ღღ,理想型世界杯近视防控关口前移 家长需及早关注孩子远视储备问题斗地主网页版Ag8亚洲游天博注册账号大富豪官网网站下载
克拉克森的农场 第三季ღღ,黄子韬徐艺洋官宣结婚冬日黄河壶口瀑布冰挂与彩虹“同框”pt老虎机平台送体验金MT电子BET9九州平台官网葡京会官方
LPL饭堂周末夜停播ღღ,狗狗Messi鼓掌的真相联合国强迫失踪问题委员会ღღ:哥伦比亚一机库存放约2万具尸体m6米乐在线up扑克之星靠谱博亚体育官网入口