突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

mysmile 6 0
突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

R-HORIZON:复旦 NLP&美团 LongCat 联合提出 LRMs 能力评测新框架

一、推理模型面临的新挑战

亲爱的读者,你是否曾好奇,当今最先进的AI推理模型在复杂任务中究竟能走多远?随着 OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的崛起,AI推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维(Long Chain-of-Thought, CoT)在数学推理、代码生成和智能体任务中展现出惊人潜力。

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

现有评测体系存在关键盲区:主流基准测试(如 MATH500、AIME)主要关注孤立问题,模型只需「一问一答」即可应对。

但真实世界截然不同:

想象一下,软件开发中模型需像拼接乐高一样连续处理关联代码模块;数学证明要求基于前序推导逐步构建结论,如同解谜游戏;智能助手则需在多轮交互中完成复杂任务,宛如对话棋局。

这些场景要求模型具备跨任务的长链推理能力——不仅解决子问题,更要在多步骤间保持一致性、合理分配资源,并实现反思与纠错。

核心问题:当前大型推理模型的长链推理能力边界究竟在哪里?

由于现有评测无法回答这一问题,传统训练数据也难以培养这种能力(如图所示,模型在长程推理下表现明显退化)。

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 1:R1 系列模型在长程推理场景下的理论准确率与实际准确率对比

复旦大学与美团 LongCat 联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界 论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?论文地址: https://arxiv.org/abs/2510.08189项目主页: https://reasoning-horizon.github.io代码地址:https://github.com/meituan-longcat/R-HORIZON数据集:https://huggingface.co/collections/meituan-longcat/r-horizon

二、方法论: Query Composition 范式

核心创新

R-HORIZON 提出了问题组合(Query Composition)方法,通过构建依赖关系,将孤立任务转化为复杂推理链。

以数学任务为例,该方法包含三个步骤:

1. 信息提取:从问题中提取核心数值和变量 2. 依赖构建:将前序答案嵌入后续条件 3. 链式推理:模型必须顺序解决所有子问题才能获胜

方法优势

灵活扩展:可自由控制推理链长度(n = 2, 4, 8...)精确可控:灵活设定依赖强度高效低成本:基于现有数据构建,无需额外标注

基于此方法,我们构建了 R-HORIZON Benchmark 用于评估 LRMs 的多步推理能力,同时生成训练数据,通过强化学习(RLVR)提升性能。

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 2:R-HORIZON 方法流程——从单一问题到复杂推理链的转化及应用场景

三、评测基准: R-HORIZON Benchmark 数据集构成

基于 Query Composition 方法,我们构建了涵盖 6 个代表性数据集的 R-HORIZON Benchmark:

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

评测发现:性能断崖现象

我们评测了 20+ 个主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等),揭示重要现象。

顶级推理模型在长链推理中均出现显著性能下降!

主要发现:

普遍性能退化:所有模型随问题数量增加均出现下降。DeepSeek-R1 在 AIME25 单问题场景达 87.3%,但在 5 个组合问题下骤降至 24.6%。规模效应:更大模型对多步推理更具鲁棒性。任务差异:代码生成比数学任务衰退更陡;多数模型在网页搜索中丧失工具能力。突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 3:R-HORIZON Benchmark 评测结果——所有模型均出现显著性能衰退

四、机制分析:推理模型的三大瓶颈

为深入理解性能断崖成因,我们识别出 LRMs 的三个关键瓶颈:

瓶颈 1:有效推理长度受限

随着问题数量增加,LRMs 难以维持性能。实际与理论准确率差距扩大。

分析显示:

模型错误集中在特定上下文范围7B 模型主要错误在 (4-6K tokens)32B 模型扩展到 (8-10K tokens)更大模型具有更长推理边界突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 4:R1-Qwen-7B 和 R1-Qwen-32B 的准确率及错误位置分析

瓶颈 2:反思机制高度局部化

对反思行为分析发现:

模型反思频率随问题增加而上升超过半数复杂任务缺乏长程反思当前反思机制高度局部化,无法支撑长链需求。突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 5:MATH500 数据集上的反思行为分析

瓶颈 3:思考预算分配失衡

最意外发现:包括 DeepSeek-R1 在内的主流 LRMs 无法有效分配思考预算!

模型过度分配 tokens 给早期阶段未能合理分配资源给后续问题这种失衡影响整体推理质量突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 6:不同组合问题数量下各模型的思考预算分配

五、训练方案:突破能力边界

发现瓶颈后,我们探索:能否通过长链数据训练突破限制?

训练策略

我们基于 R-HORIZON 数据,采用 GRPO 算法:

算法:主流 RLVR 算法 GRPO数据:R-HORIZON 组合数据(n = 2, n = 4)实验:奖励函数对比

训练效果:双重性能提升

实验显示:R-HORIZON 训练不仅提升长链任务表现,单问题性能也增强!

核心数据

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

注:加粗数字表示该列最佳成绩

突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 7:不同训练配置下的性能对比

关键发现

双重提升:n = 2 训练使多步推理性能大幅提升(AIME24 n = 2 +17.4 分),单问题也增强(AIME24 单题 +7.5 分)。可扩展性:n = 4 训练增强处理更多步骤能力,MATH500 (n = 8) 达 50.6%。

训练带来的质变

R-HORIZON 训练带来深层改变:

更高效推理长度:改善组合任务性能,泛化到更长链,缓解「overthinking」更合理预算分配:学会合理分配 token 预算更长程反思能力:增加长程反思频率,直接改善性能突破性评测框架问世!美团技术团队与复旦NLP联合发布R-HORIZON,重新定义LRMs长链推理能力边界

图 8:使用标准数据集和组合数据集进行强化学习的效果分析

六、结论与展望

R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。

技术贡献

首个长链推理评测基准:揭示 LRMs 能力边界及三大瓶颈。可扩展训练范式:提供低成本、高效率提升路径。深度机制分析:为未来改进指明方向。

现在,你是否想亲自探索这一突破性研究?立即访问项目主页和代码仓库,加入我们的社区,共同推动AI推理技术的未来!

阅读更多

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

相关问答

美团运营团队靠谱吗?

外卖运营公司一点都不靠谱。其实他们做的事情你自己全部都可以做,只不过他们对平台规则的熟悉比你强一点而已,因为他们部分人之前就是在美团外卖公司里工作。...

怎么加入美团送外卖团队?

美团外卖有自己的骑手端,就是一个APP,安装到手机上,系统会给你派发任务,接到任务以后骑手到店取餐,然后送餐。怎么加入美团外卖送餐员?1.下载APP,实名认...

送外卖。达达。美团。蜂鸟。哪个比较不错?

1.如果仅仅是想做兼职,蜂鸟、骑士就挺好的,不过都比较累,赚得是辛苦钱。2.如果有创业的动力,不如用快跑者,这个可以做配送团队的,适合创业者。1.如果仅仅是...

你如何看待美团收购摩拜单车创始团队出局?

美团与摩拜在今天(4月4日)联合宣布,已经签署美团全资收购摩拜的协议。上午,王兴也发送内部信,正式宣布了这一消息。如之前所说,王兴在信中表示,摩拜“是中...摩...

美团众包好还是公司派单好?

你好这个问题问得其实有点简单我可以告诉你,无论是美团众包平台,还是拿蜂鸟众包平台对比。其实对于一个新手来说,肯定是团队专送平台好。因为新手不熟悉需要人...

美团外卖代运营可靠吗?

不太可靠。外卖代运营因为接触了大量的外卖商家,所以多多少少会掌握一些外卖的打法,数据等等,所以如果你自己是一个不善于钻研的人,是可以让他们帮你运营一段...

美团专送删号要多久?

美团专职注销账号需要1到7个工作日内注销,美团账号注销后就可以重新再次注册。但是用户要知道的是,注销后就无法进行找回之前的账号信息。2010年3月4...美团...

美团和饿了么骑手可以用同一个号码吗?

本身这是两家不同的公司,饿了么专送隶...而且是否可以这个要看你跟饿了么专送是否签署的有相关敬业协议,或者是劳务合同中是否有相关规定。本身这是两家不...

关于美团骑手申请劳动仲裁的流程说明-找法网

平台法律顾问团队2024.06.1013:48:05解答劳动仲裁流程简明:提交书面申请,明确双方信息和诉求;仲裁委五日内答复;开庭质证辩论;调解不成则裁决。确保流程规...

美团外卖业务经理不接电话怎么办-法律快车法律咨询

美团外卖业务经理不接电话怎么办