米兰·(milantiyu)中国官方网站-美团上线首个开源并可体验的“重思考”模型，工具调用能力登顶开源SOTA

2026-04-16 12:31:55

1月16日，美团LongCat官微动静，作为LongCat-Flash-Thinking模子的进级版，LongCat-Flash-Thinking-2601现已经开源。新模子于Agentic Search（智能体搜刮）、Agentic Tool Use（智能体东西挪用）、TIR（东西交互推理）等焦点评测基准上，均到达开源模子SOTA程度。

值患上一提的是，该模子于东西挪用的泛化能力上上风特别较着，于依靠东西挪用的随机繁杂使命中，机能体现逾越了Claude-Opus-4.5-Thinking，可年夜幅度降低真实场景下新东西的适配练习成本；同时，新模子撑持“重思索”模式，可同时启动8个“年夜脑”履行使命，确保思索全面、决议计划靠得住。

今朝，该功效可于 https://longcat.ai网站免费体验。

“重思索”功效全新上线智能体东西挪用能力登顶开源 SOTA

据先容，全新推出的“重思索”模式，已经让“龙猫”学会了“寻思熟虑”再步履。

详细来看，当碰到高难度问题时，新模子会把思索历程拆分成“并行思索”及“总结归纳”两步举行：

并行思索阶段，与人类面临难题会同时测验考试多种解法相似，“重思索”模式下的模子，会于包管思绪多样性的同时，自力梳理出多条推理路径寻觅最优解；总结归纳阶段，则会对于多条路径举行梳理、优化与合成，并将优化成果从头输入，形成闭环迭代推理，鞭策思索连续深化。

除了此以外，LongCat团队于新模子中插手了分外的强化进修环节，针对于性打磨模子的总结归纳能力，从而让LongCat-Flash-Thinking-2601实现了“想清晰再步履”的成果。

颠末周全严谨的评估，LongCat-Flash-Thinking-2601模子于编程、数学推理、智能体东西挪用、智能体搜刮等维度体现优秀：

美团上线首个开源并可体验的“重思考”模型，工具调用能力登顶开源SOTA LongCat-Flash-Thinking-2601的平均机能比力（资料图）

·编程能力：LongCat-Flash-Thinking-2601于LCB评测中取患上82.8分，OIBench EN 评测获47.7分，成就处在同类模子第一梯队，代码基础能力扎实。

·数学推理能力：于开启“重思索”模式后体现凸起，LongCat-Flash-Thinking-2601于 AIME-25 评测中获100.0分（满分），IMO-AnswerBench中以86.8分到达当前SOTA。

·智能体东西挪用能力：于τ²-Bench评测中拿到88.2分，VitaBench评测中得到29.3分，均得到开源SOTA程度，于多范畴东西挪用场景下体现优秀，适配现实运用需求。

·智能体搜刮能力：于BrowseComp使命中取患上73.1分（全模子最优），RW Search 评测获79.5分，LongCat-Flash-Thinking-2601具有强劲的信息检索与场景适配能力，到达开源领先程度。

为了更好测试智能体模子的泛化能力，团队还有提出了一种全新的评测要领——经由过程构建一套主动化使命合成流程，撑持用户基在给定要害词，为肆意场景随机天生繁杂使命，并为每一个天生的使命配备对于应的东西集与可履行情况。因为这种情况中的东西配置具备高度随机性，该要领可经由过程评估模子于该类情况中的机能体现，权衡其泛化能力。

试验成果注解，LongCat-Flash-Thinking-2601于绝年夜大都使命中连结领先机能，印证了其于智能体场景下优异的泛化能力。

技能解密：从“靶场”到“实战”的练习哲学

对于在新模子的技能思绪，LongCat团队注释称，传统智能体往往仅于数个简朴模仿情况里练习，这带来的问题就像只于靶场练习的士兵，到了真实“疆场”可能会失链子。而基在“情况扩大+多情况强化进修”焦点技能，团队为模子打造了多样化的“高强度练兵场”，构建了多套高质量练习情况，并于每一套情况中集成60余种东西形成密集依靠瓜葛图谱与繁杂联动，支撑起高度繁杂的使命场景。试验也证实，练习情况越富厚，模子于未知场景中的泛化能力越强。

患上益在这套方案，LongCat-Flash-Thinking-2601于智能体搜刮、智能体东西挪用等焦点基准测试中稳居前列。特别于繁杂随机的漫衍外使命中，机能优在 Claude-Opus-4.5-Thinking。

此外，LongCat团队针对于性扩大自研强化进修基础举措措施，于保留原有高效异步练习特征的基础上，实现年夜范围多情况智能体的不变并行练习，经由过程平衡搭配多情况使命、按难度与练习进度智能分配算力，最年夜化晋升练习效率与资源使用率；该团队还有从繁杂度、多样性双维度严控练习使命，配套专属数据库和优化方案，杜绝模子“偏科”与练习缝隙，让这套全流程方案连续赋能模子，使其稳居智能体能力第一梯队。

该团队还有暗示，实际世界的智能体情况布满不确定性，API挪用掉败、返回异样信息、不雅测数据不完备等“噪声”问题，极易致使模子决议计划掉误。为此，团队于练习数据的历程中自动注入多类噪声，模仿API的挪用掉败、返回过错信息、数据缺掉等场景，并用课程进修的方式按部就班地举行模子练习，于练习历程中慢慢增长噪声的类型与强度——类比教新手骑车，起首会让其于平展路面做训练，等技术成熟后再慢慢增长路面的繁杂度。

美团上线首个开源并可体验的“重思考”模型，工具调用能力登顶开源SOTA 带噪声/无噪声评测集下的模子体现对于比（资料图）

颠末体系化的抗滋扰练习，LongCat-Flash-Thinking-2601（Training w/Noise组）拥有了极强的情况顺应能力，于繁杂场景中，也能不变阐扬、高效完成使命。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milantiyu)中国官方网站

产品

服务

关于米兰·(milantiyu)

信息公开

产品 +

服务 +

关于米兰·(milantiyu) +

信息公开 +

投资者关系

加入米兰·(milantiyu)

客户留言