
1月16日,美团LongCat官微动静,作为LongCat-Flash-Thinking模子的进级版,LongCat-Flash-Thinking-2601现已经开源。新模子于Agentic Search(智能体搜刮)、Agentic Tool Use(智能体东西挪用)、TIR(东西交互推理)等焦点评测基准上,均到达开源模子SOTA程度。 值患上一提的是,该模子于东西挪用的泛化能力上上风特别较着,于依靠东西挪用的随机繁杂使命中,机能体现逾越了Claude-Opus-4.5-Thinking,可年夜幅度降低真实场景下新东西的适配练习成本;同时,新模子撑持“重思索”模式,可同时启动8个“年夜脑”履行使命,确保思索全面、决议计划靠得住。 今朝,该功效可于 https://longcat.ai网站免费体验。 “重思索”功效全新上线 智能体东西挪用能力登顶开源 SOTA 据先容,全新推出的“重思索”模式,已经让“龙猫”学会了“寻思熟虑”再步履。 详细来看,当碰到高难度问题时,新模子会把思索历程拆分成“并行思索”及“总结归纳”两步举行: 并行思索阶段,与人类面临难题会同时测验考试多种解法相似,“重思索”模式下的模子,会于包管思绪多样性的同时,自力梳理出多条推理路径寻觅最优解;总结归纳阶段,则会对于多条路径举行梳理、优化与合成,并将优化成果从头输入,形成闭环迭代推理,鞭策思索连续深化。 除了此以外,LongCat团队于新模子中插手了分外的强化进修环节,针对于性打磨模子的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清晰再步履”的成果。 颠末周全严谨的评估,LongCat-Flash-Thinking-2601模子于编程、数学推理、智能体东西挪用、智能体搜刮等维度体现优秀: ·编程能力:LongCat-Flash-Thinking-2601于LCB评测中取患上82.8分,OIBench EN 评测获47.7分,成就处在同类模子第一梯队,代码基础能力扎实。 ·数学推理能力:于开启“重思索”模式后体现凸起,LongCat-Flash-Thinking-2601于 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分到达当前SOTA。 ·智能体东西挪用能力:于τ²-Bench评测中拿到88.2分,VitaBench评测中得到29.3分,均得到开源SOTA程度,于多范畴东西挪用场景下体现优秀,适配现实运用需求。 ·智能体搜刮能力:于BrowseComp使命中取患上73.1分(全模子最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具有强劲的信息检索与场景适配能力,到达开源领先程度。 为了更好测试智能体模子的泛化能力,团队还有提出了一种全新的评测要领——经由过程构建一套主动化使命合成流程,撑持用户基在给定要害词,为肆意场景随机天生繁杂使命,并为每一个天生的使命配备对于应的东西集与可履行情况。因为这种情况中的东西配置具备高度随机性,该要领可经由过程评估模子于该类情况中的机能体现,权衡其泛化能力。 试验成果注解,LongCat-Flash-Thinking-2601于绝年夜大都使命中连结领先机能,印证了其于智能体场景下优异的泛化能力。 技能解密:从“靶场”到“实战”的练习哲学 对于在新模子的技能思绪,LongCat团队注释称,传统智能体往往仅于数个简朴模仿情况里练习,这带来的问题就像只于靶场练习的士兵,到了真实“疆场”可能会失链子。而基在“情况扩大+多情况强化进修”焦点技能,团队为模子打造了多样化的“高强度练兵场”,构建了多套高质量练习情况,并于每一套情况中集成60余种东西形成密集依靠瓜葛图谱与繁杂联动,支撑起高度繁杂的使命场景。试验也证实,练习情况越富厚,模子于未知场景中的泛化能力越强。 患上益在这套方案,LongCat-Flash-Thinking-2601于智能体搜刮、智能体东西挪用等焦点基准测试中稳居前列。特别于繁杂随机的漫衍外使命中,机能优在 Claude-Opus-4.5-Thinking。 此外,LongCat团队针对于性扩大自研强化进修基础举措措施,于保留原有高效异步练习特征的基础上,实现年夜范围多情况智能体的不变并行练习,经由过程平衡搭配多情况使命、按难度与练习进度智能分配算力,最年夜化晋升练习效率与资源使用率;该团队还有从繁杂度、多样性双维度严控练习使命,配套专属数据库和优化方案,杜绝模子“偏科”与练习缝隙,让这套全流程方案连续赋能模子,使其稳居智能体能力第一梯队。 该团队还有暗示,实际世界的智能体情况布满不确定性,API挪用掉败、返回异样信息、不雅测数据不完备等“噪声”问题,极易致使模子决议计划掉误。为此,团队于练习数据的历程中自动注入多类噪声,模仿API的挪用掉败、返回过错信息、数据缺掉等场景,并用课程进修的方式按部就班地举行模子练习,于练习历程中慢慢增长噪声的类型与强度——类比教新手骑车,起首会让其于平展路面做训练,等技术成熟后再慢慢增长路面的繁杂度。 颠末体系化的抗滋扰练习,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的情况顺应能力,于繁杂场景中,也能不变阐扬、高效完成使命。 雷峰网版权文章,未经授权禁止转载。详情见转载须知。
LongCat-Flash-Thinking-2601的平均机能比力(资料图)
带噪声/无噪声评测集下的模子体现对于比(资料图)