产品 +

iEnter|智慧企业 +

企业资源计划管理系统

智钉

iManu|智能制造 +

制造执行系统

物流执行系统

高级计划及排程

iSupply|智慧供应链 +

运输管理系统

仓储管理系统

供应商关系管理系统

EP|智慧生态营销 +

经销商管理系统

全面营销管理系统

客户关系管理系统

Connect|智能网联 +

智能网联云平台

新能源汽车监控平台

商用车企业监控平台

电检系统

行驶记录仪

车载T-BOX

汽车故障诊断仪

国六OBD产品

后装GPS产品

DataValue|数据价值赋能 +

智慧质量

线索运营

智慧广告

Platform|云原生PaaS平台 +

云原生PaaS平台

容器引擎(QKP)

AI智能服务平台

API网关平台

低代码平台-QLCP

元宇宙技术探索平台

数据中台

智能运维平台

服务 +

咨询 +

车路协同解决方案

IT咨询

云原生技术架构规划与咨询服务

评测 +

网络安全等级保护测评

实施 +

电子电气检测服务

网联产品组装制造

运维 +

桌面及外围设备运维服务

云服务(IDC)

销贷服务

乘用车车联网运营服务

商用车车联网运营服务

客户联络中心运营服务

数据价值运营服务

K8s运维

关于米兰·(milantiyu) +

企业简介 +

企业简介

企业价值 +

企业荣誉

行业地位

资质认证

社会责任 +
企业文化 +
投资者关系 +
麾下企业 +
加入米兰·(milantiyu) +

业务发展规划

福利待遇

人才招聘

信息公开 +

企业基本信息 +

企业概况

经营范围

市场主体登记基本信息

组织机构

成员单位

资质荣誉

企业重大事项 +

股权信息

产权信息

研发成果

企业经营管理 +

财务与经营状况

品牌与产品

安全环保 +

安全信息

招标招募 +

招标信息

人力资源 +

招聘信息

社会责任 +
企业公告 +

上市公司

公告信息

投资者关系

加入米兰·(milantiyu)

客户留言

米兰·(milantiyu)中国官方网站-美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTA
2026-04-16 12:31:55

  

1月16日,美团LongCat官微动静,作为LongCat-Flash-Thinking模子的进级版,LongCat-Flash-Thinking-2601现已经开源。新模子于Agentic Search(智能体搜刮)、Agentic Tool Use(智能体东西挪用)、TIR(东西交互推理)等焦点评测基准上,均到达开源模子SOTA程度。

值患上一提的是,该模子于东西挪用的泛化能力上上风特别较着,于依靠东西挪用的随机繁杂使命中,机能体现逾越了Claude-Opus-4.5-Thinking,可年夜幅度降低真实场景下新东西的适配练习成本;同时,新模子撑持“重思索”模式,可同时启动8个“年夜脑”履行使命,确保思索全面、决议计划靠得住。

今朝,该功效可于 https://longcat.ai网站免费体验。

“重思索”功效全新上线 智能体东西挪用能力登顶开源 SOTA

据先容,全新推出的“重思索”模式,已经让“龙猫”学会了“寻思熟虑”再步履。

详细来看,当碰到高难度问题时,新模子会把思索历程拆分成“并行思索”及“总结归纳”两步举行:

并行思索阶段,与人类面临难题会同时测验考试多种解法相似,“重思索”模式下的模子,会于包管思绪多样性的同时,自力梳理出多条推理路径寻觅最优解;总结归纳阶段,则会对于多条路径举行梳理、优化与合成,并将优化成果从头输入,形成闭环迭代推理,鞭策思索连续深化。

除了此以外,LongCat团队于新模子中插手了分外的强化进修环节,针对于性打磨模子的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清晰再步履”的成果。

颠末周全严谨的评估,LongCat-Flash-Thinking-2601模子于编程、数学推理、智能体东西挪用、智能体搜刮等维度体现优秀:

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTALongCat-Flash-Thinking-2601的平均机能比力(资料图)

·编程能力:LongCat-Flash-Thinking-2601于LCB评测中取患上82.8分,OIBench EN 评测获47.7分,成就处在同类模子第一梯队,代码基础能力扎实。

·数学推理能力:于开启“重思索”模式后体现凸起,LongCat-Flash-Thinking-2601于 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分到达当前SOTA。

·智能体东西挪用能力:于τ²-Bench评测中拿到88.2分,VitaBench评测中得到29.3分,均得到开源SOTA程度,于多范畴东西挪用场景下体现优秀,适配现实运用需求。

·智能体搜刮能力:于BrowseComp使命中取患上73.1分(全模子最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具有强劲的信息检索与场景适配能力,到达开源领先程度。

为了更好测试智能体模子的泛化能力,团队还有提出了一种全新的评测要领——经由过程构建一套主动化使命合成流程,撑持用户基在给定要害词,为肆意场景随机天生繁杂使命,并为每一个天生的使命配备对于应的东西集与可履行情况。因为这种情况中的东西配置具备高度随机性,该要领可经由过程评估模子于该类情况中的机能体现,权衡其泛化能力。

试验成果注解,LongCat-Flash-Thinking-2601于绝年夜大都使命中连结领先机能,印证了其于智能体场景下优异的泛化能力。

技能解密:从“靶场”到“实战”的练习哲学

对于在新模子的技能思绪,LongCat团队注释称,传统智能体往往仅于数个简朴模仿情况里练习,这带来的问题就像只于靶场练习的士兵,到了真实“疆场”可能会失链子。而基在“情况扩大+多情况强化进修”焦点技能,团队为模子打造了多样化的“高强度练兵场”,构建了多套高质量练习情况,并于每一套情况中集成60余种东西形成密集依靠瓜葛图谱与繁杂联动,支撑起高度繁杂的使命场景。试验也证实,练习情况越富厚,模子于未知场景中的泛化能力越强。

患上益在这套方案,LongCat-Flash-Thinking-2601于智能体搜刮、智能体东西挪用等焦点基准测试中稳居前列。特别于繁杂随机的漫衍外使命中,机能优在 Claude-Opus-4.5-Thinking。

此外,LongCat团队针对于性扩大自研强化进修基础举措措施,于保留原有高效异步练习特征的基础上,实现年夜范围多情况智能体的不变并行练习,经由过程平衡搭配多情况使命、按难度与练习进度智能分配算力,最年夜化晋升练习效率与资源使用率;该团队还有从繁杂度、多样性双维度严控练习使命,配套专属数据库和优化方案,杜绝模子“偏科”与练习缝隙,让这套全流程方案连续赋能模子,使其稳居智能体能力第一梯队。

该团队还有暗示,实际世界的智能体情况布满不确定性,API挪用掉败、返回异样信息、不雅测数据不完备等“噪声”问题,极易致使模子决议计划掉误。为此,团队于练习数据的历程中自动注入多类噪声,模仿API的挪用掉败、返回过错信息、数据缺掉等场景,并用课程进修的方式按部就班地举行模子练习,于练习历程中慢慢增长噪声的类型与强度——类比教新手骑车,起首会让其于平展路面做训练,等技术成熟后再慢慢增长路面的繁杂度。

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTA带噪声/无噪声评测集下的模子体现对于比(资料图)

颠末体系化的抗滋扰练习,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的情况顺应能力,于繁杂场景中,也能不变阐扬、高效完成使命。

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

-米兰·(milantiyu)中国官方网站


地址:长春净月高新技术产业开发区百合街1009号

版权所有:米兰·(milantiyu)信息技术股份有限公司

电话:0431-85861717/ 4001182299