首页 > 新车性能 > 新车性能 > 性能超DeepSeek-V3.2!国产大模型又开源了,限时免费用

性能超DeepSeek-V3.2!国产大模型又开源了,限时免费用

发布时间:2025-10-27 17:05:15

10月27日报道,刚刚,MiniMax发布并开源MiniMax-M2,一款为Max可视化编程和智能体工作流构建的轻量级模型。

▲MiniMax-M2在Hugging Face的开源界面截图

MiniMax-M2聚焦智能体的效率提升,是一款总参数达2300亿个的MoE(混合专家)模型,其中活跃参数达100亿个,兼顾编程和智能体任务以及通用智能。

在权威基准测评中,MiniMax-M2的测试成绩赶超Gemini 2.5 Pro、DeepSeek-V3.2等领先模型,接近GPT-5(thinking)模型性能,据称可提供匹敌这些模型的端到端工具使用性能,同时部署和扩展更便捷

▲MiniMax-M2的基准测试概况

具体来看,MiniMax-M2有以下几大亮点:

1、智能提升。根据知名分析机构Artificial Analysis的基准测试,MiniMax-M2在数学、科学、指令遵循、编程和智能体工具使用方面展现出具竞争力的通用智能。其综合得分在全球开源模型中排名第一。

2、高级编程。MiniMax-M2专为端到端开发人员工作流程而设计,擅长多文件编辑、编码-运行-修复循环以及测试验证修复。在Terminal-Bench和(Multi-)SWE-Bench风格的任务中展现了其在跨语言终端、IDE和CI中的实用有效性。

3、智能体性能。MiniMax-M2能够规划并执行跨Shell、浏览器、检索和代码运行器的复杂、长周期工具链。在类似BrowseComp的评估中,它能够持续定位难以发现的漏洞来源,保持证据的可追溯性,并优雅地从不稳定的步骤中恢复。

4、高效设计。MiniMax-M2拥有100亿个激活参数,可为交互式智能体和批量采样提供更低的延迟、更低的成本和更高的吞吐量,这与向高度可部署的模型转变契合,这些模型在编程和智能体任务中仍然表现出色。

以下更全面的评估测试了端到端编程和智能体工具的使用情况,涉及编辑真实的代码库、执行命令、浏览网页以及交付实用的解决方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多项测试中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等顶尖模型。

新车性能更多>>

铭凡MS-S1 MAX桌面AI超算中心测评 国补叠加限时直降,这篇华为平板上车攻略不容错过 苹果M系列芯片只用五年便逼近AMD在笔记本市场的占有率 2025年度国内旗舰销量排名出炉,苹果才是真正赢家 一加Nord 6手机跑分曝光:骁龙8s Gen 4芯片、12GB内存 荣耀Magic8 Pro Air评测:Pro在前 Air在后 淘宝天猫将上线售后AI假图识别模型,治理AI造假骗退款 天猫超市联手菜鸟年货节再提速,杭州成为全国首个全城闪购4小时达城市 谷歌前CEO:欧洲不投钱,就用中国的喽 Meta新模型要来了,Llama 4锅谁来接?1300多位作者联合报告来了 249元起的工业级风扇,有多强? 苹果在iOS 26.3测试新的App Store广告样式,用户更难以分辨 荣耀方飞透露Magic8 Pro Air青海湖电池有黑科技 用户猛增、估值暴涨,一款App爆火又消失的120小时 马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训 来伊份年度预亏1.7亿元,拟用不超10亿元买理财 专家称零食品牌业绩分化明显 马斯克称特斯拉基本完成AI5芯片设计 已开始开发下一代AI6 迟到了16年,利比亚商人收到2010年订购的一批诺基亚手机 2025年Q4中国手机市场出货量苹果第一 全年海外手机市场荣耀增速第一 苹果连续三年稳居全球第一!iPhone 17系列创下历史记录 矩阵营销是什么?为什么越来越多品牌选择矩阵营销? 仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的 一加Turbo 6搭载9000mAh巨量电池 2699元起!荣耀Power2登场:超强防水、两天续航、电梯信号满格 摩托罗拉新设备曝光:AI感知伴侣造型亮眼,手机赛道要变了? 苹果2026年首款新品!AirPods Pro 3马年特别款发布 1899元 一周手机畅销榜更新:华为Nova15排名第九,第一名继续遥遥领先 2019-2025年埃安维修手册埃安UT 埃安V 埃安RT 埃安S MAX 埃安Y 埃安S 噪音大油耗高,为何我还推荐领克01? 2026款雷克萨斯LX美哭!白色车身太绝,气场全开谁能拒绝?