 在大模型竞速进入推理才能深水区的密模 2025 年,一支奥秘的型推小模型团队悄然上台
。他们不是越R隐秘来自一线大厂的 AI Lab,也没有高调预热和融资造势
,团队推理而是发布在 Hugging Face 低沉开源了一款 32B 的推理模型:AM-Thinking-v1。 令人惊奇的密模是,这个中等规划的型推小模型稠密模型
,在多个要害推理评测中打败了 DeepSeek-R1
,越R隐秘并与超大规划的团队推理 MoE 模型Qwen3-235B-A22B 、Seed1.5-Thinking 平起平坐
。发布 这款模型背面的密模团队
,是型推小模型国内一个从未对外发表的研讨团队——A-M-team。他们不依靠私有数据 、越R隐秘不依靠海量核算资源,团队推理仅凭开源底座和练习管线的发布极致规划,就做出了敞开社区 32B 等级中最强的推理模型
。 
论文链接
:https://arxiv.org/pdf/2505.08311。 功能全面逾越 DeepSeek-R1:32B 模型中的“黑马”。在当时干流评测中
,AM-Thinking-v1 也交出了极具冲击力的成果单 ,仅 32B 的结构在数学推理(AIME 系列)和代码生成(LiveCodeBench)中别离取得了 85.3 和 70.3 的高分
,不只全面逾越了 DeepSeek-R1(671B MoE 架构),还迫临乃至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大规划 MoE 模型的成果
。 把“小体积,大推理”的极限范式展示得酣畅淋漓。 值得注意的是,AIME 系列标题来自美国数学邀请赛,结构杂乱、要求精准,向来是衡量模型逻辑思维才能的金规范;LiveCodeBench 则着重代码可履行性和稳健性,数据污染难度高
,是实在场景下“考虑-编码-验证”链条的苛刻检测
。 
AM-Thinking-v1 模型测验得分表。 
AIME2024 不同模型标准作用比照;x 轴为模型标准,y 轴为分数 。 
LiveCodeBench 不同模型标准作用比照;x 轴为模型标准 ,y 轴为分数。 推特大 V Aran Komatsuzaki 也下场转发,并配文:AM-Thinking-v1 正以 32B 的规划推动着推理前沿功能的鸿沟。 
分数之外,是更具实践意义的使命。当研讨人员用 AM-Thinking-v1 去处理典型的“旋转三角形中红球反弹”问题时,AM-Thinking-v1 展示出了多步逻辑极强的了解
,给出了完好的运动轨道模仿和关于小球磕碰的判别。 
而在逻辑推理使命中,AM-Thinking-v1 也能坚持十分安稳的考虑进程
。 
在长文本写作才能的测验中 ,AM-Thinking-v1 在表达逻辑和意象捕捉方面也展示出了开始的组织才能。 
32B 模型的新上限 ,是这样“训”出来的
。与寻求超大规划和大数据堆叠不同,A-M-team 的要害打破在于如何用有限的核算和开源数据,最大化32B模型的推理才能
|