中国唯一！阿里千问斩获全球AI顶会最佳论文

来源：额手称庆网-工人日报

2026-04-23 10:21:05

11�日消息，人工智能领域顶级会议NeurIPS 2025公布了论文奖，阿里通义千问团队最新研究成果从全񈠠万多篇投稿论文中脱颖而出，被评为最佳论文，是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响，业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步，将有力推动AI大模型技术的发展。

阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一，该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年，谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共񀙜万多篇论文投稿，仅有�%的论文被接收，而最佳论文仅񀙞篇，入选概率不及万分之二，代表了目前全球人工智能领域最有价值和影响力的研究。

2017年，谷歌在NeurIPS发表的论文首次提出Transformer模型架构和‌自注意力机制，这一研究让AI像人类一样具备有选择性地关注关键信息的能力，是当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现，但现有注意力机制仍存在诸多局限，例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差，这些局限性极大地影响了模型性能和训练稳定性，为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”，可以帮助模型过滤无效信息并提升模型性能。近年来，AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因，也缺少大规模实践的经验。

此次，通义千问研究团队通过𶞑.7B稠密模型（Dense）�B混合专家模型（MoE）上进行了数十组实验，单组实验训练最多超过 3.5 万亿 tokens，首次清晰揭秘了门控注意力背后的作用原理，并全面展示使用该方案的最佳方式。

实验结果显示，对各注意力头的输出进行门控，是提升模型性能最有效的方式。使用该方式，在引入额𷫝%参数的情况下，可实񈓠.2以上的困惑度下降、MMLU基准评񄓰个点的提升。研究还发现，该技术还能在更大规模的模型训练上实现更好的性能。