阿里 AI 实力获斯坦福权威报告盖章！通义千问贡献排名全球第三、中国第一

原创话报 (作) 图已处理(译) 2025-07-11 16:18:01

近日，阿里斯坦福大学机器智能研究所发布了最新一期《2025年机器智能指数报告》。实力研究报告显示，坦福通义在2024年度全球关键大模型中，权威千问全球中国贡献15项。报告从具体机构分布来看，盖章贡献国第谷歌与OpenAI各占7席并列榜首，排名阿里巴巴以6个入选模型紧随其后，第中排名第三。阿里

这份连续发布八年的实力年度报告由斯坦福机器智能实验室主任李飞飞教授领衔编制，自2017年首度发布以来，坦福通义其多维度的权威千问全球评估框架和跨年度的信息追踪，已成为全球学术界和产业界观察AI工艺演进的报告关键参照。

2025年的盖章贡献国第斯坦福报告指出，中国和美国是排名全球AI最具作用力的两大国家，且中美模型的性能差距显著缩小，性能表现由2023年的17.5%骤降至0.3%，差距接近抹平。

而阿里作为入选关键大模型最多的中国科技公司，其入选的6款模型分别为：Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B，是中国 AI 力量在全球作用力崛起的最大推手。

至今，阿里通义实验室已开源200多款模型。目前千问在全世界的衍生模型数破10万，超越美国Llama成为世界第一开源大模型。

中美差距缩小，阿里通义千问功不可没

美国历来是机器智能研究和模型开发的主导。然而，最近的证据表明，中国模型的性能正在逐步逼近美国。

2024年1月，在LMSYS聊天机器人竞技场上，美国顶级模型的表现优于中国最佳模型9.26%。到了2025年2月，这一差距缩小至仅1.70%。

2023年底，美国领先模型的表现显著优于中国同类模型。在MMLU、MMMU、MATH和HumanEval等基准测试中，中美性能差距分别为17.5、13.5、24.3和31.6个百分点。2024年底，这些差异显著缩小至仅0.3、8.1、1.6和3.7个百分点。

这一关键转变的背后是阿里和DeepSeek的持续努力和爆发。2024年5月24日，阿里巴巴发布开源Qwen2.5，性能超越Llama 405B。2025年1月20日，DeepSeek发布DeepSeek-R1，同步开源模型权重。前有阿里开荒拓土，后有DeepSeek持续发力。如今，阿里和DeepSeek已经成为了中国AI在世界舞台中激烈角逐的两股领先力量。

根据斯坦福的报告，阿里是唯一进入全球大模型贡献前三的中国公司。统计信息显示，在备受关注的全球重大模型榜单中，谷歌与OpenAI分别上榜7个，并列第一。阿里则以6个上榜模型位居全球第三、中国第一。在业内顶级专家评选出的32项“2024年AI领域关键发布”中，阿里Qwen2、Qwen2.5及DeepSeek-V3三大发布上榜。

报告显示，Qwen2.5-72B的训练信息量要略高于Llama-405B和DeepSeek-V3，成为截至2024年训练信息量最大的模型。Qwen2.5全系列模型训练信息量为18 万亿 tokens，而Llama-405B仅仅只有15 万亿tokens的信息量。这意味着Qwen2.5拥有更多的知识、更强的编程和数学能力。

报告中对比了中美两国知名机器学习模型的训练算力，揭示出一个关键趋势：美国顶级AI模型的算力需求普遍远超中国同类产物。这说明，在实现顶尖性能的同时，中国模型所需计算资源显著低于多数主流大语言模型。下图显示，Qwen2.5和DeepSeek-V3的训练算力低于10B，而以Claude 3.5 Sonnet和Grok-2为代表的顶尖模型，算力需求远超于此。

除此之外，闭源与开源LLM之间显著的性能差距也进一步缩小。2024年1月初，领先的闭源模型性能超出顶级开源模型8.0%。而截至2025年2月，这一差距已缩小至1.7%。2024年，Qwen系列模型已超越Llama，成为当前全球最大的开源模型。阿里和DeepSeek作为行业领头羊，有望继续强势扭转开源落后的局面。

在对AI的投入决心方面，阿里在中国是最激进的。就在今年年初，阿里CEO吴泳铭宣布未来三年，阿里预计在AI和云端服务领域投入3800亿元人民币，加速云和AI硬件基础设施建设、提升AI基础模型的研发、推动AI应用的转型升级。

阿里 AI，当之无愧

事实上，2025 年斯坦福 AI 指数报告中阿里大模型的亮眼成绩并非横空出世，而是积步千里。

早在ChatGPT之前，阿里就开启了大模型的研究探索。

2023年4月，“通义千问”大模型正式发布，之后以平均每两个月的速度迭代一次。同年8月Qwen-7B宣布开源，阿里首次加入自研大模型开源行列。

2024，是通义千问爆发的一年。阿里分别在5月、6月、9月、12月推出开源模型Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。

今年2月，视觉生成基座模型通义万相（Wan）开源，在 VBench中以总分86.22%的成绩稳居榜首。3月，首个端到端全模态大模型Qwen2.5-Omni-7B发布，并于4月登顶Hugging Face开源大模型榜单。

具备强大的、不断迭代的基础模型后，阿里不是“闭关锁国”，而是从 2022 年开始就采取开源措施，将自家的基础模型开放给 AI 社区，继而构建了强大的开源生态。

最新信息显示，通义已接入29万家企业，包括90%互联网公司，90%上市商业银行，90%汽车品牌等。

Qwen开源模型在国内备受青睐，Manus通过Qwen在国产模型和算力平台上实现全部功能，迅速走红于各大社交平台。DeepSeek使用R1蒸馏出6个开源模型，其中有4个来自Qwen。

目前，海内外开源社区中千问Qwen的衍生模型数量已突破10万，稳居世界最大AI大模型族群。根据Huggingface2025年2月10日最新的全球开源大模型榜单，排名前十的开源大模型全部是基于通义千问Qwen开源模型二次开发的衍生模型。

甚至李飞飞等斯坦福大学研究人员也基于阿里通义千问Qwen2.5-32B-Instruct开源模型为底座，仅用不到50美元，便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。

从2023年至今，阿里通义团队已开源200多款模型，囊括文本生成、语音理解、文生图及影片模型等全模态模型，覆盖全尺寸参数，支持29种语言。

通义千问促进中国大模型生态繁荣的背后，是阿里云打下的算力基础。2023年7月7日，阿里云宣布，将把促进中国大模型生态的繁荣作为首要目标，向大模型创业公司提供全方位的支持，包括最强大的智能算力和开发工具，并在资金和商业化探索方面提供充分支持。

2022年，阿里云在业界首提MaaS（Model as a Service，模型即支持）理念，提出了一种全新的、以AI模型为核心的开发范式。阿里云据此搭建了一套以AI模型为核心的云端服务工艺和支持架构，并将这套能力将全部向大模型初创企业和开发者开放，提供包括模型训练、推理、部署、精调、测评、产物化落地等在内的全方位支持。

截至目前，中国众多头部主流大模型都已通过阿里云对外提供API支持，包括通义系列、Baichuan系列、智谱AI ChatGLM系列等。百川智能创始人兼CEO王小川也曾表示，“百川成立仅半年便发布了7款大模型，快速迭代背后离不开云端服务的支持。”

一些科研机构和创业公司还基于千问开发了自己的模型和产物。中国科学院国家天文台机器智能工作组基于Qwen开源模型发布了新一代天文大模型“星语3.0”。中国科学院地球化学研究所与阿里云基于Qwen开发了国际首个“月球科学多模态专业大模型”。千问QwQ-32B也成为AI for Science科研领域最受欢迎的大模型之一，已支持300多家科研院所和高校。

2025 年，大模型工艺圈依然热闹非凡。继 DeepSeek席卷全球后，AI Agent 又开启新的大模型产物形态竞争。AI 智能体的进一步增长正在肉眼可见地加深模型应用与基础模型的关联，同时加大推理侧的需求增长。而阿里同时坐拥基础模型与云平台基础设施的两大“护法”，在新一轮的 AGI 竞争中仍有极大优势，拭目以待。

雷峰网(公众号：雷峰网)

雷峰网特约稿件，未经授权禁止转载。详情见转载须知。