找回密码
 立即注册
搜索

里程碑时刻!蚂蚁推出业内首个100B扩散语言模型

[复制链接]
xinwen.mobi 发表于 前天 18:52 | 显示全部楼层 |阅读模式
蚂蚁发布业界首个百亿级扩散语言模型,大模型架构路线迎突破
当主流模型还在逐字生成文本时,LLaDA2.0已经可以像“做完形填空”一样同时生成和修改多个位置的内容,且推理速度最高可达传统模型的2.1倍。

2025年12月12日,蚂蚁技术研究院联合中国人民大学、浙江大学及西湖大学,正式发布并开源了LLaDA2.0系列扩散语言模型。

本次推出的模型包含两个版本:采用MoE架构的16B(mini)版,以及具备里程碑意义的100B(flash)版。这是业界首个参数规模达到千亿级别的扩散语言模型(dLLM)。

01 技术创新:百亿参数的扩散模型训练突破
本次发布的LLaDA2.0系列,标志着扩散模型架构在大规模语言模型领域取得了重要进展。

扩散语言模型的基本原理与常见的自回归模型不同。它更像是在做“完形填空”,通过添加噪声再逐步恢复的方式生成内容,这种机制使其在生成过程中能够同时处理多个位置的文本。

对于扩散模型来说,将参数规模扩展到百亿级别一直是个技术难题。在此之前,受限于训练数据量、基础设施成熟度和计算成本等因素,业界成功训练的扩散语言模型通常规模较小(≤8B),并且在综合性能上仍落后于领先的自回归模型。

LLaDA2.0的成功,关键在于其独特的技术路径。团队并未选择从零开始训练扩散模型,而是创新性地提出了一套系统化的解决方案,实现了从成熟自回归模型向扩散模型的平滑迁移。

02 核心路径:自回归到扩散的平滑迁移
LLaDA2.0的技术核心在于“Warmup-Stable-Decay(WSD)”持续预训练策略,这一策略让模型能够高效继承自回归模型的已有知识,避免了从头训练带来的巨大资源消耗。

这一过程被细分为三个阶段:

Warmup阶段:以块大小为1的自回归模型为起点,逐步将块大小增加到4096,最终将模型转化为标准的掩码扩散语言模型(MDLM)。

Stable阶段:在块大小固定为4096的情况下,使用大规模语料库训练模型,使其掌握基于扩散的生成和双向上下文建模能力。

Decay阶段:将块大小从4096逐步减小到更适合推理的尺寸(如32),使模型同时具备扩散的双向语义能力和块级生成的推理效率。

在整个训练过程中,模型还通过引入文档级注意力掩码,避免了不同文档之间的语义干扰,确保了双向建模的稳定性。

03 性能实测:代码与推理能力超越同级自回归模型
蚂蚁技术研究院在知识理解、数学、代码、推理及智能体等多个维度对LLaDA2.0进行了系统评估。

评测结果显示,该模型在代码生成和智能体任务上表现尤为突出,超越了同等规模的自回归模型。

在涵盖知识、推理、编码、数学、智能体和一致性等六个维度的47项基准测试中,LLaDA2.0-flash取得了平均73.18分,与性能强大的自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平。

04 效率优势:并行解码带来的推理加速
扩散模型的独特架构赋予其天然的效率优势。在实际推理过程中,LLaDA2.0通过并行解码,实现了最高达自回归模型2.1倍的加速效果。

团队采用了置信度感知的并行训练机制(CAP)以及面向扩散结构优化的DPO变体,在确保生成质量的同时,充分释放了扩散模型在并行解码方面的潜力。

这种效率提升源于扩散模型的生成机制。与自回归模型“落子无悔”的逐个生成方式不同,扩散模型在推理过程中能够直接修改和控制token,无需像自回归模型那样重新生成整段内容。

05 生态影响:开源策略与模型技术开放
为了推动全球AI社区在扩散语言模型领域的发展,蚂蚁已全面开放了LLaDA2.0的模型权重及相关训练代码。

所有资源都可在HuggingFace平台获取,包括16B与100B两个版本的模型。同时,团队还发布了详细的技术报告《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》,全面揭示了千亿体量扩散语言模型背后的关键技术细节。

这不是蚂蚁首次在扩散语言模型领域的开源尝试。早在2025年9月的外滩大会上,蚂蚁与中国人民大学就联合发布了业界首个原生MoE架构的扩散语言模型“LLaDA-MoE”。

随着LLaDA2.0的发布,AI社区开始重新审视扩散模型在大语言模型领域的潜力。其并行解码特性带来的效率提升,以及与自回归模型相媲美的综合性能,为大模型的未来发展提供了新的可能性。

这不仅仅是一个模型发布,更是对整个行业技术路线的开拓。扩散语言模型生态刚刚起步,能否发展出与自回归模型不同的Scaling Law,将是未来技术探索的关键方向。

回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-15 01:29 , Processed in 0.061527 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表