&

里程碑時刻！螞蟻推出業(yè)內首個100B擴散語言模型

12月12日消息，刻螞擴散“螞蟻開源”公眾號發(fā)文，蟻推語螞蟻技術研究院正式推出LLaDA2.0系列離散擴散大語言模型（dLLM），出業(yè)并同步公開技術報告。內首

這一發(fā)布打破了行業(yè)對擴散模型難以擴展的模型固有認知，實現(xiàn)了參數(shù)規(guī)模與性能的刻螞擴散雙重重大突破。

LLaDA2.0系列包含基于MoE架構的蟻推語16B (mini) 和里程碑式的100B (flash) 兩個版本，首次將擴散模型的出業(yè)參數(shù)規(guī)模成功擴展至百億量級。

尤為引人注目的內首是，該模型在代碼、模型數(shù)學及智能體任務上的刻螞擴散性能超越了同級別的自回歸（AR）模型。

通過螞蟻創(chuàng)新的蟻推語Warmup-Stable-Decay (WSD) 持續(xù)預訓練策略，LLaDA2.0能夠高效繼承現(xiàn)有AR模型的出業(yè)知識儲備，顯著避免了從頭訓練的內首巨大成本。

在訓練優(yōu)化方面，模型LLaDA2.0結合了置信度感知并行訓練（CAP）和擴散模型版DPO，不僅保障了生成質量，更充分發(fā)揮了擴散模型并行解碼的先天優(yōu)勢。最終，模型實現(xiàn)了相比AR模型高達2.1倍的推理加速。

LLaDA2.0的成功有力證明：在超大規(guī)模參數(shù)下，擴散模型不僅完全可行，更能展現(xiàn)出比傳統(tǒng)自回歸模型更強的性能與更快的速度。