11月28日消息,中國(guó)據(jù)媒體報(bào)道,唯阿問(wèn)斬文人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025公布了論文獎(jiǎng),獲頂阿里通義千問(wèn)團(tuán)隊(duì)最新研究成果從全球2萬(wàn)多篇投稿論文中脫穎而出,佳論被評(píng)為最佳論文,議最是中國(guó)唯一獲得該獎(jiǎng)項(xiàng)的中國(guó)團(tuán)隊(duì)。
該論文聚焦于大模型的唯阿問(wèn)斬文核心組件——注意力機(jī)制,首次在業(yè)內(nèi)系統(tǒng)性地解密了“注意力門(mén)控機(jī)制”對(duì)模型性能與訓(xùn)練效率的獲頂關(guān)鍵影響。
這一突破性發(fā)現(xiàn)被業(yè)內(nèi)人士廣泛認(rèn)為是佳論解決當(dāng)前大模型訓(xùn)練瓶頸的重要一步,將有力推動(dòng)整個(gè)AI大模型技術(shù)的議最進(jìn)步。
作為人工智能領(lǐng)域的中國(guó)頂尖盛會(huì),NeurIPS曾孕育出Transformer、唯阿問(wèn)斬文AlexNet等里程碑式成果。獲頂本屆會(huì)議吸引了谷歌、佳論微軟、議最OpenAI、阿里巴巴及麻省理工學(xué)院等全球頂尖機(jī)構(gòu)參與,投稿競(jìng)爭(zhēng)異常激烈,接收率僅約25%,而最終評(píng)選出的最佳論文更是鳳毛麟角,僅4篇入選,概率不足萬(wàn)分之二,代表了當(dāng)前全球人工智能領(lǐng)域最具價(jià)值和影響力的前沿研究。
門(mén)控機(jī)制常被喻為模型的“智能閥門(mén)”,其核心作用是幫助模型高效過(guò)濾冗余信息,從而提升模型表現(xiàn)。近年來(lái),從AlphaFold2到Forgetting Transformer,學(xué)術(shù)界和工業(yè)界已開(kāi)始探索將門(mén)控機(jī)制融入注意力模型。然而,門(mén)控在注意力中發(fā)揮效用的深層原理及其在大規(guī)模訓(xùn)練中的實(shí)踐效果,始終是未解之謎,缺乏系統(tǒng)性的實(shí)證研究。
此次,通義千問(wèn)研究團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)拇笠?guī)模實(shí)驗(yàn)填補(bǔ)了這一空白。他們?cè)?.7B稠密模型(Dense)與15B混合專家模型(MoE)上進(jìn)行了數(shù)十組實(shí)驗(yàn),單組實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)量最高超過(guò)3.5萬(wàn)億tokens。
通義千問(wèn)團(tuán)隊(duì)表示,對(duì)門(mén)控注意力機(jī)制的深入理解,不僅為未來(lái)大語(yǔ)言模型的架構(gòu)設(shè)計(jì)開(kāi)辟了新思路,也為構(gòu)建更穩(wěn)定、高效和可控的大模型奠定了堅(jiān)實(shí)的理論基礎(chǔ)。
目前,阿里通義千問(wèn)已開(kāi)源超過(guò)300款模型,覆蓋全模態(tài)、全尺寸,全球累計(jì)下載量突破7億次,衍生模型數(shù)量超過(guò)18萬(wàn)個(gè),其開(kāi)源生態(tài)的規(guī)模和影響力位居全球首位。