壞消息,次打開源模型和閉源模型的小更新暴差距越來越大了。
好消息,次打DeepSeek 又出手了。小更新暴
12 月 1 日,次打DeepSeek 發(fā)布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。小更新暴
前者和 GPT-5 能打的次打有來有回,后面的小更新暴高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個(gè)五五開。次打
還在IMO 2025(國(guó)際數(shù)學(xué)奧林匹克)、小更新暴CMO 2025(中國(guó)數(shù)學(xué)奧林匹克)等一系列比賽中拿下金牌。次打
這是小更新暴這家公司今年第九次發(fā)布模型,雖然大家期待的次打 R2 還沒有來。
所以,小更新暴DeepSeek 是次打怎么用更小的數(shù)據(jù),更少的顯卡,做出能和國(guó)際巨頭來抗衡的模型?
我們翻開了他們的論文,想把這件事給大家講清楚。
為了做到這個(gè)目標(biāo),DeepSeek 又整了不少新招:
先是把咱們的老朋友 DSA —— 稀疏注意力給轉(zhuǎn)正了。
這東西在之前的 V3.2-EXP 版本里出現(xiàn)過,當(dāng)時(shí)只是測(cè)了一下 DSA 會(huì)不會(huì)影響模型的性能,現(xiàn)在是真的把這玩意給放到了主力模型上。
大家平時(shí)和大模型聊天的時(shí)候會(huì)發(fā)現(xiàn),你在一個(gè)對(duì)話框里聊的越多,模型就越容易胡言亂語。
甚至聊的太多了,還會(huì)直接不讓你聊了。
這是因?yàn)榇竽P驮淖⒁饬C(jī)制導(dǎo)致的問題,在這套老邏輯的影響下,每個(gè) token 出來,都要和前面的每一個(gè) token 互相算在一起做一次計(jì)算。
這就導(dǎo)致了句子增長(zhǎng)一倍,模型的計(jì)算量就得增加到原來的四倍,如果邊長(zhǎng)到原來的三倍,計(jì)算量就變成了原來的九倍,非常麻煩。
DeepSeek 想這樣不行啊,于是就給大模型里加了固定頁數(shù)的目錄(稀疏注意力),相當(dāng)于幫模型劃重點(diǎn)了。
而在有了目錄之后,以后每次只需要計(jì)算這個(gè) token 和這些目錄的關(guān)系就行了,相當(dāng)于就是看書先讀目錄,看完目錄,對(duì)哪一章感興趣,再去仔細(xì)看這章的內(nèi)容就好。
這樣一來,就能讓大模型讀長(zhǎng)文的能力變的更強(qiáng)。
在下面這張圖里可以看到,隨著句子越來越長(zhǎng),傳統(tǒng)的 V3.1 的推理成本是越來越高。
但是用上了稀疏注意力的 3.2 則沒什么變化。。。
屬于是超級(jí)省錢冠軍了。
另一方面,DeepSeek 開始重視起了開源模型的后訓(xùn)練工作。
大模型這一套從預(yù)訓(xùn)練開始,到考試打分的過程,其實(shí)有點(diǎn)像是我們?nèi)祟悘男W(xué)開始,一路讀書讀到高考的過程。
前面的大規(guī)模預(yù)訓(xùn)練,相當(dāng)于從小學(xué)到高二,把所有課本、練習(xí)冊(cè)、卷子全過一遍,這一步大家都差不多,不管是閉源模型,還是開源模型,都在老老實(shí)實(shí)的念書。
但到了高考沖刺階段就不一樣了,在模型的后訓(xùn)練階段,閉源模型一般都會(huì)請(qǐng)名師,猛刷題,開始搞起各種強(qiáng)化學(xué)習(xí),最后讓模型來考一個(gè)不錯(cuò)的成果。
但開源模型在這塊花的心思就比較少了,按照 DeepSeek 的說法,過去的開源模型在訓(xùn)練后階段計(jì)算投入普遍偏低。
這就導(dǎo)致這些模型可能基礎(chǔ)能力是已經(jīng)到位的了,但就是難題刷少了,結(jié)果導(dǎo)致考出來的成績(jī)不太好。
于是,DeepSeek 決定這次自己也要上名師輔導(dǎo)班,設(shè)計(jì)了一套新的強(qiáng)化學(xué)習(xí)協(xié)議,在預(yù)訓(xùn)練結(jié)束后,花了超過總訓(xùn)練算力的 10% 來給模型開小灶,把之前缺的這塊給補(bǔ)上。
同時(shí)還推出了個(gè)能思考超長(zhǎng)時(shí)間的特殊版本 —— DeepSeek V3.2 Speciale。
這玩意的思路是這樣的:
過去的大模型因?yàn)樯舷挛拈L(zhǎng)度有限制,所以在訓(xùn)練的時(shí)候都會(huì)做一些標(biāo)注懲罰的工作,如果模型深度思考的內(nèi)容太長(zhǎng)了,那就會(huì)扣分。
而到了 DeepSeek V3.2 Speciale 這兒,所以 DeepSeek 干脆取消掉了這個(gè)扣分項(xiàng),反而鼓勵(lì)模型想思考多久就思考多久,想怎么思考就怎么思考。
最終,讓這個(gè)全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。
此外DeepSeek 還很重視模型在智能體方面能力。
一方面,為了提高模型的基礎(chǔ)能力,DeepSeek 構(gòu)建了一個(gè)虛擬環(huán)境,合成了成千上萬條數(shù)據(jù)來輔助訓(xùn)練。
DeepSeek-V3.2 用 24667 個(gè)真實(shí)代碼環(huán)境任務(wù)、50275 個(gè)真實(shí)搜索任務(wù)、4417 個(gè)合成通用 agent 場(chǎng)景、5908 個(gè)真實(shí)的代碼解釋任務(wù)做后訓(xùn)練。
另一方面,DeepSeek 還優(yōu)化了模型使用各種工具的流程。
以前幾代 DeepSeek 的一個(gè)典型毛病是:會(huì)把思考和用工具給分開。
模型一旦去調(diào)用外部工具,前面那段思考基本就算寫完收工了,等工具查完結(jié)果再回來,它往往又要重新鋪一遍思路。
這就導(dǎo)致一種很蠢的體驗(yàn)——哪怕只是去查一下“今天幾月幾號(hào)” 這種小事,模型也會(huì)從頭開始重建整套推理鏈,非常浪費(fèi)時(shí)間。。。
在 V3.2 這里,DeepSeek 忍不了了,直接把這套邏輯推翻重做。
現(xiàn)在的規(guī)則變成:在一整串工具調(diào)用的過程中,模型的“思考過程”會(huì)一直保留下來,只有當(dāng)用戶發(fā)來一條新的提問時(shí),才會(huì)重置這一輪推理;而工具的調(diào)用記錄和結(jié)果,會(huì)像聊天記錄一樣一直留在上下文里。
通過這修改模型架構(gòu),重視后訓(xùn)練,強(qiáng)化 Agent 能力的三板斧,DeepSeek 才終于讓自己的新模型,有了能和世界頂尖開源模型再次一戰(zhàn)的能力。
當(dāng)然,即使做了這么多改進(jìn),DeepSeek 的表現(xiàn)也算不上完美。
但托尼最喜歡 DeepSeek 的一點(diǎn),就是他們?cè)敢獬姓J(rèn)自己的不足。
而且還會(huì)直接在論文里寫出來。
比如這次論文就提到了,這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。
但是要回答相同的問題,DeepSeek 需要花費(fèi)更多的 token。
我自己也測(cè)試了一下,從“人類的最終考試” 的題庫(kù)里隨便抽了道題目,同時(shí)丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個(gè)模型。
題目是:
蜂鳥類在足形目中獨(dú)特地?fù)碛须p側(cè)成對(duì)的橢圓形骨,這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中,嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對(duì)對(duì)腱?請(qǐng)用數(shù)字回答。
結(jié)果發(fā)現(xiàn) Gemini 只要 4972 個(gè) Tokens 就能把問題給答出來。
而到了 DeepSeek 這邊,則用了 8077 個(gè) Tokens 才把問題給搞明白。
光看用量的話,DeepSeek 的的 Tokens 消耗量高了快六成,確實(shí)是有不小的差距。
但是話又說回來了。
DeepSeek 雖然消耗的 token 多,但是人家價(jià)格便宜啊。。。
還是剛才那個(gè)問題,我回頭仔細(xì)看了眼賬單。
DeepSeek 8000 多個(gè) tokens,花了我 0.0032 美元。
但谷歌這邊,5000 個(gè) tokens 不到,給我干掉了 0.06 刀?這塊要比 DeepSeek 高了有 20 倍了。
從這個(gè)角度上來看,怎么感覺還是 DeepSeek 更香一些。。。
最后,讓我們回到論文的開頭。
正如 DeepSeek 所言,最近半年來,開源模型和閉源模型的差距正在不斷加大。
但他們還是用自己的方式,在不斷追趕這份差距。
而 DeepSeek 的各種節(jié)省算力,節(jié)約數(shù)據(jù)的操作,其實(shí)讓我想到了上個(gè)月,一場(chǎng)關(guān)于 Ilya Sutskever 的訪談。
這位 OpenAI 曾經(jīng)的靈魂人物認(rèn)為,只靠一味的給模型堆參數(shù),是沒有未來的。
AlexNet只用了兩塊GPU。Transformer剛出現(xiàn)時(shí)的實(shí)驗(yàn)規(guī)模,大多在8~64塊GPU范圍內(nèi)。按今天的標(biāo)準(zhǔn)看,那甚至相當(dāng)于幾塊GPU的規(guī)模,ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。
比起算力的堆砌,對(duì)算法的研究也一樣重要。
這正是 DeepSeek 在做的事情。
從 V2 的 MoE,到 V3 的多頭潛在注意力(MLA),再到如今 DeepSeek Math V2 的自驗(yàn)證機(jī)制,V3.2 的稀疏注意力(DSA)。
DeepSeek 展現(xiàn)給我們進(jìn)步,從來都不是單一的,依靠堆砌參數(shù)規(guī)模所帶來的提升。
而是在想辦法,如何用有限的數(shù)據(jù),來堆積出更多的智能。
巧婦狂作無米之炊
所以,R2 什么時(shí)候來呢?