|
2025 年,對標(biāo)達摩底國產(chǎn) GPU 行業(yè)迎來了一個不僅關(guān)乎生存,英偉更關(guān)乎勝負的爾線「大年」。 在國際博弈與 AI 大模型爆發(fā)的程上雙重夾擊下,國內(nèi)企業(yè)達成了前所未有的市后首次共識,若不擁有自主 GPU 算力,對標(biāo)達摩底就無法在通往未來的英偉牌桌上保住席位。過去兩年,爾線國內(nèi)模型玩家們一邊在全球范圍內(nèi)「屯糧」,程上一邊悄悄投遍了國內(nèi)所有的市后首次 GPU 廠商,每個人都在等待那個能真正承載中國 AI 野心的對標(biāo)達摩底玩家出現(xiàn),希望國產(chǎn)芯片能在性能上與國際巨頭正面一搏。英偉 不過,爾線今天這一切或許有了新的程上變化。12月20日,市后首次摩爾線程在北京中關(guān)村國際創(chuàng)新中心舉辦了首屆 MUSA 開發(fā)者大會(MDC 2025)。會上,摩爾線程創(chuàng)始人、董事長兼 CEO 張建中在主題演講中介紹了其最新 GPU 架構(gòu)「花港」,算力密度提升 50%,效能提升 10 倍。落在具體芯片上,摩爾線程基于該架構(gòu)推出高性能 AI 訓(xùn)推一體「華山」芯片與專攻高性能圖形渲染的「廬山」芯片。 據(jù)介紹,在性能上,華山的訪存容量甚至超越了英偉達 Blackwell,訪存帶寬與之并肩齊驅(qū)。盡管在絕對浮點算力和互聯(lián)帶寬上仍處于追趕 Blackwell 的狀態(tài),但它已多方位超越了長期作為行業(yè)標(biāo)桿產(chǎn)品。這種「緊咬旗艦」的態(tài)勢,標(biāo)志著國產(chǎn) GPU 已經(jīng)完成了從「能用」到「頂級好用」的跨代躍遷。 華山性能示意圖 | 圖片來源:極客公園 而專注于高性能圖形渲染的廬山,相較于上一代的 S80,能夠為 3A 游戲性能帶來 15 倍的提升,具體而言,在 AI 性能上有 64 倍的提升,在光線追蹤性能上有 50 倍提升。 作為目前少數(shù)敢于和英偉達公開掰手腕的國產(chǎn) GPU 廠商之一,摩爾線程在此次發(fā)布會中所推出的產(chǎn)品,更具象體現(xiàn)其「全功能 GPU」的定位,從具身智能到生命科學(xué),再到量子計算,摩爾線程和生態(tài)伙伴們的合作正逐步展開。 熬過了漫長的靜默期,摩爾線程終于以「國產(chǎn) GPU 第一股」的姿態(tài)站到聚光燈下。此刻,它必須面對市場的集中叩問如何立足市場?未來征途又將去往何處?尤為關(guān)鍵的是,在數(shù)款硬件落地之后,其業(yè)務(wù)體系究竟如何布局?在芯片荒與算力焦慮交織的當(dāng)下,摩爾線程這種全方面布局方式究竟能否在激烈競爭中挖到真正的「算力黃金」?通過這場大會釋放出的多方信號,我們得以窺見這家公司重塑計算效率邊界的野心與路徑。 一、1個架構(gòu),2款硬件,3款芯片 「算力就是國力。我們希望能夠從芯片到集群以『加速計算』的能力,利用全功能 GPU 打造國之重器?!乖谀柧€程創(chuàng)始人張建中講述自己講如何打造一條從微觀芯片架構(gòu)到宏觀智算集群的自主突圍之路。 與英偉達構(gòu)筑的 CUDA 護城河邏輯相似,摩爾線程深知單一硬件無法定義未來,因此打造了一個縱深極廣的生態(tài)系統(tǒng)MUSA,底層集成了 AI 計算、3D 圖形渲染、高性能計算與智能視頻編解碼的全功能 GPU ,以全數(shù)據(jù)單元的兼容性將算力觸角延伸至科學(xué)計算、數(shù)字孿生、具身智能、量子計算乃至 6G 通信與生物醫(yī)藥等前沿領(lǐng)域。 在全功能GPU之上,是硬件系統(tǒng),摩爾線程的智算集群叫作夸娥??涠鹬撬慵簩崿F(xiàn)了從微型系統(tǒng)到十萬卡規(guī)模的彈性擴展;MUSA 軟件棧則通過完備的加速庫、調(diào)試工具及應(yīng)用實例,為開發(fā)者提供了從底層基礎(chǔ)軟件到 AI 訓(xùn)推系統(tǒng)框架的閉環(huán)支持,甚至通過復(fù)雜的管理套件,攻克了超大規(guī)模系統(tǒng)運維的難題。 架構(gòu)迭代升級的確定性,是國產(chǎn)芯片對抗外部不確定性的定海神針。在歷經(jīng)蘇堤、春曉、曲院、平湖四代量產(chǎn)演進的積淀后,摩爾線程計劃于明年正式量產(chǎn)第五代架構(gòu)「花港」。 摩爾線程通過底層指令集升級來換取性能空間優(yōu)化,花港在同等工藝條件下實現(xiàn)了 50% 的算力密度增長與 10 倍的能效提升。摩爾線程還專門針對大模型趨勢優(yōu)化了 FP4、FP6、FP8 等低精度計算單元,并支持十萬卡以上集群的擴展。 花港架構(gòu) | 圖片來源:摩爾線程 基于此架構(gòu)的 AI 芯片「華山」,更是引入了新一代異步編程模型,通過 TCE-PAIR 技術(shù)實現(xiàn) Tensor 核心間的數(shù)據(jù)共享,讓本需兩次調(diào)用的數(shù)據(jù)一次完成,解決了計算單元因任務(wù)分配不均而「空轉(zhuǎn)」的頑疾,在硬件底層優(yōu)化了算子的實際吞吐效率。 此外,摩爾線程技術(shù)溢出不僅影響到數(shù)據(jù)中心,同樣在圖形與邊緣側(cè)市場引發(fā)了質(zhì)變。承襲花港架構(gòu)底層優(yōu)勢的專業(yè)圖形顯卡「廬山」,相比前代 S80,其游戲性能提升 15 倍,AI 原生算力激增 64 倍,幾何處理能力提升 16 倍,并支持 50 倍性能的光線追蹤硬件加速。通過統(tǒng)一任務(wù)引擎管理框架,「廬山」確保了多核并行效率的最大化,使其足以勝任 CAD 與 CAE 等高精度的工業(yè)輔助設(shè)計任務(wù)。 廬山 芯片 | 圖片來源:摩爾線程 在連接云端與端側(cè)的戰(zhàn)略上,新一代 AI SoC 長江內(nèi)部融合了 CPU、GPU、NPU、VPU、DPU、DSP 及 ISP 等多元異構(gòu)引擎,讓端側(cè)設(shè)備極高的靈活性。目前,長江能夠在一個高效率、低功耗的單芯片系統(tǒng)內(nèi),同時處理復(fù)雜的邏輯指令與超高清視頻編解碼,覆蓋了從機器人到智能終端幾乎所有的技術(shù)訴求。 長江智能 SoC 芯片 | 圖片來源:摩爾線程 為了加速生態(tài)下沉,摩爾線程還推出了售價 9999 元起的算力本 MTT AIBOOK 與個人工作站 AICube,試圖將「云端算力」升級為「開箱即用」的個人生產(chǎn)力。 據(jù)介紹,MTT AIBOOK 是首部真正意義上的「算力本」,它搭載了長江SoC,將大模型訓(xùn)推能力直接封裝進便攜設(shè)備。摩爾線程認為,通過內(nèi)置的 MT AIOS,開發(fā)者可以在 Linux 原生環(huán)境下自由切換 Windows 虛擬機與安卓系統(tǒng),實現(xiàn)從模型訓(xùn)練、推理調(diào)試到多端應(yīng)用部署的周期閉環(huán)。 MTT AIBOOK | 圖片來源:摩爾線程 針對個人開發(fā)者面臨的環(huán)境配置痛點,AIBOOK 還提供了預(yù)裝方案,不僅支持 Docker 與深度神經(jīng)網(wǎng)絡(luò)庫,還集成了 VS Code、Python 及 PyTorch、vLLM 等主流框架,配合 1TB SSD 與最高 64G 高速存儲,讓「一人一 Agent」的設(shè)想成為可能。用戶可以利用其開放系統(tǒng)開發(fā)專屬智能體,甚至讓 Agent 接管系統(tǒng)操作,真正實現(xiàn) AI 原生的工作流。 如果說 AIBOOK 算是流動的節(jié)點,那么 AICube 則是一個靜默而強大的算力中樞。作為一個目前處于原型機階段的小型工作站,AICube 利用強大的算力化身為家庭或辦公室的「數(shù)據(jù)中樞」,通過人工智能交互對碎片化信息進行智能化管理。無論是咨詢旅行照片、檢索家庭短片還是規(guī)劃行程,其內(nèi)置數(shù)字人都能充當(dāng)「家庭大腦」提供即時服務(wù)。 算力競賽的終局,最終都會回歸生態(tài)滲透率的較量。為了打破 CUDA 生態(tài)的慣性遷移壁壘,摩爾線程正在開發(fā)的 MUSACode 大模型已實現(xiàn) 93% 的自動化編譯率,并正在自研通過自然語言直接生成代碼的 Text to MUSA 技術(shù),試圖大幅降低遷移門檻。此外,GPU 虛擬化技術(shù)的迭代實現(xiàn)了熱遷移與熱插拔功能,這種高可靠性特性極大增強了國產(chǎn)算力在云端部署中的商業(yè)競爭力。 從華山到廬山再到長江,從數(shù)據(jù)中心到個人桌面,這種多方位布局體現(xiàn)了摩爾線程試圖通過架構(gòu)創(chuàng)新與軟件深度重構(gòu),在現(xiàn)有制程框架下大幅提高計算效率。 二、打造萬卡 AI 超級工廠 前幾年,萬卡集群曾被視為難以逾越的巔峰,但隨著千億級乃至萬億級參數(shù)大模型的涌現(xiàn),如何構(gòu)建一個真正屬于國產(chǎn)化的超算底座,成了行業(yè)共同的追索。在這個過程中,摩爾線程并不滿足于只做芯片的供應(yīng)商,而是希望打造一座智能的「AI 工廠」。 在大規(guī)模集群中,如何讓數(shù)以萬計的 GPU 像一個大腦一樣協(xié)同工作,其中最大的難題之一在于 Scale-up(垂直擴展)的效率。 為了打破互聯(lián)的圍墻,摩爾線程的「華山」芯片不僅擁有高速的 MTLink 4.0 技術(shù),還主動擁抱多元化的以太網(wǎng)協(xié)議,將國內(nèi)合作伙伴的各種協(xié)議內(nèi)置在芯片里,這也讓華山芯片的兼容性能無縫適配廣闊硬件生態(tài),讓國產(chǎn)算力能夠通過跨廠商的交換機實現(xiàn)自由擴展。目前,華山的超節(jié)點 Scale-up 能力已提升至 1024 卡,這意味著超千顆 GPU 能在一個節(jié)點內(nèi)實現(xiàn)極致的帶寬互通,為十萬卡級別的超大規(guī)模集群打開了物理想象力。 然而,當(dāng)算力規(guī)模走向十萬卡級別,穩(wěn)定性就成了集群運轉(zhuǎn)的生死線。摩爾線程通過RAS 2.0 技術(shù),采用 ECC 與 SRAM 校驗機制,芯片能在問題發(fā)生的一瞬間自動檢測、上報并精準(zhǔn)隔離故障單元。這種設(shè)計確保了在成千上萬芯片構(gòu)成的星陣中,局部的微小問題不會引發(fā)系統(tǒng)性的崩潰,讓開發(fā)者和管理者能夠?qū)崟r掌控集群的健康狀態(tài),確保了整個智算中心的安全性與業(yè)務(wù)連續(xù)性。 從 2024 年的千卡試水,到 2025 年萬卡集群的落地,再到未來十萬卡級的藍圖,摩爾線程的夸娥智算集群正在重塑國產(chǎn)算力的上限。這座坐落于北京的萬卡工廠,不僅擁有驚人的 10 EFLOPS 浮點算力,更在模型算力利用率和有效訓(xùn)練時長上給出不錯的成果。目前,它通過深度軟硬件協(xié)同,讓 MFU 穩(wěn)定在 60% 以上,真正解決了大模型訓(xùn)練中「出工不出力」的難題。 很顯然,在摩爾線程的愿景里,國產(chǎn)超算不應(yīng)只是硬件堆砌。為此,他們推出了MTT C256 超節(jié)點解決方案,讓 256 顆 GPU 在億級拓撲互聯(lián)下實現(xiàn)互通。同時,為了降低開發(fā)門檻,他們打造了從自研 MT Transformer 推理引擎到全面兼容 vLLM、Llama.cpp 等開源生態(tài)的軟件矩陣。 MTT C256 超節(jié)點解決方案| 圖片來源:摩爾線程 從華山芯片到夸娥集群,再到那些讓代碼遷移變得輕而易舉的 MUSACode 工具,摩爾線程正在做的是試圖在這個由制程瓶頸與技術(shù)壁壘構(gòu)成的迷宮中,開辟出一條通往「算力自由」的中國路徑,讓國產(chǎn)智算中心真正成為能支撐起萬物智能的基座。 三、成為下一個「英偉達」? 當(dāng)摩爾線程將其完整的產(chǎn)品圖譜悉數(shù)鋪開時,你會驚覺這家公司在靜默的時光里已然走過了極為深遠的征途。從蘇堤、春曉、曲院、平湖,再到計劃量產(chǎn)的「花港」架構(gòu),這種一年一代的迭代速率,勾勒出一條國產(chǎn)算力向上攀升的曲線。從底層的芯片邏輯看,摩爾線程始終緊扣「全功能、全精度、全產(chǎn)品業(yè)務(wù)」三大支柱。 在展會現(xiàn)場,這種「全」的意圖被展現(xiàn)得淋漓盡致:從云端智算中心到邊緣計算節(jié)點,再到 橫跨 B、C 兩端的桌面終端,這種縱貫產(chǎn)業(yè)鏈上下游的布局,幾乎覆蓋了計算生態(tài)的每一個神經(jīng)末梢。 在推理生態(tài)上,摩爾線程與硅基流動的深度合作,展示了其基礎(chǔ)庫在開發(fā)者手中的實戰(zhàn)潛力。據(jù)介紹,在 Prefill 階段,單卡每秒可處理 4000 tokens,decode 階段亦能達到單卡每秒 1000 tokens。 不僅如此,摩爾線程在生命科學(xué)領(lǐng)域利用 MUSA 平臺開發(fā)出 Sponge 和 DSDP,試圖在自己的生態(tài)里生長出原生的應(yīng)用場景。在前沿的 AI For 6G 賽道,摩爾線程與中關(guān)村聯(lián)合合作,利用 S5000 的算力,讓 6G 通信的算法優(yōu)化與網(wǎng)絡(luò)部署,加速通信與算力融合。 摩爾線程還打造的數(shù)字人「小麥」,開放了核心能力,支持開發(fā)者在 AIBOOK 上原生開發(fā) 2D 數(shù)字人應(yīng)用。摩爾線程甚至提供了云邊結(jié)合的數(shù)字人制作工具,讓 AI 生成的數(shù)字人能應(yīng)用于服務(wù)與交互場景。 展會上引人注目的亮點之一,莫過于那臺被擺在各個站臺演示位核心、甚至已成為摩爾線程公司內(nèi)部主力辦公設(shè)備之一的 MTT AIBOOK。通過后臺參數(shù)性能監(jiān)控可以發(fā)現(xiàn),即便是在播放高碼率視頻或執(zhí)行多任務(wù)切換時,其底層的全功能 GPU 波動依然保持平穩(wěn)。這說明 AIBOOK 并非一個點到為止的「參考設(shè)計」,而是一款完成度較高、意圖切入真實市場的硬件產(chǎn)品。與之相伴的還有針對個人數(shù)據(jù)中心打造的AICube,這些消費級終端的「小試牛刀」,背后折射出摩爾線程下沉算力入口的野心。 摩爾線程打造的 MTT AIBOOK和 MTT AICube| 圖片來源:極客公園 然而,全能的另一面往往是業(yè)務(wù)重心的取舍難題。9999 元的定價背后,也是芯片廠商跨界生態(tài)位的巨大風(fēng)險。這種看似「戰(zhàn)線過長」的布局,其實隱藏著國產(chǎn) GPU 廠商在現(xiàn)有國際霸權(quán)生態(tài)下的集體無奈。 在國際廠商生態(tài)已然堅不可摧、開發(fā)者習(xí)慣早已固化的今天,國產(chǎn)玩家想要突圍,僅僅提供一顆芯片是不夠的。現(xiàn)有的成熟平臺就像是精密運轉(zhuǎn)的鐘表,所有外部齒輪都圍繞其轉(zhuǎn)動;而作為后來者的摩爾線程,必須親自搭建起適配平臺、開發(fā)庫、解決方案甚至是硬件終端。這是一種「為了賣出芯片,必須先修好整條路」的戰(zhàn)略自覺,只有將通路的工作做在前面,才能最大化地釋放出國產(chǎn)化芯片的性能優(yōu)勢,為自己爭取到進入核心賽道的門票。 這一切,最終凝結(jié)為摩爾線程前瞻且全面的業(yè)務(wù)體系。展會中,我們聽到不少人將其稱為「中國的英偉達」。誠然,從其展示的藍圖中,我們確實能看到一顆不甘追隨、志在引領(lǐng)的雄心。然而,真正的破局者從不滿足于成為另一個誰。在技術(shù)封鎖與生態(tài)挑戰(zhàn)并存的當(dāng)下,我們期待摩爾線程這套「以全破堅」的方略,不僅能開辟生存之路,更能走出一條定義自身、通往算力自主的開拓之路。 |