發(fā)布時間:2025-12-27 19:04:27 來源:企業(yè)錄(www.falconvsmonkey.com)-公司信息發(fā)布,網(wǎng)上買賣交易門戶 作者:時尚
2025 年,對標(biāo)達(dá)摩底國產(chǎn) GPU 行業(yè)迎來了一個不僅關(guān)乎生存,英偉更關(guān)乎勝負(fù)的爾線「大年」。
在國際博弈與 AI 大模型爆發(fā)的程上雙重夾擊下,國內(nèi)企業(yè)達(dá)成了前所未有的市后首次共識,若不擁有自主 GPU 算力,對標(biāo)達(dá)摩底就無法在通往未來的英偉牌桌上保住席位。過去兩年,爾線國內(nèi)模型玩家們一邊在全球范圍內(nèi)「屯糧」,程上一邊悄悄投遍了國內(nèi)所有的市后首次 GPU 廠商,每個人都在等待那個能真正承載中國 AI 野心的對標(biāo)達(dá)摩底玩家出現(xiàn),希望國產(chǎn)芯片能在性能上與國際巨頭正面一搏。英偉
不過,爾線今天這一切或許有了新的程上變化。12月20日,市后首次摩爾線程在北京中關(guān)村國際創(chuàng)新中心舉辦了首屆 MUSA 開發(fā)者大會(MDC 2025)。會上,摩爾線程創(chuàng)始人、董事長兼 CEO 張建中在主題演講中介紹了其最新 GPU 架構(gòu)「花港」,算力密度提升 50%,效能提升 10 倍。落在具體芯片上,摩爾線程基于該架構(gòu)推出高性能 AI 訓(xùn)推一體「華山」芯片與專攻高性能圖形渲染的「廬山」芯片。
據(jù)介紹,在性能上,華山的訪存容量甚至超越了英偉達(dá) Blackwell,訪存帶寬與之并肩齊驅(qū)。盡管在絕對浮點(diǎn)算力和互聯(lián)帶寬上仍處于追趕 Blackwell 的狀態(tài),但它已多方位超越了長期作為行業(yè)標(biāo)桿產(chǎn)品。這種「緊咬旗艦」的態(tài)勢,標(biāo)志著國產(chǎn) GPU 已經(jīng)完成了從「能用」到「頂級好用」的跨代躍遷。
華山性能示意圖 | 圖片來源:極客公園
而專注于高性能圖形渲染的廬山,相較于上一代的 S80,能夠?yàn)?3A 游戲性能帶來 15 倍的提升,具體而言,在 AI 性能上有 64 倍的提升,在光線追蹤性能上有 50 倍提升。
作為目前少數(shù)敢于和英偉達(dá)公開掰手腕的國產(chǎn) GPU 廠商之一,摩爾線程在此次發(fā)布會中所推出的產(chǎn)品,更具象體現(xiàn)其「全功能 GPU」的定位,從具身智能到生命科學(xué),再到量子計(jì)算,摩爾線程和生態(tài)伙伴們的合作正逐步展開。
熬過了漫長的靜默期,摩爾線程終于以「國產(chǎn) GPU 第一股」的姿態(tài)站到聚光燈下。此刻,它必須面對市場的集中叩問如何立足市場?未來征途又將去往何處?尤為關(guān)鍵的是,在數(shù)款硬件落地之后,其業(yè)務(wù)體系究竟如何布局?在芯片荒與算力焦慮交織的當(dāng)下,摩爾線程這種全方面布局方式究竟能否在激烈競爭中挖到真正的「算力黃金」?通過這場大會釋放出的多方信號,我們得以窺見這家公司重塑計(jì)算效率邊界的野心與路徑。
一、1個架構(gòu),2款硬件,3款芯片
「算力就是國力。我們希望能夠從芯片到集群以『加速計(jì)算』的能力,利用全功能 GPU 打造國之重器。」在摩爾線程創(chuàng)始人張建中講述自己講如何打造一條從微觀芯片架構(gòu)到宏觀智算集群的自主突圍之路。
與英偉達(dá)構(gòu)筑的 CUDA 護(hù)城河邏輯相似,摩爾線程深知單一硬件無法定義未來,因此打造了一個縱深極廣的生態(tài)系統(tǒng)MUSA,底層集成了 AI 計(jì)算、3D 圖形渲染、高性能計(jì)算與智能視頻編解碼的全功能 GPU ,以全數(shù)據(jù)單元的兼容性將算力觸角延伸至科學(xué)計(jì)算、數(shù)字孿生、具身智能、量子計(jì)算乃至 6G 通信與生物醫(yī)藥等前沿領(lǐng)域。
在全功能GPU之上,是硬件系統(tǒng),摩爾線程的智算集群叫作夸娥??涠鹬撬慵簩?shí)現(xiàn)了從微型系統(tǒng)到十萬卡規(guī)模的彈性擴(kuò)展;MUSA 軟件棧則通過完備的加速庫、調(diào)試工具及應(yīng)用實(shí)例,為開發(fā)者提供了從底層基礎(chǔ)軟件到 AI 訓(xùn)推系統(tǒng)框架的閉環(huán)支持,甚至通過復(fù)雜的管理套件,攻克了超大規(guī)模系統(tǒng)運(yùn)維的難題。
架構(gòu)迭代升級的確定性,是國產(chǎn)芯片對抗外部不確定性的定海神針。在歷經(jīng)蘇堤、春曉、曲院、平湖四代量產(chǎn)演進(jìn)的積淀后,摩爾線程計(jì)劃于明年正式量產(chǎn)第五代架構(gòu)「花港」。
摩爾線程通過底層指令集升級來換取性能空間優(yōu)化,花港在同等工藝條件下實(shí)現(xiàn)了 50% 的算力密度增長與 10 倍的能效提升。摩爾線程還專門針對大模型趨勢優(yōu)化了 FP4、FP6、FP8 等低精度計(jì)算單元,并支持十萬卡以上集群的擴(kuò)展。
花港架構(gòu) | 圖片來源:摩爾線程
基于此架構(gòu)的 AI 芯片「華山」,更是引入了新一代異步編程模型,通過 TCE-PAIR 技術(shù)實(shí)現(xiàn) Tensor 核心間的數(shù)據(jù)共享,讓本需兩次調(diào)用的數(shù)據(jù)一次完成,解決了計(jì)算單元因任務(wù)分配不均而「空轉(zhuǎn)」的頑疾,在硬件底層優(yōu)化了算子的實(shí)際吞吐效率。
此外,摩爾線程技術(shù)溢出不僅影響到數(shù)據(jù)中心,同樣在圖形與邊緣側(cè)市場引發(fā)了質(zhì)變。承襲花港架構(gòu)底層優(yōu)勢的專業(yè)圖形顯卡「廬山」,相比前代 S80,其游戲性能提升 15 倍,AI 原生算力激增 64 倍,幾何處理能力提升 16 倍,并支持 50 倍性能的光線追蹤硬件加速。通過統(tǒng)一任務(wù)引擎管理框架,「廬山」確保了多核并行效率的最大化,使其足以勝任 CAD 與 CAE 等高精度的工業(yè)輔助設(shè)計(jì)任務(wù)。
廬山 芯片 | 圖片來源:摩爾線程
在連接云端與端側(cè)的戰(zhàn)略上,新一代 AI SoC 長江內(nèi)部融合了 CPU、GPU、NPU、VPU、DPU、DSP 及 ISP 等多元異構(gòu)引擎,讓端側(cè)設(shè)備極高的靈活性。目前,長江能夠在一個高效率、低功耗的單芯片系統(tǒng)內(nèi),同時處理復(fù)雜的邏輯指令與超高清視頻編解碼,覆蓋了從機(jī)器人到智能終端幾乎所有的技術(shù)訴求。
長江智能 SoC 芯片 | 圖片來源:摩爾線程
為了加速生態(tài)下沉,摩爾線程還推出了售價 9999 元起的算力本 MTT AIBOOK 與個人工作站 AICube,試圖將「云端算力」升級為「開箱即用」的個人生產(chǎn)力。
據(jù)介紹,MTT AIBOOK 是首部真正意義上的「算力本」,它搭載了長江SoC,將大模型訓(xùn)推能力直接封裝進(jìn)便攜設(shè)備。摩爾線程認(rèn)為,通過內(nèi)置的 MT AIOS,開發(fā)者可以在 Linux 原生環(huán)境下自由切換 Windows 虛擬機(jī)與安卓系統(tǒng),實(shí)現(xiàn)從模型訓(xùn)練、推理調(diào)試到多端應(yīng)用部署的周期閉環(huán)。
MTT AIBOOK | 圖片來源:摩爾線程
針對個人開發(fā)者面臨的環(huán)境配置痛點(diǎn),AIBOOK 還提供了預(yù)裝方案,不僅支持 Docker 與深度神經(jīng)網(wǎng)絡(luò)庫,還集成了 VS Code、Python 及 PyTorch、vLLM 等主流框架,配合 1TB SSD 與最高 64G 高速存儲,讓「一人一 Agent」的設(shè)想成為可能。用戶可以利用其開放系統(tǒng)開發(fā)專屬智能體,甚至讓 Agent 接管系統(tǒng)操作,真正實(shí)現(xiàn) AI 原生的工作流。
如果說 AIBOOK 算是流動的節(jié)點(diǎn),那么 AICube 則是一個靜默而強(qiáng)大的算力中樞。作為一個目前處于原型機(jī)階段的小型工作站,AICube 利用強(qiáng)大的算力化身為家庭或辦公室的「數(shù)據(jù)中樞」,通過人工智能交互對碎片化信息進(jìn)行智能化管理。無論是咨詢旅行照片、檢索家庭短片還是規(guī)劃行程,其內(nèi)置數(shù)字人都能充當(dāng)「家庭大腦」提供即時服務(wù)。
算力競賽的終局,最終都會回歸生態(tài)滲透率的較量。為了打破 CUDA 生態(tài)的慣性遷移壁壘,摩爾線程正在開發(fā)的 MUSACode 大模型已實(shí)現(xiàn) 93% 的自動化編譯率,并正在自研通過自然語言直接生成代碼的 Text to MUSA 技術(shù),試圖大幅降低遷移門檻。此外,GPU 虛擬化技術(shù)的迭代實(shí)現(xiàn)了熱遷移與熱插拔功能,這種高可靠性特性極大增強(qiáng)了國產(chǎn)算力在云端部署中的商業(yè)競爭力。
從華山到廬山再到長江,從數(shù)據(jù)中心到個人桌面,這種多方位布局體現(xiàn)了摩爾線程試圖通過架構(gòu)創(chuàng)新與軟件深度重構(gòu),在現(xiàn)有制程框架下大幅提高計(jì)算效率。
二、打造萬卡 AI 超級工廠
前幾年,萬卡集群曾被視為難以逾越的巔峰,但隨著千億級乃至萬億級參數(shù)大模型的涌現(xiàn),如何構(gòu)建一個真正屬于國產(chǎn)化的超算底座,成了行業(yè)共同的追索。在這個過程中,摩爾線程并不滿足于只做芯片的供應(yīng)商,而是希望打造一座智能的「AI 工廠」。
在大規(guī)模集群中,如何讓數(shù)以萬計(jì)的 GPU 像一個大腦一樣協(xié)同工作,其中最大的難題之一在于 Scale-up(垂直擴(kuò)展)的效率。
為了打破互聯(lián)的圍墻,摩爾線程的「華山」芯片不僅擁有高速的 MTLink 4.0 技術(shù),還主動擁抱多元化的以太網(wǎng)協(xié)議,將國內(nèi)合作伙伴的各種協(xié)議內(nèi)置在芯片里,這也讓華山芯片的兼容性能無縫適配廣闊硬件生態(tài),讓國產(chǎn)算力能夠通過跨廠商的交換機(jī)實(shí)現(xiàn)自由擴(kuò)展。目前,華山的超節(jié)點(diǎn) Scale-up 能力已提升至 1024 卡,這意味著超千顆 GPU 能在一個節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)極致的帶寬互通,為十萬卡級別的超大規(guī)模集群打開了物理想象力。
然而,當(dāng)算力規(guī)模走向十萬卡級別,穩(wěn)定性就成了集群運(yùn)轉(zhuǎn)的生死線。摩爾線程通過RAS 2.0 技術(shù),采用 ECC 與 SRAM 校驗(yàn)機(jī)制,芯片能在問題發(fā)生的一瞬間自動檢測、上報并精準(zhǔn)隔離故障單元。這種設(shè)計(jì)確保了在成千上萬芯片構(gòu)成的星陣中,局部的微小問題不會引發(fā)系統(tǒng)性的崩潰,讓開發(fā)者和管理者能夠?qū)崟r掌控集群的健康狀態(tài),確保了整個智算中心的安全性與業(yè)務(wù)連續(xù)性。
從 2024 年的千卡試水,到 2025 年萬卡集群的落地,再到未來十萬卡級的藍(lán)圖,摩爾線程的夸娥智算集群正在重塑國產(chǎn)算力的上限。這座坐落于北京的萬卡工廠,不僅擁有驚人的 10 EFLOPS 浮點(diǎn)算力,更在模型算力利用率和有效訓(xùn)練時長上給出不錯的成果。目前,它通過深度軟硬件協(xié)同,讓 MFU 穩(wěn)定在 60% 以上,真正解決了大模型訓(xùn)練中「出工不出力」的難題。
很顯然,在摩爾線程的愿景里,國產(chǎn)超算不應(yīng)只是硬件堆砌。為此,他們推出了MTT C256 超節(jié)點(diǎn)解決方案,讓 256 顆 GPU 在億級拓?fù)浠ヂ?lián)下實(shí)現(xiàn)互通。同時,為了降低開發(fā)門檻,他們打造了從自研 MT Transformer 推理引擎到全面兼容 vLLM、Llama.cpp 等開源生態(tài)的軟件矩陣。
MTT C256 超節(jié)點(diǎn)解決方案| 圖片來源:摩爾線程
從華山芯片到夸娥集群,再到那些讓代碼遷移變得輕而易舉的 MUSACode 工具,摩爾線程正在做的是試圖在這個由制程瓶頸與技術(shù)壁壘構(gòu)成的迷宮中,開辟出一條通往「算力自由」的中國路徑,讓國產(chǎn)智算中心真正成為能支撐起萬物智能的基座。
三、成為下一個「英偉達(dá)」?
當(dāng)摩爾線程將其完整的產(chǎn)品圖譜悉數(shù)鋪開時,你會驚覺這家公司在靜默的時光里已然走過了極為深遠(yuǎn)的征途。從蘇堤、春曉、曲院、平湖,再到計(jì)劃量產(chǎn)的「花港」架構(gòu),這種一年一代的迭代速率,勾勒出一條國產(chǎn)算力向上攀升的曲線。從底層的芯片邏輯看,摩爾線程始終緊扣「全功能、全精度、全產(chǎn)品業(yè)務(wù)」三大支柱。
在展會現(xiàn)場,這種「全」的意圖被展現(xiàn)得淋漓盡致:從云端智算中心到邊緣計(jì)算節(jié)點(diǎn),再到 橫跨 B、C 兩端的桌面終端,這種縱貫產(chǎn)業(yè)鏈上下游的布局,幾乎覆蓋了計(jì)算生態(tài)的每一個神經(jīng)末梢。
在推理生態(tài)上,摩爾線程與硅基流動的深度合作,展示了其基礎(chǔ)庫在開發(fā)者手中的實(shí)戰(zhàn)潛力。據(jù)介紹,在 Prefill 階段,單卡每秒可處理 4000 tokens,decode 階段亦能達(dá)到單卡每秒 1000 tokens。
不僅如此,摩爾線程在生命科學(xué)領(lǐng)域利用 MUSA 平臺開發(fā)出 Sponge 和 DSDP,試圖在自己的生態(tài)里生長出原生的應(yīng)用場景。在前沿的 AI For 6G 賽道,摩爾線程與中關(guān)村聯(lián)合合作,利用 S5000 的算力,讓 6G 通信的算法優(yōu)化與網(wǎng)絡(luò)部署,加速通信與算力融合。
摩爾線程還打造的數(shù)字人「小麥」,開放了核心能力,支持開發(fā)者在 AIBOOK 上原生開發(fā) 2D 數(shù)字人應(yīng)用。摩爾線程甚至提供了云邊結(jié)合的數(shù)字人制作工具,讓 AI 生成的數(shù)字人能應(yīng)用于服務(wù)與交互場景。
展會上引人注目的亮點(diǎn)之一,莫過于那臺被擺在各個站臺演示位核心、甚至已成為摩爾線程公司內(nèi)部主力辦公設(shè)備之一的 MTT AIBOOK。通過后臺參數(shù)性能監(jiān)控可以發(fā)現(xiàn),即便是在播放高碼率視頻或執(zhí)行多任務(wù)切換時,其底層的全功能 GPU 波動依然保持平穩(wěn)。這說明 AIBOOK 并非一個點(diǎn)到為止的「參考設(shè)計(jì)」,而是一款完成度較高、意圖切入真實(shí)市場的硬件產(chǎn)品。與之相伴的還有針對個人數(shù)據(jù)中心打造的AICube,這些消費(fèi)級終端的「小試牛刀」,背后折射出摩爾線程下沉算力入口的野心。
摩爾線程打造的 MTT AIBOOK和 MTT AICube| 圖片來源:極客公園
然而,全能的另一面往往是業(yè)務(wù)重心的取舍難題。9999 元的定價背后,也是芯片廠商跨界生態(tài)位的巨大風(fēng)險。這種看似「戰(zhàn)線過長」的布局,其實(shí)隱藏著國產(chǎn) GPU 廠商在現(xiàn)有國際霸權(quán)生態(tài)下的集體無奈。
在國際廠商生態(tài)已然堅(jiān)不可摧、開發(fā)者習(xí)慣早已固化的今天,國產(chǎn)玩家想要突圍,僅僅提供一顆芯片是不夠的?,F(xiàn)有的成熟平臺就像是精密運(yùn)轉(zhuǎn)的鐘表,所有外部齒輪都圍繞其轉(zhuǎn)動;而作為后來者的摩爾線程,必須親自搭建起適配平臺、開發(fā)庫、解決方案甚至是硬件終端。這是一種「為了賣出芯片,必須先修好整條路」的戰(zhàn)略自覺,只有將通路的工作做在前面,才能最大化地釋放出國產(chǎn)化芯片的性能優(yōu)勢,為自己爭取到進(jìn)入核心賽道的門票。
這一切,最終凝結(jié)為摩爾線程前瞻且全面的業(yè)務(wù)體系。展會中,我們聽到不少人將其稱為「中國的英偉達(dá)」。誠然,從其展示的藍(lán)圖中,我們確實(shí)能看到一顆不甘追隨、志在引領(lǐng)的雄心。然而,真正的破局者從不滿足于成為另一個誰。在技術(shù)封鎖與生態(tài)挑戰(zhàn)并存的當(dāng)下,我們期待摩爾線程這套「以全破堅(jiān)」的方略,不僅能開辟生存之路,更能走出一條定義自身、通往算力自主的開拓之路。
相關(guān)文章
隨便看看