不止端側(cè) 云天勵(lì)飛押注云端推理:GPNPU 架構(gòu)瞄準(zhǔn) AI 算力新范式
隨著生成式 AI 和智能體應(yīng)用加速落地,不止AI 算力需求正發(fā)生結(jié)構(gòu)性變化。端側(cè)云天勵(lì)飛董事長(zhǎng)兼 CEO 陳寧在接受媒體采訪時(shí)表示,云天押注云端AI 產(chǎn)業(yè)正從“以訓(xùn)練為中心”逐步走向“以推理規(guī)?;癁楹诵?rdquo;的勵(lì)飛力新新階段,2025 年有望成為算力范式變化的推理重要分水嶺。
過(guò)去十多年,構(gòu)瞄AI 產(chǎn)業(yè)的范式核心敘事圍繞訓(xùn)練展開(kāi):更大的模型、更強(qiáng)的不止算力、更復(fù)雜的端側(cè)互聯(lián)體系,推動(dòng)模型能力不斷突破。云天押注云端但隨著 AIGC 從能力展示走向高頻使用,勵(lì)飛力新算力需求的推理重心開(kāi)始遷移。“訓(xùn)練解決的構(gòu)瞄是模型能不能變聰明,推理解決的范式是應(yīng)用能不能跑得起。”陳寧指出,不止當(dāng) AI 進(jìn)入面向大眾、面向業(yè)務(wù)流程的階段,推理調(diào)用量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),算力系統(tǒng)必須同時(shí)滿足低成本、高并發(fā)、低時(shí)延和可持續(xù)運(yùn)行等多重約束。
在這一背景下,推理不再只是訓(xùn)練的附屬功能,而正在演變?yōu)橐粋€(gè)獨(dú)立的算力賽道。尤其當(dāng)智能體開(kāi)始承擔(dān)更復(fù)雜的任務(wù)鏈路——從長(zhǎng)上下文理解到工具調(diào)用、從多模態(tài)輸入到連續(xù)交互——推理側(cè)的系統(tǒng)壓力會(huì)從“單點(diǎn)算力”轉(zhuǎn)向“系統(tǒng)吞吐與成本結(jié)構(gòu)”。這也意味著,如果繼續(xù)用以訓(xùn)練為核心設(shè)計(jì)的通用 GPU 體系承接海量推理需求,資本開(kāi)支和運(yùn)營(yíng)成本都可能被迅速放大,商業(yè)模型的可持續(xù)性將面臨挑戰(zhàn)。
推理新需求下,GPNPU 試圖用“架構(gòu)取舍”換取規(guī)?;?jīng)濟(jì)性
在中美算力競(jìng)爭(zhēng)格局中,陳寧坦言,訓(xùn)練賽道對(duì)先進(jìn)制程、互聯(lián)帶寬和生態(tài)成熟度要求極高,在先進(jìn)制造工藝受限的背景下,差距客觀存在且需要長(zhǎng)期投入。但在推理賽道,情況有所不同:推理更像一個(gè)“在真實(shí)負(fù)載約束下做系統(tǒng)最優(yōu)化”的新命題。
隨著應(yīng)用規(guī)模化,推理計(jì)算內(nèi)部已出現(xiàn)明顯結(jié)構(gòu)分化,例如 prefill 與 decode 在算力密集度、帶寬需求和訪存模式上存在顯著差異:前者更偏算力密集,后者更偏帶寬與訪存效率密集。陳寧據(jù)此判斷,圍繞訓(xùn)練優(yōu)化的通用 GPU 架構(gòu),在推理規(guī)?;瘓?chǎng)景下更容易面臨效率與成本壓力,也因此為面向推理的架構(gòu)與系統(tǒng)工程創(chuàng)新提供了空間。
在這一判斷下,云天勵(lì)飛提出并持續(xù)推進(jìn) GPNPU 架構(gòu)。從采訪表述看,GPNPU 的關(guān)鍵不在于“堆算力”,而在于圍繞推理負(fù)載做軟硬協(xié)同的系統(tǒng)取舍,核心目標(biāo)可以概括為三點(diǎn)——
生態(tài)遷移友好:盡可能貼近主流訓(xùn)練生態(tài)與模型工程習(xí)慣,降低模型從訓(xùn)練到推理部署的門檻,減少客戶在工程側(cè)的“遷移成本”。
面向推理的算子與數(shù)據(jù)流優(yōu)化:推理階段的性能瓶頸往往不是峰值算力,而是算子組合、并發(fā)調(diào)度、緩存與訪存效率;架構(gòu)需要對(duì)推理常見(jiàn)計(jì)算圖更“對(duì)口”。
以單位成本支撐更大并發(fā):推理商業(yè)化的核心變量是單位成本與單位能效,最終比拼的是在可控成本下能承載多大規(guī)模的并發(fā)請(qǐng)求、能做到怎樣的時(shí)延穩(wěn)定性。
“推理階段真正的挑戰(zhàn),不在于單點(diǎn)算力峰值,而在于單位成本下能支撐多大規(guī)模的并發(fā)推理。”陳寧強(qiáng)調(diào),GPNPU 試圖在滿足推理負(fù)載特性的前提下,構(gòu)建更具經(jīng)濟(jì)性的算力形態(tài),為大規(guī)模 AI 應(yīng)用提供可持續(xù)的算力底座。
從端側(cè)到云端:云天勵(lì)飛的推理芯片積累與中長(zhǎng)期布局
長(zhǎng)期以來(lái),云天勵(lì)飛被外界視為一家“端側(cè) AI 芯片公司”。對(duì)此,陳寧強(qiáng)調(diào),端側(cè)只是公司早期階段的切入點(diǎn),而非長(zhǎng)期邊界。他回顧稱,在 2018 年之前,AI 仍處于智能感知階段,端側(cè)、小算力芯片是更現(xiàn)實(shí)的落地形態(tài);但從 2018 年開(kāi)始,公司已系統(tǒng)性進(jìn)入邊緣計(jì)算方向,并隨著 AI 應(yīng)用復(fù)雜度提升,逐步向更高算力層級(jí)演進(jìn)。
從“積累”角度看,云天勵(lì)飛在推理芯片上的能力沉淀,更像是一條從場(chǎng)景到架構(gòu)的反向路徑:一方面,端側(cè)與邊緣階段的長(zhǎng)期落地經(jīng)驗(yàn),讓公司更早面對(duì)推理真實(shí)約束——成本、功耗、時(shí)延、穩(wěn)定性、部署與運(yùn)維,而不是只在理想條件下追求峰值指標(biāo);另一方面,隨著 Transformer 與智能體應(yīng)用興起,推理負(fù)載快速?gòu)?fù)雜化,企業(yè)需要把對(duì)推理計(jì)算結(jié)構(gòu)(例如 prefill/decode 分化、并發(fā)調(diào)度特性、訪存/帶寬瓶頸等)的理解,固化為芯片架構(gòu)與系統(tǒng)軟件的協(xié)同設(shè)計(jì)能力。
“做云端推理不是轉(zhuǎn)型,而是順著應(yīng)用形態(tài)和算力結(jié)構(gòu)演進(jìn)做的自然外延。”陳寧表示,目前云天勵(lì)飛已形成端側(cè)、邊緣、云端并行推進(jìn)的技術(shù)布局。隨著智能體、AI 原生應(yīng)用和行業(yè)級(jí)智能系統(tǒng)不斷涌現(xiàn),單一層級(jí)算力難以承載完整需求:端側(cè)負(fù)責(zé)就近交互與隱私敏感任務(wù),邊緣承接區(qū)域級(jí)低時(shí)延推理,云端則負(fù)責(zé)高吞吐、高并發(fā)的大規(guī)模推理服務(wù)。云端推理由此成為不可或缺的一環(huán),也是公司下一階段的重要投入方向。
在政策層面,陳寧注意到國(guó)家已釋放出清晰信號(hào)。近期發(fā)布的“AI+”相關(guān)指導(dǎo)文件提出,到 2027 年,AI 應(yīng)用和智能體在重點(diǎn)領(lǐng)域的滲透率要超過(guò) 70%;到 2030 年,將接近 90%。
這意味著,在補(bǔ)齊基礎(chǔ)能力的同時(shí),中國(guó)正將應(yīng)用落地與推理規(guī)?;鳛橹匾l(fā)展路徑。陳寧表示,真正決定一場(chǎng)產(chǎn)業(yè)革命的,不是模型在實(shí)驗(yàn)室里能跑多快,而是能不能以足夠低的成本、足夠高的效率跑進(jìn)現(xiàn)實(shí)世界——而這正是云端推理算力與推理芯片的價(jià)值所在。