摩爾線程發(fā)布Torch
11月28日消息,線程摩爾線程正式發(fā)布了PyTorch深度學(xué)習(xí)框架的發(fā)布最新版MUSA擴(kuò)展庫——Torch-MUSA v2.7.0,在功能集成、線程性能優(yōu)化、發(fā)布硬件支持上都實(shí)現(xiàn)了進(jìn)一步突破。線程 值得一提的發(fā)布是,在短短一個(gè)月內(nèi),線程Torch-MUSA就連續(xù)完成了v2.5.0、發(fā)布v2.7.0兩次版本更新。線程 另外一個(gè)變化就是發(fā)布,v2.5.0版本起,線程Torch-MUSA版本號與PyTorch主版本號保持同步,發(fā)布便于開發(fā)者進(jìn)行版本識別與管理。線程 v2.7.0版本進(jìn)一步集成了muSolver、發(fā)布muFFT等計(jì)算加速庫,線程顯著提升復(fù)雜計(jì)算任務(wù)的執(zhí)行效率; 新增支持統(tǒng)一內(nèi)存設(shè)備(Unified Memory)的UMM,有效優(yōu)化內(nèi)存使用效率。 繼續(xù)保持與最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本進(jìn)行編譯。 目前,Torch-MUSA專屬支持的算子總數(shù)已超過1050個(gè),系統(tǒng)在性能與穩(wěn)定性方面均實(shí)現(xiàn)進(jìn)一步提升,為大模型訓(xùn)練與推理提供了更高效、更可靠的底層支持。 下一次版本升級將是v2.9.0,進(jìn)一步優(yōu)化性能與功能,持續(xù)構(gòu)建和完善基于MUSA架構(gòu)國產(chǎn)全功能GPU的深度學(xué)習(xí)生態(tài)。 ▼ Torch-MUSA開源地址: https://github.com/MooreThreads/torch_musa v2.7.0版本主要更新內(nèi)容 新增特性 ▼ 動(dòng)態(tài)雙精度轉(zhuǎn)換(Dynamic Double Cast) 用戶可通過設(shè)置環(huán)境變量export TORCH_USE_MUSA_DOUBLE_CAST=1,開啟Float64數(shù)據(jù)類型算子的動(dòng)態(tài)轉(zhuǎn)換功能,torch_musa將使用float32作為計(jì)算數(shù)據(jù)類型。 ▼ 分布式檢查點(diǎn)(Distributed Checkpoint) 支持從多個(gè)rank并行加載和保存模型,顯著加速檢查點(diǎn)的保存與加載過程。目前已支持分布式檢查點(diǎn)的異步保存功能。 功能增強(qiáng) ▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多個(gè)實(shí)用算子,MUSA專屬支持的算子總數(shù)突破1050個(gè)。 ▼ 通過升級PyTorch底層支持,torch.compile與AOTInductor功能進(jìn)一步增強(qiáng); ▼ 默認(rèn)啟用TF32計(jì)算模式,提升浮點(diǎn)運(yùn)算效率; ▼ 優(yōu)化性能分析工具Kineto的穩(wěn)定性,并將其適配版本升級至2.7.0; ▼ 繼續(xù)優(yōu)化FSDP2流水線并行策略,進(jìn)一步降低內(nèi)存占用。 v2.5.0版本主要更新內(nèi)容 新增特性 ▼ 新增muFFT與muSolver庫集成,大幅擴(kuò)展計(jì)算能力; ▼ 在面向邊緣計(jì)算的SoC設(shè)備中支持統(tǒng)一內(nèi)存管理,基于Arm 架構(gòu)的UMA(統(tǒng)一內(nèi)存尋址)設(shè)計(jì),實(shí)現(xiàn)GPU與CPU共享同一物理內(nèi)存空間,顯著降低模型運(yùn)行過程中的內(nèi)存開銷,具體包括: 消除GPU端重復(fù)內(nèi)存分配; 減少主機(jī)與設(shè)備間的內(nèi)存拷貝; GPU可直接訪問由CPU分配器申請的內(nèi)存空間。 算子擴(kuò)展與性能優(yōu)化 ▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個(gè)算子; ▼ 新增基礎(chǔ) Sparse(CSR) 操作支持; ▼ 擴(kuò)充量化算子支持范圍; ▼ 修復(fù)torch.norm形狀錯(cuò)誤問題; ▼ 支持reduce_sum的uint8輸入與int64輸出; ▼ C++擴(kuò)展新增支持tensor.is_musa()方法; ▼ 修復(fù)空輸入下argmax/argmin的異常行為; ▼ 優(yōu)化var/std、pad、convolution3d、layer_norm等操作的執(zhí)行效率。 系統(tǒng)功能增強(qiáng) ▼ 開放torch.musa.mccl.version()接口; ▼ 支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle; ▼ 優(yōu)化FSDP2流水線并行策略,降低訓(xùn)練內(nèi)存占用。
- 最近發(fā)表
-
- 寒武紀(jì)回應(yīng)明年50萬片AI卡搶占NVIDIA空缺傳聞:不實(shí)消息
- 直指6.8億玩家!媒體銳評《暗黑破壞神4》國服定檔
- 直指6.8億玩家!媒體銳評《暗黑破壞神4》國服定檔
- 蘋果新版iOS 26/iPadOS 26上線一天就被緊急撤回:設(shè)備更新后出錯(cuò)
- 十銓推出TEAMGROUP PD40迷你pSSD:USB4規(guī)格 讀速4000MB/s
- 《GTA 6》再次延期
- 掉San預(yù)警!科學(xué)家發(fā)現(xiàn)巨型蜘蛛巢穴:黑暗中蛛網(wǎng)延綿106平
- 罕見特大暴雪!大范圍雨雪將影響多地
- 鞍鋼集團(tuán)國際經(jīng)濟(jì)貿(mào)易有限公司原董事長張三健接受審查調(diào)查
- 決戰(zhàn)雙11:完美打印機(jī)選購指南
- 隨機(jī)閱讀
-
- 車主被自己的車溜車撞倒身亡 保險(xiǎn)拒賠!法院判了
- 烏魯木齊特大暴雪破紀(jì)錄:積雪深度達(dá)21厘米
- 華為剛出了一臺Mate 70 Air 但我覺得它沒那么Air
- 掉San預(yù)警!科學(xué)家發(fā)現(xiàn)巨型蜘蛛巢穴:黑暗中蛛網(wǎng)延綿106平
- 中國女足2:3憾負(fù)蘇格蘭 國際友誼賽兩連敗
- 男子因拖欠工資發(fā)布欲跳樓視頻 上萬網(wǎng)友在線勸阻 當(dāng)?shù)兀阂丫认?/a>
- 華為Mate 80 RS前瞻:堆料最激進(jìn)的Mate旗艦
- 8000億元大市場來了:我國顯示產(chǎn)業(yè)駛?cè)肟燔嚨?/a>
- 黃仁勛稱害怕失?。涸缟?點(diǎn)就得工作 子女也一樣不敢懈怠
- 小鵬首款女性機(jī)器人現(xiàn)場“脫衣割肉”!歷史上第一次機(jī)器人證明自己不是人
- 溫崢嶸 羅永浩等名人遭AI假冒直播帶貨!平臺處置上萬個(gè)違規(guī)賬號
- 蘋果iOS 26.2首個(gè)公測版發(fā)布:鎖屏也能自定義液態(tài)玻璃
- 男子用行車記錄儀跟拍“80年代”婚禮:不用調(diào)色 直接出片
- 不止電車會(huì)起火 成都一蘭博基尼撞上綠化帶后自燃燒成空殼
- 970億日元!日產(chǎn)汽車將出售總部大樓
- 2949元 佳能發(fā)布RF45mm F1.2 STM全畫幅鏡頭:同價(jià)位罕見F/1.2大光圈
- 新婚車主駕駛P7+奔赴千里送喜糖 何小鵬回了一份“嫁女餅”
- 男子喊話迪卡儂還手機(jī):誤將透氣孔當(dāng)口袋 直接掉落懸崖
- 全球續(xù)航最長大七座 小鵬X9增程混動(dòng)預(yù)售:35萬起
- 高刷太香 iPhone 17銷量遠(yuǎn)超iPhone 16 安卓旗艦壓力山大
- 搜索
-