6B參數硬剛旗艦模型 阿里最新生圖模型掀桌了
近日,數硬阿里通義實驗室低調推出的剛旗新一代模型Z-Image-Turbo迅速成為焦點。
數據顯示,艦模這張細節(jié)繁復的型阿新生型掀圖像在RTX4090顯卡上僅耗時2.3秒即渲染完成,而顯存占用指針穩(wěn)穩(wěn)地停在了13GB。圖模
這一成績讓無數圍觀的數硬開發(fā)者和硬件發(fā)燒友瞬間安靜了下來,因為這意味著一個參數量僅為6B的剛旗輕量級模型,在實測表現上不僅追平,艦模甚至小幅超越了市面上眾多參數量在20B以上的型阿新生型掀閉源旗艦模型。
官方測試表明,圖模該模型僅需8步采樣即可交付印刷級別的數硬畫質。
更為重要的剛旗是,它極大地降低了硬件門檻,艦模消費級顯卡RTX 30606G版本即可流暢運行,型阿新生型掀最高顯存占用也被嚴格控制在16G以內。圖模這對于廣大并沒有頂級計算資源的獨立創(chuàng)作者而言,無疑是一次真正的算力解放。
在生成質量與語義理解方面,Z-Image-Turbo展現出了對中文語境的深刻洞察。它攻克了長期困擾AI繪畫界的痛點,即對超長中文嵌套指令的理解能力。
無論是夜晚的陽光這種充滿矛盾修辭的抽象描述,還是左手拿著奶茶、右手手機屏幕顯示今日新聞這種涉及多物體、多空間關系的復雜指令,模型都能自動進行邏輯糾偏并精準呈現。
特別是在文字生成領域,它徹底告別了以往AI常見的鬼畫符現象,無論是中文漢字還是英文字母,都能清晰準確地融合在畫面之中。
從視覺細節(jié)來看,皮膚的毛孔紋理、玻璃材質的復雜反射、雨霧天氣下的逆光效果以及電影級的景深處理,Z-Image均表現在線。憑借這些硬實力,該模型在權威的Elo人工偏好榜單上迅速攀升,被評測者抬進了開源世界的第一梯隊。
這一系列性能飛躍的背后,隱藏著團隊在底層架構上的大膽創(chuàng)新。Z-Image采用了全新的S3-DiT架構,這是一種單流擴散Transformer設計。
它打破了傳統模型處理信息的壁壘,將文本語義、視覺語義與圖像Token串聯成一條單一的流進行處理。這種設計使得模型在將參數量砍到競爭對手三分之一的同時,推理效率卻直接拉滿。
除了基礎模型,團隊還順手發(fā)布了Z-Image-Edit工具,讓修改圖片變得像聊天一樣簡單。用戶只需輸入一句自然語言,就能實現原圖的換頭改景,極大地豐富了社區(qū)玩家的可玩性。
雖然阿里方面尚未正式官宣是否會進行完全的開源,但目前的動作已誠意十足。
該模型已同步上架ModelScope與HuggingFace兩大平臺,相關的PullRequest代碼也已合并進主流庫diffusers的主分支中,開發(fā)者只需通過pip一行命令即可加載調用。
Z-Image的出現就像是一聲發(fā)令槍,標志著圖像生成賽道正式邁入了輕量高質的新時代。
當16G顯存成為運行門檻的上限,Midjourney和Flux等商業(yè)巨頭或許不得不開始重新思考其定價策略,用戶會用腳投票選擇那個既快又好,還跑得動的模型。
(責任編輯:百科)
- 支援美軍基地改造?國臺辦指臺灣被視為“肥肉”“提款機”
- 官方稱“汽車百公里加速小于5秒”系誤讀:只是重新定義安全起步
- 臺灣專家:文化旅游交流是跨越隔閡關鍵路徑
- iPhone Air開啟eSIM時代:國內廠商紛紛跟進
- 7位中國選手晉級2025斯諾克英錦賽16強
- (粵港澳全運會)共飲“頭啖湯”——直擊全運會首個跨境馬拉松
- 希臘男子為打賭生吞整個漢堡后進ICU:醫(yī)生直言基本沒救了
- (粵港澳全運會)全運會“拳力”收官:十三金見證中國拳擊傳承之力
- 榮耀Magic8 RSR蓄勢待發(fā):唯一一款雙3D超大杯旗艦
- AI共智 開源共享|2025開放原子開發(fā)者大會開源鴻蒙技術分論壇即將啟幕
- 東西問·人物|謝飛:銀幕內外的追光者
- 俄羅斯與國際原子能機構磋商扎波羅熱核電站問題
- 中國首次挑戰(zhàn)火箭入軌回收 專家:允許航天探索在試錯中前行
- 喊話章澤天求職網友未能入職 目前沒有匹配崗位 團隊多次道歉
