11月21日消息,騰訊今日,混元騰訊混元大模型團(tuán)隊(duì)宣布開源最新視頻生成模型HunyuanVideo 1.5,發(fā)布費(fèi)級(jí)這是全新一款基于Diffusion Transformer(DiT)架構(gòu)、參數(shù)為8.3B的視頻生成生成輕量級(jí)視頻生成模型,支持生成5-10秒的模型高清視頻。
該模型已經(jīng)搶先在“元寶”上線,消顯普通用戶可以直接體驗(yàn),流暢可通過兩種方式:一是運(yùn)行輸入文字描述(Prompt),直接實(shí)現(xiàn)“文生視頻”;二是騰訊上傳圖片配合Prompt,輕松將靜態(tài)圖片轉(zhuǎn)化為動(dòng)態(tài)視頻?;煸?/p>
據(jù)介紹,發(fā)布費(fèi)級(jí)HunyuanVideo 1.5模型能力全面,全新支持中英文輸入的視頻生成生成文生視頻與圖生視頻。
其中,模型圖生視頻能力展現(xiàn)出圖像與視頻的高度一致性,生成的視頻在色調(diào)、光影、場(chǎng)景、主體和細(xì)節(jié)等方面都能與原圖較好匹配。
模型還具備強(qiáng)指令理解與遵循能力,能夠精準(zhǔn)地實(shí)現(xiàn)多樣化場(chǎng)景,包括運(yùn)鏡、流暢運(yùn)動(dòng)、真實(shí)的物理規(guī)律遵循、寫實(shí)人物和人物情緒表情等多種指令。
在元寶中可以通過文字和圖片生成視頻
同時(shí),HunyuanVideo 1.5支持寫實(shí)、動(dòng)畫、積木等多種風(fēng)格,并可在視頻中生成中英文文字,滿足多樣化內(nèi)容創(chuàng)作需求。
在畫質(zhì)方面,模型可原生生成480p和720p高清視頻,并可通過超分模型提升至1080p電影級(jí)畫質(zhì)。
此前,視頻生成領(lǐng)域的開源SOTA旗艦?zāi)P椭辽儆?0B,需要超過50GB顯卡方可部署。
HunyuanVideo 1.5定位為“開源小鋼炮”,顯著降低了使用門檻可在14G顯存的消費(fèi)級(jí)顯卡上流暢運(yùn)行,真正讓每一位開發(fā)者和創(chuàng)作者都能“玩起來”。
HunyuanVideo1.5通過多層次的技術(shù)創(chuàng)新,實(shí)現(xiàn)了生成效果、性能與尺寸上的平衡。
HunyuanVideo 1.5創(chuàng)新的SSTA稀疏注意力機(jī)制(全稱Selective and Sliding Tile Attention,選擇性滑動(dòng)分塊注意力)在保證高質(zhì)量生成的同時(shí)顯著提升推理效率,配合多階段漸進(jìn)式訓(xùn)練策略,在運(yùn)動(dòng)連貫性、語義遵循等關(guān)鍵維度均達(dá)到商用水平。