節(jié)省近50%GPU計(jì)算!通義百聆開(kāi)源新一代語(yǔ)音交互模型
作者:熱點(diǎn) 來(lái)源:百科 瀏覽: 【大 中 小】 發(fā)布時(shí)間:2025-12-27 19:36:18 評(píng)論數(shù):
12月24日消息,節(jié)省近G計(jì)算交互阿里通義百聆家族近日開(kāi)源新一代語(yǔ)音交互模型Fun-Audio-Chat-8B。通義
新模型兼具高智商和高情商,百聆具備出色的開(kāi)源共情能力,與之對(duì)話(huà),新代仿佛與懂你的語(yǔ)音人聊天。
在OpenAudioBench、模型VoiceBench、節(jié)省近G計(jì)算交互UltraEval-Audio、通義MMAU、百聆MMSU、開(kāi)源SpeechFunctionCall等權(quán)威基準(zhǔn)測(cè)評(píng)中,新代Fun-Audio-Chat-8B斬獲SOTA,語(yǔ)音超過(guò)同量級(jí)開(kāi)源模型。模型
目前,節(jié)省近G計(jì)算交互百聆家族成員包括“會(huì)說(shuō)話(huà)”的語(yǔ)音轉(zhuǎn)文字模型Fun-ASR、“聽(tīng)得懂”的文字轉(zhuǎn)語(yǔ)音模型Fun-CosyVoice3。
最新開(kāi)源的模型Fun-Audio-Chat-8B主打語(yǔ)音對(duì)語(yǔ)音功能——“能聽(tīng)會(huì)說(shuō)”。
用戶(hù)可與模型音頻對(duì)話(huà),適用于語(yǔ)音聊天、情感陪伴、智能設(shè)備和語(yǔ)音客服等多種場(chǎng)景。
無(wú)任何情緒標(biāo)簽或提示詞情況下,它能通過(guò)語(yǔ)義、語(yǔ)氣、語(yǔ)速、停頓、重音等細(xì)微信號(hào),感知對(duì)方的情緒狀態(tài),并給出恰到好處的關(guān)切、安慰或鼓勵(lì)式回應(yīng)。
此外,用戶(hù)可嘗試角色扮演,量身定制語(yǔ)音的情緒、說(shuō)話(huà)風(fēng)格、語(yǔ)速、高低音和音量等。
而模型能保持“原有智商”,主要得益于兩個(gè)創(chuàng)新的音頻模型訓(xùn)練模式。
一是采用 Core-Cocktail兩階段訓(xùn)練策略,先快速學(xué)新本事,再把“新本事”和“老底子”融合起來(lái),為了避免學(xué)新東西把原來(lái)的能力忘掉(災(zāi)難性遺忘),第一階段訓(xùn)練得到的模型和原始的純文本大模型參數(shù)合并后,再進(jìn)行微調(diào)。
二是與人類(lèi)偏好對(duì)齊。通過(guò)多階段和多任務(wù)的后訓(xùn)練設(shè)計(jì),模型在真實(shí)對(duì)話(huà)場(chǎng)景中能更好地理解用戶(hù)語(yǔ)音內(nèi)容與情緒線(xiàn)索,作出更自然、更符合人類(lèi)期望的回應(yīng)。
值得注意的是,新模型通過(guò)壓縮-自回歸-解壓縮的雙分辨率端到端設(shè)計(jì),音頻幀率降到業(yè)界最低的5Hz,在保證語(yǔ)音質(zhì)量的同時(shí)節(jié)省近50% GPU計(jì)算。
目前,用戶(hù)可在魔搭社區(qū)、HuggingFace和GitHub下載模型自行體驗(yàn)。
