當(dāng)前位置：當(dāng)前位置：首頁(yè) > 焦點(diǎn) > 節(jié)省近50%GPU計(jì)算！通義百聆開(kāi)源新一代語(yǔ)音交互模型正文

節(jié)省近50%GPU計(jì)算！通義百聆開(kāi)源新一代語(yǔ)音交互模型

作者:熱點(diǎn)　來(lái)源:百科　瀏覽:　【大 中 小】　發(fā)布時(shí)間:2025-12-27 19:36:18 評(píng)論數(shù):

12月24日消息，節(jié)省近G計(jì)算交互阿里通義百聆家族近日開(kāi)源新一代語(yǔ)音交互模型Fun-Audio-Chat-8B。通義

新模型兼具高智商和高情商，百聆具備出色的開(kāi)源共情能力，與之對(duì)話(huà)，新代仿佛與懂你的語(yǔ)音人聊天。

在OpenAudioBench、模型VoiceBench、節(jié)省近G計(jì)算交互UltraEval-Audio、通義MMAU、百聆MMSU、開(kāi)源SpeechFunctionCall等權(quán)威基準(zhǔn)測(cè)評(píng)中，新代Fun-Audio-Chat-8B斬獲SOTA，語(yǔ)音超過(guò)同量級(jí)開(kāi)源模型。模型

目前，節(jié)省近G計(jì)算交互百聆家族成員包括“會(huì)說(shuō)話(huà)”的語(yǔ)音轉(zhuǎn)文字模型Fun-ASR、“聽(tīng)得懂”的文字轉(zhuǎn)語(yǔ)音模型Fun-CosyVoice3。

最新開(kāi)源的模型Fun-Audio-Chat-8B主打語(yǔ)音對(duì)語(yǔ)音功能——“能聽(tīng)會(huì)說(shuō)”。

用戶(hù)可與模型音頻對(duì)話(huà)，適用于語(yǔ)音聊天、情感陪伴、智能設(shè)備和語(yǔ)音客服等多種場(chǎng)景。

無(wú)任何情緒標(biāo)簽或提示詞情況下，它能通過(guò)語(yǔ)義、語(yǔ)氣、語(yǔ)速、停頓、重音等細(xì)微信號(hào)，感知對(duì)方的情緒狀態(tài)，并給出恰到好處的關(guān)切、安慰或鼓勵(lì)式回應(yīng)。

此外，用戶(hù)可嘗試角色扮演，量身定制語(yǔ)音的情緒、說(shuō)話(huà)風(fēng)格、語(yǔ)速、高低音和音量等。

而模型能保持“原有智商”，主要得益于兩個(gè)創(chuàng)新的音頻模型訓(xùn)練模式。

一是采用 Core-Cocktail兩階段訓(xùn)練策略，先快速學(xué)新本事，再把“新本事”和“老底子”融合起來(lái)，為了避免學(xué)新東西把原來(lái)的能力忘掉（災(zāi)難性遺忘），第一階段訓(xùn)練得到的模型和原始的純文本大模型參數(shù)合并后，再進(jìn)行微調(diào)。

二是與人類(lèi)偏好對(duì)齊。通過(guò)多階段和多任務(wù)的后訓(xùn)練設(shè)計(jì)，模型在真實(shí)對(duì)話(huà)場(chǎng)景中能更好地理解用戶(hù)語(yǔ)音內(nèi)容與情緒線(xiàn)索，作出更自然、更符合人類(lèi)期望的回應(yīng)。

值得注意的是，新模型通過(guò)壓縮-自回歸-解壓縮的雙分辨率端到端設(shè)計(jì)，音頻幀率降到業(yè)界最低的5Hz，在保證語(yǔ)音質(zhì)量的同時(shí)節(jié)省近50% GPU計(jì)算。

目前，用戶(hù)可在魔搭社區(qū)、HuggingFace和GitHub下載模型自行體驗(yàn)。

用戶(hù)吐槽RTX 5090插線(xiàn)難官方回應(yīng):接口偏移是設(shè)計(jì)的一部分
廣東成為全國(guó)低空應(yīng)用場(chǎng)景創(chuàng)新的重要策源地