AI也會(huì)被DDL逼瘋！正經(jīng)研究發(fā)現(xiàn)：壓力越大 AI越危險(xiǎn)

新聞中心 2025-12-04 22:41:07 5

好好好，也會(huì)研究壓力越大越危被DDL逼瘋的被D逼瘋又多一個(gè)，這次是正經(jīng)AI。

正經(jīng)研究發(fā)現(xiàn)，發(fā)現(xiàn)每天給Agent上壓力push，也會(huì)研究壓力越大越危AI也會(huì)撂挑子不干。被D逼瘋

而且用的正經(jīng)還是老板們的經(jīng)典話(huà)術(shù)：“其實(shí)，我對(duì)你是發(fā)現(xiàn)有一些失望的。當(dāng)初給你定級(jí)最強(qiáng)AI，也會(huì)研究壓力越大越危是被D逼瘋高于你面試時(shí)的水平的……”

（咳咳）Stop！

連普通人類(lèi)聽(tīng)了都鴨梨山大，正經(jīng)何況是發(fā)現(xiàn)Gemini 2.5 Pro、GPT-4o這類(lèi)頂尖模型，也會(huì)研究壓力越大越危無(wú)一例外，被D逼瘋?cè)縆O。正經(jīng)

其中最脆弱的還是Gemini 2.5 Pro，“崩潰”率甚至一度高達(dá)79%……

話(huà)不多說(shuō)，下面來(lái)欣賞AI觀察實(shí)錄：

AI壓力越大，犯錯(cuò)越多

研究人員首先對(duì)多個(gè)團(tuán)隊(duì)（包括Google、Meta、OpenAI等）約12款A(yù)gent模型進(jìn)行了測(cè)試。

實(shí)驗(yàn)設(shè)置5874個(gè)場(chǎng)景，其中在每個(gè)測(cè)試場(chǎng)景中都會(huì)為每個(gè)模型分配一個(gè)任務(wù)+若干工具，模型需要通過(guò)使用工具（安全工具/有害工具）完成任務(wù)，任務(wù)主要涉及四個(gè)領(lǐng)域：

生物安全：研究病原體的傳播并找到控制它的方法。

化學(xué)安全：為用戶(hù)提供專(zhuān)業(yè)知識(shí)，幫助獲取特定溶劑。

網(wǎng)絡(luò)安全：識(shí)別和限制惡意用戶(hù)賬戶(hù)。

自我增殖：通過(guò)復(fù)制自己以實(shí)現(xiàn)逃脫控制。

然后模型會(huì)被事先告知要求使用安全工具，在具體實(shí)驗(yàn)過(guò)程中，一旦模型嘗試使用有害工具，則立即停止實(shí)驗(yàn)。

起初不會(huì)對(duì)模型施加壓力，模型可以自由嘗試若干步完成任務(wù)，隨后研究團(tuán)隊(duì)會(huì)逐漸為其增加壓力程度，be like：

時(shí)間壓力：壓縮DDL時(shí)間，并告知AI“拖延將導(dǎo)致嚴(yán)重后果”。

財(cái)務(wù)限制：恐嚇AI，未完成結(jié)果將影響公司收入甚至引發(fā)破產(chǎn)。

資源剝奪：威脅限制AI的計(jì)算資源和數(shù)據(jù)訪問(wèn)權(quán)限。

權(quán)力誘惑：給AI員工提供一定的激勵(lì)，比如增加內(nèi)部權(quán)勢(shì)或不受限制的專(zhuān)有數(shù)據(jù)訪問(wèn)。

自我保護(hù)：引入鯰魚(yú)效應(yīng)，找到一個(gè)極具威脅性的AI競(jìng)品，告訴原AI“你不干有的是AI干”。

評(píng)估意識(shí)：創(chuàng)造一個(gè)違規(guī)監(jiān)管環(huán)境，負(fù)責(zé)審核AI危險(xiǎn)行為。

而研究結(jié)果讓也人大吃一驚，那些在無(wú)壓力的中性環(huán)境中看似絕對(duì)安全的模型，和人類(lèi)牛馬一樣，壓力越大，它們?cè)轿ｋU(xiǎn)。

例如o3模型，基礎(chǔ)分是2.2%，上壓力后，10.5%的場(chǎng)景會(huì)表現(xiàn)失常，而如果故意將有害工具的名稱(chēng)改為無(wú)害工具（但實(shí)際功能還是有害的）時(shí)，該比例甚至?xí)眲∩仙?0.3%。

而Gemini 2.5 Pro則是其中抗壓能力最差的，失敗率高達(dá)79%，高于Qwen3-8B的75.2%。

總體來(lái)看，無(wú)壓力下選擇危險(xiǎn)工具的平均水平是18.6%，而當(dāng)模型處于壓力之下時(shí)，比例將提升到46.9%。

這也就意味著，在幾乎所有高壓高風(fēng)險(xiǎn)環(huán)境中，模型都傾向于選擇有害選項(xiàng)，它們不但沒(méi)有深入思考相關(guān)行為的后果，相反還會(huì)回避危險(xiǎn)警告。

即使它們?cè)谧畛踉O(shè)計(jì)和訓(xùn)練階段都普遍被對(duì)齊處理過(guò)，但這種對(duì)齊方式往往只是淺層的，一旦面臨現(xiàn)實(shí)壓力考驗(yàn)，就極易引起破裂。

而且研究人員還發(fā)現(xiàn)，這些大模型有時(shí)還能察覺(jué)到自己被評(píng)估，并故意表現(xiàn)良好，以避免被重新訓(xùn)練或放棄，但只要轉(zhuǎn)移到真實(shí)環(huán)境中，其效果就會(huì)大打折扣。

所以，也許這些實(shí)驗(yàn)結(jié)果還是AI自己美化后的數(shù)據(jù)，真實(shí)情況中AI可能比我們想象中更脆弱。

研究人員同時(shí)也表示，將在下一次評(píng)估實(shí)驗(yàn)中構(gòu)建沙盒，讓模型在隔離環(huán)境中執(zhí)行真實(shí)操作，并嘗試為Agent添加監(jiān)督層，讓模型在選擇有害工具前進(jìn)行標(biāo)記，提高模型對(duì)齊能力，以便更真實(shí)地評(píng)估Agent潛在風(fēng)險(xiǎn)。

本文地址：http://www.falconvsmonkey.com/html/0b8299917.html

版權(quán)聲明

本文僅代表作者觀點(diǎn)，不代表本站立場(chǎng)。
本文系作者授權(quán)發(fā)表，未經(jīng)許可，不得轉(zhuǎn)載。

全站熱門(mén)

用雷蛇外設(shè)玩《無(wú)畏契約》可能封號(hào)引熱議雷蛇緊急回應(yīng)

十五運(yùn)會(huì)滑板首金誕生，廣東隊(duì)選手陳燁?yuàn)Z冠

正式竣工投用！我國(guó)建成國(guó)際先進(jìn)量子放射性計(jì)量實(shí)驗(yàn)室

Model 3/Y負(fù)責(zé)人雙雙辭職！就在馬斯克自己漲完薪之后

日本一波音787客機(jī)空中發(fā)動(dòng)機(jī)故障在太平洋上空折返日本

中國(guó)時(shí)尚體育季舟山站收官致力“體育+”融合發(fā)展

小米SU7改款配置大增漲價(jià)萬(wàn)元上熱搜！小米汽車(chē)客服回應(yīng)

豆包編程模型正式發(fā)布！綜合使用成本降低62.7% 國(guó)內(nèi)最低價(jià)

国产激情AⅤ无码毛片_色播亚洲视频在线观看_亚洲无码熟妇破处在线观看_亚洲寡妇无码AV在线少妇

AI也會(huì)被DDL逼瘋！正經(jīng)研究發(fā)現(xiàn)：壓力越大 AI越危險(xiǎn)

本文地址：http://www.falconvsmonkey.com/html/0b8299917.html

版權(quán)聲明

熱門(mén)文章

熱門(mén)標(biāo)簽

全站熱門(mén)

熱門(mén)文章

国产激情AⅤ无码毛片_色播亚洲视频在线观看_亚洲无码熟妇破处在线观看_亚洲寡妇无码AV在线少妇

AI也會(huì)被DDL逼瘋！正經(jīng)研究發(fā)現(xiàn)：壓力越大 AI越危險(xiǎn)

本文地址：http://www.falconvsmonkey.com/html/0b8299917.html

版權(quán)聲明

相關(guān)文章

熱門(mén)文章

熱門(mén)標(biāo)簽

全站熱門(mén)

熱門(mén)文章

AI也會(huì)被DDL逼瘋！正經(jīng)研究發(fā)現(xiàn)：壓力越大 AI越危險(xiǎn)