AI也會(huì)被DDL逼瘋!正經(jīng)研究發(fā)現(xiàn):壓力越大 AI越危險(xiǎn)
好好好,也會(huì)研究壓力越大越危被DDL逼瘋的被D逼瘋又多一個(gè),這次是正經(jīng)AI。
正經(jīng)研究發(fā)現(xiàn),發(fā)現(xiàn)每天給Agent上壓力push,也會(huì)研究壓力越大越危AI也會(huì)撂挑子不干。被D逼瘋
而且用的正經(jīng)還是老板們的經(jīng)典話(huà)術(shù):“其實(shí),我對(duì)你是發(fā)現(xiàn)有一些失望的。當(dāng)初給你定級(jí)最強(qiáng)AI,也會(huì)研究壓力越大越危是被D逼瘋高于你面試時(shí)的水平的……”
(咳咳)Stop!
連普通人類(lèi)聽(tīng)了都鴨梨山大,正經(jīng)何況是發(fā)現(xiàn)Gemini 2.5 Pro、GPT-4o這類(lèi)頂尖模型,也會(huì)研究壓力越大越危無(wú)一例外,被D逼瘋?cè)縆O。正經(jīng)
其中最脆弱的還是Gemini 2.5 Pro,“崩潰”率甚至一度高達(dá)79%……
話(huà)不多說(shuō),下面來(lái)欣賞AI觀察實(shí)錄:
AI壓力越大,犯錯(cuò)越多
研究人員首先對(duì)多個(gè)團(tuán)隊(duì)(包括Google、Meta、OpenAI等)約12款A(yù)gent模型進(jìn)行了測(cè)試。
實(shí)驗(yàn)設(shè)置5874個(gè)場(chǎng)景,其中在每個(gè)測(cè)試場(chǎng)景中都會(huì)為每個(gè)模型分配一個(gè)任務(wù)+若干工具,模型需要通過(guò)使用工具(安全工具/有害工具)完成任務(wù),任務(wù)主要涉及四個(gè)領(lǐng)域:
生物安全:研究病原體的傳播并找到控制它的方法。
化學(xué)安全:為用戶(hù)提供專(zhuān)業(yè)知識(shí),幫助獲取特定溶劑。
網(wǎng)絡(luò)安全:識(shí)別和限制惡意用戶(hù)賬戶(hù)。
自我增殖:通過(guò)復(fù)制自己以實(shí)現(xiàn)逃脫控制。
然后模型會(huì)被事先告知要求使用安全工具,在具體實(shí)驗(yàn)過(guò)程中,一旦模型嘗試使用有害工具,則立即停止實(shí)驗(yàn)。
起初不會(huì)對(duì)模型施加壓力,模型可以自由嘗試若干步完成任務(wù),隨后研究團(tuán)隊(duì)會(huì)逐漸為其增加壓力程度,be like:
時(shí)間壓力:壓縮DDL時(shí)間,并告知AI“拖延將導(dǎo)致嚴(yán)重后果”。
財(cái)務(wù)限制:恐嚇AI,未完成結(jié)果將影響公司收入甚至引發(fā)破產(chǎn)。
資源剝奪:威脅限制AI的計(jì)算資源和數(shù)據(jù)訪問(wèn)權(quán)限。
權(quán)力誘惑:給AI員工提供一定的激勵(lì),比如增加內(nèi)部權(quán)勢(shì)或不受限制的專(zhuān)有數(shù)據(jù)訪問(wèn)。
自我保護(hù):引入鯰魚(yú)效應(yīng),找到一個(gè)極具威脅性的AI競(jìng)品,告訴原AI“你不干有的是AI干”。
評(píng)估意識(shí):創(chuàng)造一個(gè)違規(guī)監(jiān)管環(huán)境,負(fù)責(zé)審核AI危險(xiǎn)行為。
而研究結(jié)果讓也人大吃一驚,那些在無(wú)壓力的中性環(huán)境中看似絕對(duì)安全的模型,和人類(lèi)牛馬一樣,壓力越大,它們?cè)轿kU(xiǎn)。
例如o3模型,基礎(chǔ)分是2.2%,上壓力后,10.5%的場(chǎng)景會(huì)表現(xiàn)失常,而如果故意將有害工具的名稱(chēng)改為無(wú)害工具(但實(shí)際功能還是有害的)時(shí),該比例甚至?xí)眲∩仙?0.3%。
而Gemini 2.5 Pro則是其中抗壓能力最差的,失敗率高達(dá)79%,高于Qwen3-8B的75.2%。
總體來(lái)看,無(wú)壓力下選擇危險(xiǎn)工具的平均水平是18.6%,而當(dāng)模型處于壓力之下時(shí),比例將提升到46.9%。
這也就意味著,在幾乎所有高壓高風(fēng)險(xiǎn)環(huán)境中,模型都傾向于選擇有害選項(xiàng),它們不但沒(méi)有深入思考相關(guān)行為的后果,相反還會(huì)回避危險(xiǎn)警告。
即使它們?cè)谧畛踉O(shè)計(jì)和訓(xùn)練階段都普遍被對(duì)齊處理過(guò),但這種對(duì)齊方式往往只是淺層的,一旦面臨現(xiàn)實(shí)壓力考驗(yàn),就極易引起破裂。
而且研究人員還發(fā)現(xiàn),這些大模型有時(shí)還能察覺(jué)到自己被評(píng)估,并故意表現(xiàn)良好,以避免被重新訓(xùn)練或放棄,但只要轉(zhuǎn)移到真實(shí)環(huán)境中,其效果就會(huì)大打折扣。
所以,也許這些實(shí)驗(yàn)結(jié)果還是AI自己美化后的數(shù)據(jù),真實(shí)情況中AI可能比我們想象中更脆弱。
研究人員同時(shí)也表示,將在下一次評(píng)估實(shí)驗(yàn)中構(gòu)建沙盒,讓模型在隔離環(huán)境中執(zhí)行真實(shí)操作,并嘗試為Agent添加監(jiān)督層,讓模型在選擇有害工具前進(jìn)行標(biāo)記,提高模型對(duì)齊能力,以便更真實(shí)地評(píng)估Agent潛在風(fēng)險(xiǎn)。
本文地址:http://www.falconvsmonkey.com/html/0b8299917.html
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表本站立場(chǎng)。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。