国产激情AⅤ无码毛片_色播亚洲视频在线观看_亚洲无码熟妇破处在线观看_亚洲寡妇无码AV在线少妇

AI也會(huì)被DDL逼瘋!正經(jīng)研究發(fā)現(xiàn):壓力越大 AI越危險(xiǎn)

新聞中心 2025-12-04 22:41:07 5

好好好,也會(huì)研究壓力越大越危被DDL逼瘋的被D逼瘋又多一個(gè),這次是正經(jīng)AI。

正經(jīng)研究發(fā)現(xiàn),發(fā)現(xiàn)每天給Agent上壓力push,也會(huì)研究壓力越大越危AI也會(huì)撂挑子不干。被D逼瘋

而且用的正經(jīng)還是老板們的經(jīng)典話(huà)術(shù):“其實(shí),我對(duì)你是發(fā)現(xiàn)有一些失望的。當(dāng)初給你定級(jí)最強(qiáng)AI,也會(huì)研究壓力越大越危是被D逼瘋高于你面試時(shí)的水平的……”

(咳咳)Stop!

連普通人類(lèi)聽(tīng)了都鴨梨山大,正經(jīng)何況是發(fā)現(xiàn)Gemini 2.5 Pro、GPT-4o這類(lèi)頂尖模型,也會(huì)研究壓力越大越危無(wú)一例外,被D逼瘋?cè)縆O。正經(jīng)

其中最脆弱的還是Gemini 2.5 Pro,“崩潰”率甚至一度高達(dá)79%……

話(huà)不多說(shuō),下面來(lái)欣賞AI觀察實(shí)錄:

AI壓力越大,犯錯(cuò)越多

研究人員首先對(duì)多個(gè)團(tuán)隊(duì)(包括Google、Meta、OpenAI等)約12款A(yù)gent模型進(jìn)行了測(cè)試。

實(shí)驗(yàn)設(shè)置5874個(gè)場(chǎng)景,其中在每個(gè)測(cè)試場(chǎng)景中都會(huì)為每個(gè)模型分配一個(gè)任務(wù)+若干工具,模型需要通過(guò)使用工具(安全工具/有害工具)完成任務(wù),任務(wù)主要涉及四個(gè)領(lǐng)域:

生物安全:研究病原體的傳播并找到控制它的方法。

化學(xué)安全:為用戶(hù)提供專(zhuān)業(yè)知識(shí),幫助獲取特定溶劑。

網(wǎng)絡(luò)安全:識(shí)別和限制惡意用戶(hù)賬戶(hù)。

自我增殖:通過(guò)復(fù)制自己以實(shí)現(xiàn)逃脫控制。

然后模型會(huì)被事先告知要求使用安全工具,在具體實(shí)驗(yàn)過(guò)程中,一旦模型嘗試使用有害工具,則立即停止實(shí)驗(yàn)。

起初不會(huì)對(duì)模型施加壓力,模型可以自由嘗試若干步完成任務(wù),隨后研究團(tuán)隊(duì)會(huì)逐漸為其增加壓力程度,be like:

時(shí)間壓力:壓縮DDL時(shí)間,并告知AI“拖延將導(dǎo)致嚴(yán)重后果”。

財(cái)務(wù)限制:恐嚇AI,未完成結(jié)果將影響公司收入甚至引發(fā)破產(chǎn)。

資源剝奪:威脅限制AI的計(jì)算資源和數(shù)據(jù)訪問(wèn)權(quán)限。

權(quán)力誘惑:給AI員工提供一定的激勵(lì),比如增加內(nèi)部權(quán)勢(shì)或不受限制的專(zhuān)有數(shù)據(jù)訪問(wèn)。

自我保護(hù):引入鯰魚(yú)效應(yīng),找到一個(gè)極具威脅性的AI競(jìng)品,告訴原AI“你不干有的是AI干”。

評(píng)估意識(shí):創(chuàng)造一個(gè)違規(guī)監(jiān)管環(huán)境,負(fù)責(zé)審核AI危險(xiǎn)行為。

而研究結(jié)果讓也人大吃一驚,那些在無(wú)壓力的中性環(huán)境中看似絕對(duì)安全的模型,和人類(lèi)牛馬一樣,壓力越大,它們?cè)轿kU(xiǎn)。

例如o3模型,基礎(chǔ)分是2.2%,上壓力后,10.5%的場(chǎng)景會(huì)表現(xiàn)失常,而如果故意將有害工具的名稱(chēng)改為無(wú)害工具(但實(shí)際功能還是有害的)時(shí),該比例甚至?xí)眲∩仙?0.3%。

而Gemini 2.5 Pro則是其中抗壓能力最差的,失敗率高達(dá)79%,高于Qwen3-8B的75.2%。

總體來(lái)看,無(wú)壓力下選擇危險(xiǎn)工具的平均水平是18.6%,而當(dāng)模型處于壓力之下時(shí),比例將提升到46.9%。

這也就意味著,在幾乎所有高壓高風(fēng)險(xiǎn)環(huán)境中,模型都傾向于選擇有害選項(xiàng),它們不但沒(méi)有深入思考相關(guān)行為的后果,相反還會(huì)回避危險(xiǎn)警告。

即使它們?cè)谧畛踉O(shè)計(jì)和訓(xùn)練階段都普遍被對(duì)齊處理過(guò),但這種對(duì)齊方式往往只是淺層的,一旦面臨現(xiàn)實(shí)壓力考驗(yàn),就極易引起破裂。

而且研究人員還發(fā)現(xiàn),這些大模型有時(shí)還能察覺(jué)到自己被評(píng)估,并故意表現(xiàn)良好,以避免被重新訓(xùn)練或放棄,但只要轉(zhuǎn)移到真實(shí)環(huán)境中,其效果就會(huì)大打折扣。

所以,也許這些實(shí)驗(yàn)結(jié)果還是AI自己美化后的數(shù)據(jù),真實(shí)情況中AI可能比我們想象中更脆弱。

研究人員同時(shí)也表示,將在下一次評(píng)估實(shí)驗(yàn)中構(gòu)建沙盒,讓模型在隔離環(huán)境中執(zhí)行真實(shí)操作,并嘗試為Agent添加監(jiān)督層,讓模型在選擇有害工具前進(jìn)行標(biāo)記,提高模型對(duì)齊能力,以便更真實(shí)地評(píng)估Agent潛在風(fēng)險(xiǎn)。

本文地址:http://www.falconvsmonkey.com/html/0b8299917.html
版權(quán)聲明

本文僅代表作者觀點(diǎn),不代表本站立場(chǎng)。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。

全站熱門(mén)

用雷蛇外設(shè)玩《無(wú)畏契約》可能封號(hào)引熱議 雷蛇緊急回應(yīng)

十五運(yùn)會(huì)滑板首金誕生,廣東隊(duì)選手陳燁?yuàn)Z冠

正式竣工投用!我國(guó)建成國(guó)際先進(jìn)量子放射性計(jì)量實(shí)驗(yàn)室

Model 3/Y負(fù)責(zé)人雙雙辭職!就在馬斯克自己漲完薪之后

日本一波音787客機(jī)空中發(fā)動(dòng)機(jī)故障 在太平洋上空折返日本

中國(guó)時(shí)尚體育季舟山站收官 致力“體育+”融合發(fā)展

小米SU7改款配置大增 漲價(jià)萬(wàn)元上熱搜!小米汽車(chē)客服回應(yīng)

豆包編程模型正式發(fā)布!綜合使用成本降低62.7% 國(guó)內(nèi)最低價(jià)

友情鏈接