&

熱點: 11月中文大模型基準測評出爐：GPT 5.1奪冠、DeepSeek開源第一
時間：2010-12-5 17:23:32 作者：知識來源：知識查看：評論：0
內容摘要：11月28日消息，SuperCLUE公布了2025年11月中文大模型基準測評結果。本次測評圍繞數(shù)學推理、科學推理、代碼生成含web開發(fā)）、幻覺控制、精確指令遵循五大核心任務展開，題目總量為822道新題
11月28日消息，月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型
本次測評圍繞數(shù)學推理、基準科學推理、測評出爐代碼生成（含web開發(fā)）、月中源第幻覺控制、模型精確指令遵循五大核心任務展開，基準題目總量為822道新題，測評出爐最終得分取各任務平均分。月中源第
本次共測評27個國內外大模型同臺競技，模型OpenAI的基準GPT 5.1與國產模型DeepSeek分別斬獲綜合冠軍與開源領域第一。
OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂，成為本月綜合表現(xiàn)最佳的月中源第大模型。
GPT-5.1 在數(shù)學推理（74.07）、模型代碼生成（76.30）等項表現(xiàn)突出，基準幻覺控制得分 88.80，展現(xiàn)出強穩(wěn)定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后，其幻覺控制得分高達90.33，在該項能力上領跑。
而在開源模型中，深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
韓前總統(tǒng)夫人金建希弊案一審被求刑15年 “明年1月宣判”
14.98萬起新款福特蒙迪歐上市：終于拋棄分體大燈組

最近更新

2025-12-05 08:26:29
5萬頁硒鼓+1200dpi！漢印“超激鼓”激光打印機上手體驗
2025-12-05 08:26:29
HAMR與CMR加持的穩(wěn)定可靠企業(yè)級硬盤！希捷銀河Exos M 30TB評測：讀取逼近300MB/s
2025-12-05 08:26:29
小孩集體曬被子被拍下網友：論中國小孩對曬被子的執(zhí)念
2025-12-05 08:26:29
研究新發(fā)現(xiàn)：突然愛上香菜可能因為你老了
2025-12-05 08:26:29
雷神獵刃S評測：萬元游戲本性能出色長江存儲PC411 SSD寶刀不老
2025-12-05 08:26:29
碩士體驗送外賣：視頻火了卻停更了
2025-12-05 08:26:29
iPhone 18 Pro渲染圖來了：酒紅色機身+小號靈動島最美iPhone
2025-12-05 08:26:29
iPhone 18 Pro渲染圖來了：酒紅色機身+小號靈動島最美iPhone

熱門排行

2025-12-05 08:26:29
打破進口疫苗長期壟斷！首款國產九價HPV疫苗在北京正式開打
2025-12-05 08:26:29
上合示范區(qū)激活經貿新動能多維平臺構筑合作“強磁場”
2025-12-05 08:26:29
實測十幾塊和上百塊的充電頭到底有什么區(qū)別：安全性差太多
2025-12-05 08:26:29
2025廣州車展：豆包大模型規(guī)?；宪? 新車搭載量行業(yè)第一
2025-12-05 08:26:29
華為5G技術出口“一帶一路” 黃仁勛著急：要是中國AI也這么搞生態(tài)會難替代
2025-12-05 08:26:29
寧德時代打造水上機場：eVTOL航空器增程續(xù)航超5000公里
2025-12-05 08:26:29
靈光4天下載破百萬美國AI專家測評認為“閃應用”是最大吸引
2025-12-05 08:26:29
蘋果/三星/華為Air手機對比別再無腦選iPhone

友情鏈接

真水深火熱！年薪178萬元不夠花：美國1/4家庭陷入月光困境

中國廠商不買英偉達只是開始！摩爾線程終于要上市了募資80億猛攻高端GPU

廣汽集團與阿里云達成全棧AI戰(zhàn)略合作

国产激情AⅤ无码毛片_色播亚洲视频在线观看_亚洲无码熟妇破处在线观看_亚洲寡妇无码AV在线少妇

11月中文大模型基準測評出爐：GPT 5.1奪冠、DeepSeek開源第一

11月中文大模型基準測評出爐：GPT 5.1奪冠、DeepSeek開源第一