
瀕臨 Claude Opus 4.6 和 GPT Codex 5.3 的是非攻勢(shì),谷歌反手即是一個(gè)Gemini 3 Deep Think的重要升級(jí)。

在 Codeforces(一個(gè)包含多樣競(jìng)技編程挑戰(zhàn)的基準(zhǔn)測(cè)試平臺(tái))上,它獲取了驚東說(shuō)念主的3455? Elo 分?jǐn)?shù),額外于宇宙第 8 名。

這下子,公共唯一 7 東說(shuō)念主的編程水平能排在它前邊了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的實(shí)力不啻于此,它還平直把ARC-AGI-2——這個(gè)公認(rèn)測(cè)試 AI 推理才能的前沿基準(zhǔn),給刷到了史無(wú)先例的84.6%。
要知說(shuō)念,之前最強(qiáng)模子的得分在 60%-70% 之間耽擱,Claude Opus 4.6 的收獲也唯一 68.8%。
在東說(shuō)念主類終末執(zhí)行(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的收獲。

官方暗示,新版 Deep Think 是谷歌挑升開(kāi)采的推理花式,旨在鼓吹智能前沿發(fā)展,并處治科學(xué)、扣問(wèn)和工程邊界的當(dāng)代挑戰(zhàn)。
另一位"堯舜禹"——清華物理系神話特獎(jiǎng)得主姚順宇(Shunyu Yao),客歲 9 月加入谷歌 DeepMind,亦然這次 Deep Think 新模子的參與者。

新版 DeepThink 仍是走進(jìn)了實(shí)驗(yàn)室
升級(jí)后的 Gemini 3 Deep Think 實(shí)力究竟有多強(qiáng)?
它的貪心不啻于贏得基準(zhǔn)測(cè)試,而是要走進(jìn)科研和工程邊界,匡助工程師處理復(fù)雜任務(wù)。
新版 Deep Think 不錯(cuò)分析草圖,對(duì)復(fù)雜形勢(shì)進(jìn)行建模,并平直生成用于 3D 打印的實(shí)體文獻(xiàn)。這是它打印的一個(gè)條記本電腦支架:

谷歌 VP Josh Woodward 在 X 上曬出了打印的后果,看起來(lái)對(duì)草圖額外復(fù)原:

羅格斯大學(xué)的數(shù)學(xué)家 Lisa Carbone,運(yùn)用 Gemini 3 Deep Think 審閱了一篇高度專科的數(shù)學(xué)論文。
為止 Gemini 3 Deep Think 奏效地識(shí)別出了一個(gè)輕飄的邏輯劣勢(shì),而這個(gè)劣勢(shì)在此前的東說(shuō)念主工同業(yè)評(píng)審中均未被發(fā)現(xiàn)。

杜克大學(xué)的王安實(shí)驗(yàn)室,運(yùn)用 Gemini 3 Deep Think 本領(lǐng)優(yōu)化了復(fù)雜晶體孕育的制備措施,以期發(fā)現(xiàn)新的半導(dǎo)體材料。
為止 Gemini 3 Deep Think 奏效聯(lián)想了一種大致孕育厚度大于 100 微米薄膜的工藝,達(dá)到了以往措施難以企及的精準(zhǔn)主張。

在 X 上,DeepSeek 多模態(tài)團(tuán)隊(duì)扣問(wèn)員 XiaoKang Chen 也暗示:Gemini 3 Deep Think 至極擅所長(zhǎng)理科學(xué)邊界中的長(zhǎng)尾任務(wù)。
他給 Deep Think 輸入了一張復(fù)雜分子結(jié)構(gòu)的圖片,隨后模子便準(zhǔn)確地打算出了分子式。

勇奪三項(xiàng)新 SOTA,推理資本裁汰 82%
客歲 Deep Think 挑升版仍是 IMO 等海外競(jìng)賽中奪下金牌。目下,全新升級(jí)后的 Deep Think 又在多項(xiàng)高難度的基準(zhǔn)測(cè)試中全面刷新 SOTA:
不使用任何器用,在 HLE 中獲取新 SOTA ——48.4%;
在 ARC-AGI-2 測(cè)試中獲取前所未有的84.6%的收獲,并經(jīng) ARC Prize 基金會(huì)考據(jù);
在 Codeforces 上獲取了驚東說(shuō)念主的3455? Elo 分?jǐn)?shù);
在 2025 年海外數(shù)學(xué)奧林匹克競(jìng)賽中達(dá)到金牌水平。

其中,ARC-AGI-2 被譽(yù)為 AI 界的"圖靈測(cè)試",旨在估量模子處理從未見(jiàn)過(guò)的新穎推理任務(wù)的才能。
要知說(shuō)念,客歲 12 月剛發(fā)布的初代 Deep Think 得分照舊 45.1%,不到三個(gè)月時(shí)間仍是飆升到 84.6%,比 Opus 4.6 還要強(qiáng)出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 獲取了 96% 的收獲,平直頂?shù)教旎ò辶恕?/p>

性能普及的同期,推理資本也在大幅著落。初代 Deep Think 實(shí)行每項(xiàng)任務(wù)的資本為 77.16 好意思元。這次升級(jí)讓資本裁汰了 82%,金沙電玩城app下載每項(xiàng)任務(wù)僅需13.62 好意思元。

由于 1 和 2 都被 Gemini 刷爆了,目下 ARC Prize 仍是在構(gòu)建 ARC-AGI-3 了……
除了數(shù)學(xué)和編程,升級(jí)后的 Deep Think 在化學(xué)和物理等泛泛的科學(xué)邊界相似發(fā)達(dá)出色。
在 2025 年海外物理奧林匹克競(jìng)賽和化學(xué)奧林匹克競(jìng)賽中,Gemini 3 Deep Think 在筆試部分獲取了金牌級(jí)別的收獲。
{jz:field.toptypename/}此外,它還展現(xiàn)了在高等表面物理方面的才能,在 CMT-Benchmark 測(cè)試中獲取了 50.5% 的分?jǐn)?shù)。

華東說(shuō)念主帶隊(duì),打造最強(qiáng)推理模子
Gemini 3 Deep Think 的研發(fā)團(tuán)隊(duì)中,有不少華東說(shuō)念主身影。
中樞成員包括 95 后華東說(shuō)念主科學(xué)家Yi Tay,他在 Gemini 團(tuán)隊(duì)中從事強(qiáng)化學(xué)習(xí)和推理標(biāo)的的扣問(wèn)使命。

此前,他曾在 Google Brain 共同指引早期大言語(yǔ)模子神志,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 使命 3 年多之后,2023 – 2024 年間,Yi Tay 曾旋即離開(kāi)谷歌,動(dòng)作王人集首創(chuàng)東說(shuō)念主創(chuàng)辦了一家獨(dú)角獸 AI 初創(chuàng)公司—— Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的扣問(wèn)東說(shuō)念主員創(chuàng)立,其創(chuàng)辦初志是打造功能龐雜且高效的基礎(chǔ)模子,目下也開(kāi)采界面聯(lián)想、應(yīng)用邏輯以至極他應(yīng)用方面的器用。
在創(chuàng)業(yè)一年半后,Yi Tay 便重返谷歌 DeepMind,擔(dān)任高檔資深扣問(wèn)科學(xué)家,連續(xù)從事東說(shuō)念主工智能和大言語(yǔ)模子的扣問(wèn)。
客歲剛從 Anthropic 跳槽到谷歌 DeepMind 的清華學(xué)友姚順宇,也參與了 Deep think 新模子的開(kāi)采。

姚順宇本科就讀于清華大學(xué)物理系,曾拿下過(guò)清華本科生非凡獎(jiǎng)學(xué)金(清華授予在校優(yōu)秀本科生的最高獎(jiǎng)學(xué)金榮譽(yù))。
本科時(shí)間,他就已在《Physical Review Letters》(海外物理學(xué)邊界最頂級(jí)的學(xué)術(shù)期刊之一)發(fā)表高水平論文,初度在海外上給出了對(duì)于非厄米系統(tǒng)的拓?fù)淠軒П砻妫粌H準(zhǔn)確預(yù)計(jì)了有關(guān)征象,還界說(shuō)了兩個(gè)新的物理成見(jiàn)。
本科畢業(yè)后,他赴斯坦福大學(xué)連續(xù)攻讀博士,專注于量子多體暗昧、綻開(kāi)量子系統(tǒng)能源學(xué)等前沿問(wèn)題,師從 Douglas Stanford(好意思國(guó)表面物理學(xué)家,被同業(yè)視為頂尖且有后勁編削物理學(xué)發(fā)展標(biāo)的的年青科學(xué)家之一)、Zhenbin Yang(楊振斌,華僑好意思國(guó)科學(xué)家,公認(rèn)的 20 世紀(jì)最貧乏的物理學(xué)家之一)等著明學(xué)者。
博士畢業(yè)后,他先是去 UC 伯克利作念博士后扣問(wèn),隨后加入了 Anthropic。在 Anthropic 使命的一年時(shí)間里,他參與組建了強(qiáng)化學(xué)習(xí)基礎(chǔ)團(tuán)隊(duì),幽靜了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本強(qiáng)化學(xué)習(xí)表面。
離開(kāi) Anthropic 之后,姚順宇轉(zhuǎn)戰(zhàn)谷歌 DeepMind,連續(xù)從事 AI 方面的扣問(wèn)。這次 Deep Think 新模子發(fā)布,亦然他在谷歌的首秀之作。
參考聯(lián)結(jié):
[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900
[ 3 ] https://x.com/YiTayML/status/2021988841142534287
[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089
[ 5 ] https://x.com/PKUCXK/status/2022144532272623990
— ?寬容 AI 家具從業(yè)者共建 ?—
? ?「AI 家具學(xué)問(wèn)庫(kù)」是量子位智庫(kù)基于恒久家具庫(kù)跟蹤和用戶行動(dòng)數(shù)據(jù)推出的飛書(shū)學(xué)問(wèn)庫(kù),旨在成為 AI 行業(yè)從業(yè)者、投資者、扣問(wèn)者的中樞信息要害與方案相沿平臺(tái)。
一鍵暖和 ? ? 點(diǎn)亮星標(biāo)
科技前沿進(jìn)展逐日見(jiàn)

備案號(hào):