智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 心緣

智東西2月6日報(bào)道,今天,就在Claude發(fā)布Opus 4.6后的幾分鐘,OpenAI也推出了自家的最新編程模型:GPT-5.3-Codex。OpenAI號(hào)稱,這是世界上最強(qiáng)大的智能體(Agentic)編程模型。

GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0這兩個(gè)編程基準(zhǔn)測試中拿到了SOTA,并在OSWorld和GDPval等智能體能力和真實(shí)世界任務(wù)測評(píng)中,較GPT-5.2-Codex實(shí)現(xiàn)一定提升。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%。

GPT-5.3-Codex突然登場!AI能自己造自己了

不過,OpenAI參加的基準(zhǔn)測試數(shù)量更少,也基本沒有和Claude Opus 4.6重疊的,得分只能作為參考。

為演示其編程能力,OpenAI曬出了一個(gè)由GPT-5.3-Codex打造的賽車游戲。這個(gè)游戲里有多輛賽車同時(shí)開展比拼,還配備了8張地圖,甚至還能用空格鍵使用道具,就是畫風(fēng)確實(shí)有些簡陋。我們也簡單試玩了一下這個(gè)游戲,完成度還挺高的。

GPT-5.3-Codex突然登場!AI能自己造自己了

體驗(yàn)鏈接:

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

OpenAI還透露,GPT-5.3-Codex是OpenAI首個(gè)在自我創(chuàng)建過程中發(fā)揮關(guān)鍵作用的模型。GPT-5.3-Codex的早期版本,被Codex團(tuán)隊(duì)用來調(diào)試模型訓(xùn)練、管理部署、診斷測試結(jié)果和評(píng)估,加速了模型的開發(fā)。

GPT-5.3-Codex其實(shí)就是GPT-5.2-Codex和GPT-5.2的結(jié)合體,具備前者的編程能力和后者的推理能力和專業(yè)知識(shí)儲(chǔ)備,且速度也提升了25%。

這意味著GPT-5.3-Codex不僅可以用于編程,也可用于軟件工程里的所有其他工作,比如調(diào)試、部署、監(jiān)控、測試、指標(biāo)分析等。你還可以用GPT-5.3-Codex來做PPT、Excel、Word等等,從OpenAI分享的案例來看效果還不錯(cuò)。

GPT-5.3-Codex突然登場!AI能自己造自己了

▲GPT-5.3-Codex打造的PPT(圖源:OpenAI)

與GPT-5.3-Codex同期發(fā)布的,還有OpenAI的最新的企業(yè)級(jí)智能體平臺(tái)Frontier,具備共享上下文、在反饋中學(xué)習(xí)、持續(xù)改進(jìn)等能力,并支持設(shè)定清晰的權(quán)限與邊界。

GPT-5.3-Codex突然登場!AI能自己造自己了

▲Frontier打造的Agent(圖源:OpenAI)

目前,GPT-5.3-Codex已向付費(fèi)ChatGPT用戶開放,可在Codex應(yīng)用、CLI、IDE插件和Web中使用。API訪問仍需等待后續(xù)更新。Frontier現(xiàn)階段僅面向有限客戶,未來幾個(gè)月將有更廣泛的可用性。

不過,在這波發(fā)布中,與隔壁的Claude Opus 4.6相比,GPT-5.3-Codex和Frontier在討論熱度上明顯遜色一籌,發(fā)布模型的推文轉(zhuǎn)贊評(píng)數(shù)量都只有Claude Opus 4.6的不到一半,評(píng)論區(qū)中也能看到不少質(zhì)疑聲。

GPT-5.3-Codex突然登場!AI能自己造自己了

關(guān)心編程能力的用戶認(rèn)為GPT-5.3-Codex在實(shí)際使用體驗(yàn)和安全性上和Claude Opus 4.6仍有差距,而將OpenAI模型用于寫作等其他場景的用戶,則認(rèn)為OpenAI不再重視他們。這顯示出OpenAI在編程等市場的產(chǎn)品號(hào)召力和社區(qū)影響力上,以及如何平衡自家的ToC和ToB業(yè)務(wù)上,仍有很長的路要走。

一、能在數(shù)百萬token代碼庫修Bug,還會(huì)給人類主動(dòng)匯報(bào)工作

OpenAI稱,在GPT-5.3-Codex的幫助下,其編程工具Codex將不再只是一個(gè)“會(huì)寫和審代碼的智能體”,而是會(huì)進(jìn)化為一個(gè)幾乎可以完成開發(fā)者和專業(yè)人士在計(jì)算機(jī)上能做的所有事情的智能體。

在Web開發(fā)方面,OpenAI讓GPT-5.3-Codex打造了兩個(gè)游戲,一個(gè)是此前我們看到賽車游戲,另一個(gè)則是一個(gè)潛水游戲,游戲機(jī)制類似《潛水員戴夫》。

GPT-5.3-Codex突然登場!AI能自己造自己了

不過,光是打造這樣一個(gè)游戲其實(shí)對(duì)如今的前沿編程模型來說已經(jīng)不難了。OpenAI還分享,在發(fā)出“修復(fù)這個(gè) bug”、“改進(jìn)游戲”等通用后續(xù)提示詞的情況下,GPT-5.3-Codex可以在數(shù)百萬token的過程中自主迭代這些游戲。

GPT-5.3-Codex在理解日常網(wǎng)站構(gòu)建意圖方面明顯優(yōu)于GPT-5.2-Codex。對(duì)于簡單或描述不充分的提示,它會(huì)默認(rèn)生成功能更完整、默認(rèn)設(shè)置更合理的網(wǎng)站。

例如,在構(gòu)建一項(xiàng)名為“Quiet KPI”的服務(wù)的網(wǎng)站首頁時(shí),GPT-5.3-Codex可以自動(dòng)將年付方案展示為折扣后的月價(jià),還會(huì)自動(dòng)生成包含三條不同用戶評(píng)價(jià)的輪播組件,而不是僅呈現(xiàn)單條內(nèi)容。整體頁面因此顯得更加完整、更加接近可直接上線的產(chǎn)品。

GPT-5.3-Codex突然登場!AI能自己造自己了

程序員、設(shè)計(jì)師、產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家的工作遠(yuǎn)不止寫代碼。GPT-5.3-Codex從設(shè)計(jì)之初就支持整個(gè)軟件生命周期中的工作,包括調(diào)試、部署、監(jiān)控、編寫PRD、編輯文檔、用戶研究、測試、指標(biāo)分析、以及更多專業(yè)工作。

GPT-5.3-Codex突然登場!AI能自己造自己了

在使用類似GDPval的自定義技能后,GPT-5.3-Codex在GDPval(一個(gè)衡量44種職業(yè)中明確知識(shí)型任務(wù)的評(píng)估)上達(dá)到了與GPT-5.2相當(dāng)?shù)乃健?/p>

在考察模型計(jì)算機(jī)使用能力的OSWorld-Verified中,人類平均得分約為72%,而GPT-5.3-Codex達(dá)到了64.7%。GPT-5.3-Codex在該評(píng)測中表現(xiàn)顯著優(yōu)于以往的GPT模型。

隨著GPT-5.3-Codex的發(fā)布,Codex還提供了一個(gè)新的設(shè)置選項(xiàng)“工作中可引導(dǎo)”。開啟后,GPT-5.3-Codex會(huì)在工作過程中頻繁更新關(guān)鍵決策和進(jìn)展,支持實(shí)時(shí)對(duì)話、提問、討論方案,并在執(zhí)行期間持續(xù)解釋其思路并提供反饋。這讓人類用戶可以更高效地指揮和監(jiān)督多個(gè)Agent。

OpenAI稱,得益于基礎(chǔ)設(shè)施和推理?xiàng)5母倪M(jìn),Codex用戶的GPT-5.3-Codex整體速度提升了25%。該模型開發(fā)過程中,OpenAI與英偉達(dá)展開了合作,基于GB200 NVL72系統(tǒng)設(shè)計(jì)、訓(xùn)練和部署。

二、推出企業(yè)級(jí)智能體平臺(tái),惠普、Uber已經(jīng)用上了

在智能體平臺(tái)方面,OpenAI今天發(fā)布的Frontier,要做的是幫助企業(yè)構(gòu)建、部署并管理真正能干活的智能體。

OpenAI認(rèn)為,當(dāng)前企業(yè)在推進(jìn)AI應(yīng)用時(shí)面臨嚴(yán)重的數(shù)據(jù)與系統(tǒng)碎片化挑戰(zhàn)。智能體雖然被廣泛部署,卻因缺乏跨系統(tǒng)的全局視野和上下文而難以發(fā)揮實(shí)效,導(dǎo)致模型能力與實(shí)際部署之間存在巨大的“機(jī)會(huì)鴻溝”。

要打造能干活的智能體,OpenAI的思路是賦予智能體與人類在工作中所需的同款能力。Frontier像培養(yǎng)人類員工一樣,為AI同事提供系統(tǒng)化的“入職”支持。

比如,F(xiàn)rontier會(huì)讓智能體理解跨系統(tǒng)的業(yè)務(wù)流程、獲取執(zhí)行任務(wù)所需的工具與權(quán)限、學(xué)會(huì)判斷工作質(zhì)量,并在明確的安全邊界內(nèi)運(yùn)作。該平臺(tái)可與現(xiàn)有系統(tǒng)和數(shù)據(jù)集成,支持智能體通過多種界面融入工作。

GPT-5.3-Codex突然登場!AI能自己造自己了

Frontier的核心能力包括連接企業(yè)內(nèi)部數(shù)據(jù)與應(yīng)用,構(gòu)建統(tǒng)一的業(yè)務(wù)語義層;提供開放的智能體執(zhí)行環(huán)境,支持規(guī)劃、操作與學(xué)習(xí);內(nèi)置評(píng)估優(yōu)化機(jī)制,使AI能持續(xù)從經(jīng)驗(yàn)中提升質(zhì)量;同時(shí)確保企業(yè)級(jí)安全治理,為每個(gè)智能體設(shè)定身份、權(quán)限與防護(hù)邊界。

為了讓企業(yè)更方便地管理智能體,F(xiàn)rontier提供了概覽界面,在這里可以看到活躍的智能體數(shù)量,這些智能體完成了多少任務(wù),又用掉了多少額度。

GPT-5.3-Codex突然登場!AI能自己造自己了

此外,OpenAI還會(huì)派駐工程師與客戶團(tuán)隊(duì)協(xié)作,將實(shí)踐經(jīng)驗(yàn)與研究反饋相結(jié)合,加速落地進(jìn)程。已有不少大型企業(yè)客戶采用了Frontier,比如惠普、Intuit、甲骨文、State Farm、賽默飛(Thermo Fisher)、Uber等等。

結(jié)語:OpenAI押注“AI勞動(dòng)力”

這次發(fā)布中,OpenAI將其主要精力都放在了AI的生產(chǎn)力與落地能力上。無論是GPT-5.3-Codex在編程、軟件工程全流程和計(jì)算機(jī)使用能力上的強(qiáng)化,還是Frontier試圖為企業(yè)補(bǔ)齊“能干活的智能體”這一關(guān)鍵拼圖,都指向同一個(gè)方向,也就是AI真正走進(jìn)生產(chǎn)環(huán)境,成為可以被管理、被信任、被規(guī)?;褂玫膭趧?dòng)力。

如何在持續(xù)加碼企業(yè)級(jí)智能體和生產(chǎn)力場景的同時(shí),維持開發(fā)者與普通用戶的信任感與參與感,如何在ToB的長期布局與ToC的廣泛影響力之間找到平衡,或許將成為OpenAI接下來一段時(shí)間里必須回答的關(guān)鍵問題。