就在 Anthropic Claude 陷入降智風波時,OpenAI 剛剛推出了 GPT-5-Codex——這是基于 GPT-5 優(yōu)化后的 Codex 專用版本,專門針對「自主編程」進行了訓(xùn)練。
這次升級確實有些分量。
聚焦于真實的軟件工程場景的 GPT-5-Codex,不僅能處理日常的編程交互,還能獨立完成復(fù)雜耗時的工程項目。它能像真正的程序員一樣,連續(xù)工作超過 7 個小時,在復(fù)雜項目上不斷迭代、修 bug、跑測試,最后交付一個完整可用的解決方案。
從四月份推出 CLI 版本,到五月份上線網(wǎng)頁版,再到現(xiàn)在的全面升級,Codex 的——就是要把編程這件事徹底「自動化」。
現(xiàn)在無論你在終端、IDE、網(wǎng)頁還是手機上開發(fā),Codex 都能提供一致的編程輔助體驗,而且已經(jīng)整合進 ChatGPT 賬號體系,本地和云端可以無縫切換。

GPT-5-Codex 最有意思的特性是「動態(tài)思考」能力。它能夠根據(jù)任務(wù)復(fù)雜度靈活調(diào)整處理時間。
OpenAI 內(nèi)部員工使用數(shù)據(jù)顯示,按模型生成的 token 數(shù)排序,對于最底部 10% 的簡單請求,GPT-5-Codex 比 GPT-5 少用了 93.7% 的計算資源。
相反,對于最頂部 10% 的復(fù)雜請求,它會花費大約兩倍的時間進行推理、代碼編輯、測試和迭代。這意味著日常聊天和小任務(wù)響應(yīng)會更快,而復(fù)雜的大型重構(gòu)則會投入更多時間深度處理。

用人話說就是:日常小問題不磨蹭,大項目該花時間就花時間。
終于有個編程模型懂得「好鋼用在刀刃上」了。
基準測試方面,在 GPT-5 發(fā)布時,OpenAI 只在 477 個 SWE-bench Verified 任務(wù)上報告結(jié)果,在被 Anthropic 指出這一問題后,今天 OpenAI 宣布這些問題已經(jīng)修復(fù),現(xiàn)在可以在全部 500 個任務(wù)上報告結(jié)果。結(jié)果如下:

代碼重構(gòu)評測更是涵蓋了 Python、Go 甚至 OCaml 等語言,比如一個來自 Gitea 的 pull request 案例,修改了 232 個文件、3541 行代碼,將 ctx 變量貫穿到應(yīng)用邏輯中。
代碼審查功能也很實用,它會在代碼庫中瀏覽分析,運行測試驗證正確性,給出的審查意見準確性不錯。在 OpenAI 內(nèi)部,Codex 現(xiàn)在會審查大部分 PR,每天能發(fā)現(xiàn)數(shù)百個問題,很多時候比人工審查更早發(fā)現(xiàn)潛在 bug。

前端開發(fā)支持同樣到位,GPT-5-Codex 不僅能創(chuàng)建桌面應(yīng)用,移動端開發(fā)能力也有明顯提升。它還能讀取截圖和設(shè)計稿,檢查開發(fā)進度,把工作成果可視化展示,這對前端開發(fā)確實很有幫助。
工具層面的更新也相當豐富。全新改造的 Codex CLI 現(xiàn)在圍繞自主編程流程重構(gòu),支持直接附加和分享圖片,包括截圖、線框圖和架構(gòu)圖,用于建立對設(shè)計決策的共同理解。

處理復(fù)雜任務(wù)時,Codex 會通過待辦清單跟蹤進度,內(nèi)置了網(wǎng)頁搜索、MCP 等工具連接外部系統(tǒng)。
審批模式簡化為三種:只讀模式需要顯式批準,自動模式對工作區(qū)有完整訪問權(quán)限但工作區(qū)外需要批準,完全訪問模式可以在任意位置讀取文件并運行帶網(wǎng)絡(luò)訪問的命令。
全新的 IDE 插件支持 VS Code、Cursor 等編輯器,讓用戶能無縫預(yù)覽本地修改并與 Codex 協(xié)作編輯代碼。插件還支持在云端與本地環(huán)境間流暢切換,可以直接在編輯器中創(chuàng)建云端任務(wù)、跟蹤進行中的工作,以及審查已完成的任務(wù)。
云端基礎(chǔ)設(shè)施也有明顯改進,通過容器緩存將新任務(wù)和后續(xù)任務(wù)的中位完成時間縮短了 90%。Codex 能自動設(shè)置運行環(huán)境,掃描常見初始化腳本并執(zhí)行,在配置網(wǎng)絡(luò)訪問權(quán)限時還能運行 pip install 等命令按需安裝依賴。

安全方面,OpenAI 采用了沙箱運行環(huán)境,默認禁用網(wǎng)絡(luò)訪問,確保不會在用戶電腦上執(zhí)行有害操作,同時降低提示注入風險。
開發(fā)者可以根據(jù)風險承受度自定義安全設(shè)置,在云端可以限制網(wǎng)絡(luò)訪問只允許可信域名,在 CLI 和 IDE 插件中可以批準命令、允許全權(quán)限運行或使用網(wǎng)頁搜索、連接 MCP 服務(wù)器。
與 GPT-5 管理方式一致,GPT-5-Codex 在生物與化學領(lǐng)域被歸類為高能力模型,已采取相應(yīng)安全措施。
價格上,Codex 已經(jīng)集成到 ChatGPT 的各個付費套餐中,不同套餐提供不同的使用額度。
Plus、Edu 和 Business 適合每周幾次專注的編程會話;
Pro 則能支持跨多個項目的一整周工作量。
Business 套餐可以購買額外額度,幫助開發(fā)者突破包含的上限;Enterprise 套餐則提供共享額度池,只需為團隊實際使用部分付費。對于使用 API key 的開發(fā)者,OpenAI 計劃很快在 API 中開放 GPT-5-Codex。

目前 GPT-5-Codex 的系統(tǒng)提示詞已經(jīng)泄露,感興趣的開發(fā)者可以研究一下。
系統(tǒng)提示詞地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md
知名博主 Dan Shipper 在體驗完 GPT-5-Codex 之后,給出的評價是:
我們在 @every 上測試了幾天,結(jié)果相當震撼:
– 它會根據(jù)任務(wù)動態(tài)選擇「思考」時間——難題上能長時間工作,簡單問題則能即時給出答案。
– 在我們的生產(chǎn)代碼庫測試中,它可以自主運行 長達 35 分鐘 ——相比之下,GPT-5 往往過于謹慎,這是一次明顯的升級。
– 它支持 本地與網(wǎng)頁開發(fā)環(huán)境的無縫切換。你可以在 VS Code 中啟動一個任務(wù),然后在去購物時把它交給 Codex Web 繼續(xù)完成。
– 它配備了 代碼審查智能體,會真正運行你的代碼,因此能發(fā)現(xiàn)更多 bug。
以下是我們經(jīng)過大量內(nèi)部測試后的整體感受:
– 這是一次非常出色的升級,讓 Codex CLI 成為了 Claude Code 的有力替代品。
– 不過,它需要合理的提示才能表現(xiàn)出最佳效果。比如 @kieranklaassen 最多只能讓它運行 5 分鐘,而 @DannyAziz97 找到了訣竅。
– 有時候它會「偷懶」——在某些任務(wù)上可能思考不足,或者如果認為任務(wù)過大就會直接拒絕。
– 我整個周末都在用 Codex CLI 為 @CoraComputer 提交一個新的 PR,體驗下來發(fā)現(xiàn)它非常好用、易于引導(dǎo)——這是一個很棒的模型。
OpenAI Codex 產(chǎn)品負責人 Alexander Embiricos 表示,性能的大幅提升主要歸功于 GPT-5-Codex 動態(tài)的「思考能力」。Embiricos 解釋說,GPT-5-Codex 的工作方式類似,但它內(nèi)部沒有路由器,而是能實時調(diào)整在某項任務(wù)上投入的時間。
Embiricos 指出,這比路由機制更具優(yōu)勢:后者在一開始就必須決定要為某個問題分配多少算力和時間,而 GPT-5-Codex 則可以在處理任務(wù) 5 分鐘后決定「還需要再多花一個小時」。他說,他見過該模型在某些情況下連續(xù)工作超過 7 小時。

最近幾個月,幾乎所有 AI 大廠的重磅更新都指向同一個方向——編程能力。相比之下,如果你仔細觀察就會發(fā)現(xiàn),針對普通用戶的「優(yōu)化」其實是在不斷減少。
表面上看,這可能是因為面向普通消費者的 AI 產(chǎn)品已經(jīng)陷入瓶頸期。聊天、寫文案、做翻譯,這些功能已經(jīng)比較成熟,很難再有突破性進展。
但更深層的原因,還是繞不開商業(yè)邏輯。
開發(fā)先進的 AI 模型本就需要天文數(shù)字的巨額投入,這些成本總要有人承擔。與其指望海量低付費用戶慢慢回血,不如直接鎖定那些真正愿意掏錢的高價值用戶。而程序員是最愿意為 AI 工具付費、且粘性較高的群體之一。
從這個角度來說,放棄技術(shù)平權(quán)的敘事,AI 的未來可能比我們想象的更加「精英化」。這不一定是壞事,但至少我們應(yīng)該對此有清醒的認識。