久久久久久久男人视频,一个人免费在线观看小视频

智東西（公眾號：zhidxcom）
作者｜王涵
編輯｜心緣

智東西2月6日報道，今天凌晨，Anthropic正式發(fā)布旗艦?zāi)Ｐ?span style="color: #0f59a4">Claude Opus 4.6，是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

Opus 4.6具備更縝密的規(guī)劃能力，能維持更長時間的智能體任務(wù)執(zhí)行，可以在龐大代碼庫中穩(wěn)定運行，并能夠進(jìn)行自我糾錯。

在基準(zhǔn)測試中，Opus 4.6在智能體編程評估Terminal-Bench 2.0中獲得最高分，于綜合性多學(xué)科推理測試Humanity’s Last Exam中也坐穩(wěn)了第一名的寶座。

針對金融、法律等經(jīng)濟(jì)價值領(lǐng)域的GDPval-AA評估中，Opus 4.6也是第一，并較第二名的GPT-5.2拉開約144個Elo分差，較前代版本Claude Opus 4.5提升了190分。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

就在Opus 4.6發(fā)布后幾分鐘，OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至北京時間2月6日11點，X平臺上有關(guān)“Claude VS Codex”的話題下已有4.1萬條討論。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

Varick Agent的CEO“vas”發(fā)帖稱：“Claude 4.6 Opus僅用一次調(diào)用就重構(gòu)了我的整個代碼庫。25次工具調(diào)用，新增3000多行代碼，創(chuàng)建了12個全新文件。它模塊化了所有內(nèi)容，拆解了單體架構(gòu)，理順了混亂的邏輯。結(jié)果沒一個能運行，但重構(gòu)后的代碼，實在是美得驚人?！?/p>

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

有網(wǎng)友展示出他用Opus 4.6一次性做出的k線成交量分布表。評論區(qū)紛紛感嘆：這要是真的，那一切都結(jié)束了。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

在話題討論中，有不少網(wǎng)友都自發(fā)測評了Opus 4.6與GPT-5.3 Codex這兩款模型，還曬出了測試Agent在復(fù)雜現(xiàn)實世界任務(wù)中的表現(xiàn)的Terminal-Bench，結(jié)果顯示GPT-5.3 Codex比Opus 4.6領(lǐng)先了11.9%。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

在網(wǎng)友的測評中，在編程方面GPT-5.3 Codex獲得的好評似乎更多。有網(wǎng)友發(fā)出對比：“Opus 4.6有100萬上下文+企業(yè)/知識工作+發(fā)現(xiàn)500個零日漏洞+Claude代碼中的Agent集群-基準(zhǔn)測試成績不如Codex 5.3；而gpt-5.3-codex有代碼基準(zhǔn)測試勝出+速度更快+任務(wù)中轉(zhuǎn)向，但上下文窗口不到Opus的一半?！?/p>

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

還有網(wǎng)友放出了更直觀的性能對比圖：

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

價格上，在200K上下文以內(nèi)（包括200K），Opus 4.6輸入每百萬token的價格為5美元（約合人民幣34.69元），輸出每百萬token的價格為25美元（約合人民幣173.45元）；超過200K上下文，Opus 4.6輸入每百萬token的價格為10美元（約合人民幣69.38元），輸出每百萬token的價格為37.5美元（約合人民幣260.18元）。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

此外，Anthropic還將向Pro與Max用戶限時贈送價值50美元（約合人民幣346.9元）的額外使用額度，不適用于Team版、企業(yè)版及API/控制臺用戶。

使用額外額度的用戶需同時滿足以下兩個條件：

1、已于2026年2月4日（太平洋時間）晚11:59前開通Pro或Max訂閱；

2、在2026年2月16日（太平洋時間）晚11:59前啟用額外用量功能。

Claude Opus 4.6即日起在claude.ai官網(wǎng)、API接口及所有主流云平臺同步上線。開發(fā)者可通過Claude API調(diào)用claude-opus-4-6模型。

一、“大海撈針”測試得分76%，緩解“上下文衰減”問題

在多語言編程測試SWE-bench Multilingual中，Opus 4.6的成績較Opus 4.5提升1.6分；在網(wǎng)絡(luò)安全漏洞復(fù)現(xiàn)測試CyberGym中，Opus 4.6獲得66.6分，較Opus 4.5提升15.6分，是Sonnet 4.5分?jǐn)?shù)的兩倍多。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出 Opus 4.6在長文本連貫性測試Vending-Bench 2中以 8017.59 的分?jǐn)?shù)大幅領(lǐng)先，在計算生物學(xué)BioPipelineBench測試中也以53.1分的成績位居第一。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

Opus 4.6在從海量文檔中檢索相關(guān)信息方面能力較上一代有所提升。這一優(yōu)勢延伸至長上下文任務(wù)，它能在處理數(shù)十萬token時更穩(wěn)定地保持和追蹤信息，減少信息漂移，并能捕捉到可能遺漏的深層細(xì)節(jié)。

Anthropic團(tuán)隊在博客中稱，用戶常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數(shù)量后性能會下降。

對此，研究團(tuán)隊對Opus 4.6進(jìn)行了MRCR v2的“8針-100萬”變體測試，這是類似于一種在浩瀚文本中檢索隱藏信息的“大海撈針”式基準(zhǔn)測試。在這個測試中Opus 4.6得分達(dá)76%，而Sonnet 4.5僅得18.5%。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

Opus 4.6的綜合基準(zhǔn)測試如下圖所示?？偠灾?，Opus 4.6在長上下文中查找信息更精準(zhǔn)，吸收信息后的推理能力更強。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

二、行為失范率極低，新增六類網(wǎng)絡(luò)安全探測工具

智能水平的飛躍并未以犧牲安全性為代價。在Anthropic的自動化行為審計中，Opus 4.6的行為失范率極低，行為失范包括欺騙、奉承、助長用戶妄想以及配合濫用等情形。

其安全對齊程度與前代旗艦?zāi)Ｐ?，即迄今為止對齊度最高的Claude Opus 4.5保持同等水準(zhǔn)。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

值得注意的是，Opus 4.6在所有近期Claude模型中展現(xiàn)出最低的過度拒絕率，即模型未能回應(yīng)良性查詢的情況。

Claude Opus 4.6殺死編程比賽！挖出500個0day漏洞，生成k線成交量分布，還有PPT直出

在博客中，Anthropic團(tuán)隊透露，針對Opus 4.6，他們開展了迄今最全面的安全評估體系，首次應(yīng)用多項全新測試方法并對既有評估方案進(jìn)行升級。Anthropic團(tuán)隊新增了用戶福祉評估、更復(fù)雜的危險請求拒答能力測試，并更新了模型隱蔽執(zhí)行有害行為的評估標(biāo)準(zhǔn)。

同時，其運用可解釋性科學(xué)的新方法進(jìn)行實驗，開始探究模型特定行為背后的成因，以期發(fā)現(xiàn)標(biāo)準(zhǔn)測試可能遺漏的問題。

針對Opus 4.6在特定領(lǐng)域可能被危險利用的突出能力，研究團(tuán)隊同步部署了新的防護(hù)機制。尤其鑒于該模型顯著增強的網(wǎng)絡(luò)安全能力，他們開發(fā)了6種新型網(wǎng)絡(luò)安全探測工具以幫助追蹤不同形式的潛在濫用行為。

同時，Anthropic也在加速推進(jìn)Opus 4.6在網(wǎng)絡(luò)防御領(lǐng)域的應(yīng)用，通過其協(xié)助發(fā)現(xiàn)并修復(fù)開源軟件漏洞。

他們認(rèn)為網(wǎng)絡(luò)防御者利用Claude這類AI模型來平衡攻防態(tài)勢至關(guān)重要。網(wǎng)絡(luò)安全領(lǐng)域發(fā)展迅速，Anthropic將根據(jù)對潛在威脅的認(rèn)知持續(xù)調(diào)整和更新防護(hù)措施，近期其可能啟動實時干預(yù)機制以阻斷濫用行為。

三、API新增自適應(yīng)思考功能，Claude Code現(xiàn)可多智能體并行

通過API接口，開發(fā)者們還可以獲取到更精細(xì)的模型算力控制方案，并為長期運行的智能體任務(wù)帶來更高靈活性。具體新增以下功能：

1、自適應(yīng)思考：此前開發(fā)者僅能在啟用或禁用深度思考模式間二選一。現(xiàn)在通過自適應(yīng)思考功能，Claude可自主判斷何時需要深度推理。在默認(rèn)算力等級（高）下，模型會在必要時啟動深度思考，開發(fā)者也可通過調(diào)整算力等級來改變其觸發(fā)頻率。

2、算力調(diào)控：現(xiàn)提供四個可調(diào)節(jié)的算力等級：低、中、高（默認(rèn)）、極致。

3、上下文壓縮（測試版）：長程對話與智能體任務(wù)常觸及上下文窗口限制。當(dāng)對話接近可配置閾值時，上下文壓縮功能將自動總結(jié)并替換早期對話內(nèi)容，使Claude能夠執(zhí)行更長任務(wù)而不受限制。

4、100萬token上下文（測試版）：當(dāng)提示內(nèi)容超過20萬token時，將適用高級定價。

5、128k輸出token：Opus 4.6支持最高128k token的輸出長度，使Claude能完整處理需要大規(guī)模輸出的任務(wù)，無需拆分為多次請求。

6、美國境內(nèi)推理：對于需要在美國境內(nèi)運行的工作負(fù)載，可選擇美國專屬推理服務(wù)，定價為標(biāo)準(zhǔn)token費用的1.1倍。

在Claude與Claude Code平臺，Anthropic新增了多項功能：

Claude Code中新增智能體團(tuán)隊的研究預(yù)覽功能?，F(xiàn)在用戶可以啟動多個并行工作的智能體，它們將自主協(xié)同配合，特別適用于代碼庫審查這類可拆分為獨立、重讀取的子任務(wù)。

在與常用辦公工具的協(xié)作體驗方面，Claude Excel集成版現(xiàn)在能夠處理長時程與高難度任務(wù)，支持先規(guī)劃后執(zhí)行、自主解析非結(jié)構(gòu)化數(shù)據(jù)并推斷正確格式，還能單次完成多步驟修改。

Excel集成版還能搭配PowerPoint集成版使用，用戶可先在Excel中處理并結(jié)構(gòu)化數(shù)據(jù)，再通過PowerPoint實現(xiàn)可視化呈現(xiàn)。

PowerPoint集成功能現(xiàn)已面向Max、Team及企業(yè)版用戶開放研究預(yù)覽。

四、放手兩千次會話，Opus 4.6率智能體團(tuán)隊“煉”出十萬行C編譯器

Anthropic官方還給出了一個開發(fā)者使用并行Claude智能體團(tuán)隊構(gòu)建C語言編譯器的案例。在這個案例中，開發(fā)者指派Opus 4.6率領(lǐng)智能體團(tuán)隊構(gòu)建一個C語言編譯器，隨后便基本放手任其運行，僅用兩周，就完成了一個小團(tuán)隊一個月的工作。

在為期兩周、近2000次Claude Code會話中，Opus 4.6消耗了20億個輸入token并生成1.4億個輸出token，總成本略低于2萬美元（約合人民幣13.88萬元），這個成本僅相當(dāng)于開發(fā)者個人獨立完成所需投入的零頭。

最終Opus 4.6做出了一個有著10萬行代碼規(guī)模的編譯器，并且是凈室實現(xiàn)，即開發(fā)全程Claude無網(wǎng)絡(luò)訪問權(quán)限，僅依賴Rust標(biāo)準(zhǔn)庫。

這個編譯器能在x86、ARM和RISC-V架構(gòu)上構(gòu)建可啟動的Linux 6.9內(nèi)核，還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。

該編譯器在包括GCC torture測試套件在內(nèi)的大多數(shù)編譯器測試中達(dá)到99%通過率，甚至通過了編譯器、操作系統(tǒng)等底層技術(shù)的 “終極測試”：成功編譯并運行第一人稱射擊游戲《Doom》。

經(jīng)過多輪實踐，開發(fā)者總結(jié)出了協(xié)調(diào)多個Claude高效協(xié)作的四大核心方法：

1、改進(jìn)測試框架：

在項目后期，Claude每次實現(xiàn)新功能時都會頻繁破壞現(xiàn)有功能。為此開發(fā)者構(gòu)建了持續(xù)集成流水線，實施更嚴(yán)格的檢查機制，讓Claude能更好地測試自身工作，確保新提交不會破壞現(xiàn)有代碼。

2、站在Claude的視角設(shè)計適配環(huán)境：

每個智能體都啟動于無上下文的新容器中，會花費大量時間自我定位，尤其在大型項目中。甚至在運行測試前，為幫助Claude自助，開發(fā)者需要在說明中要求維護(hù)詳細(xì)的README文檔和進(jìn)度文件，并需頻繁更新當(dāng)前狀態(tài)。

3、簡化并行機制：

當(dāng)存在多個獨立失敗的測試時，并行化輕而易舉，但當(dāng)智能體開始編譯Linux內(nèi)核時卻陷入困境。與包含數(shù)百個獨立測試的套件不同，編譯Linux內(nèi)核是單項巨型任務(wù)，所有智能體都會遇到相同的bug，修復(fù)后卻互相覆蓋修改，運行16個智能體也不行，因為它們都卡在解決同一問題上。

為此，開發(fā)者編寫了新測試框架，將GCC作為在線驗證編譯器進(jìn)行比對。這讓每個智能體都能并行工作，在不同文件中修復(fù)不同bug，直至Claude的編譯器最終能編譯所有文件。

4、多元智能體角色分工：

LLM編寫的代碼常重復(fù)實現(xiàn)現(xiàn)有功能，因此開發(fā)者指派了一個智能體專門合并發(fā)現(xiàn)的重復(fù)代碼。另一個負(fù)責(zé)優(yōu)化編譯器本身的性能，第三個則專攻輸出高效的編譯代碼，還讓一個智能體以Rust開發(fā)者視角批判項目設(shè)計并進(jìn)行結(jié)構(gòu)性改進(jìn)，另設(shè)智能體專注文檔工作。

開發(fā)者稱，該成果已經(jīng)逼近Opus的能力邊界，但仍有需要提升的方面：

1、16位x86編譯器缺失：缺乏從實模式啟動Linux必需的16位x86編譯器，該環(huán)節(jié)需調(diào)用GCC（x86_32和x86_64編譯器為自主實現(xiàn)）；

2、匯編器與鏈接器不完善：這兩部分是Claude最后開始自動化的模塊，目前仍存在較多缺陷。演示視頻中使用的是GCC匯編器與鏈接器；

3、兼容性未達(dá)全替代標(biāo)準(zhǔn)：雖能成功構(gòu)建眾多項目，但尚不能完全替代真實編譯器；

4、代碼生成效率偏低：即使啟用所有優(yōu)化選項，其輸出代碼效率仍低于禁用優(yōu)化的GCC；

5、Rust代碼質(zhì)量有限：代碼質(zhì)量尚可，但遠(yuǎn)未達(dá)到專業(yè)Rust程序員的水準(zhǔn)。

結(jié)語：Anthropic在安全性上下了狠功夫

Opus 4.6在長上下文理解、復(fù)雜推理與智能體協(xié)作等方面的性能提升，為企業(yè)級高密度、長周期任務(wù)提供了新的解決方案。

同時，在Anthropic的博客中，他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護(hù)機制，展現(xiàn)出對AI風(fēng)險治理的前置性投入。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“大海撈針”測試得分76%，緩解“上下文衰減”問題

二、行為失范率極低，新增六類網(wǎng)絡(luò)安全探測工具

三、API新增自適應(yīng)思考功能，Claude Code現(xiàn)可多智能體并行

四、放手兩千次會話，Opus 4.6率智能體團(tuán)隊“煉”出十萬行C編譯器

結(jié)語：Anthropic在安全性上下了狠功夫

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、“大海撈針”測試得分76%，緩解“上下文衰減”問題

二、行為失范率極低，新增六類網(wǎng)絡(luò)安全探測工具

三、API新增自適應(yīng)思考功能，Claude Code現(xiàn)可多智能體并行

四、放手兩千次會話，Opus 4.6率智能體團(tuán)隊“煉”出十萬行C編譯器

結(jié)語：Anthropic在安全性上下了狠功夫

相關(guān)推薦

一、“大海撈針”測試得分76%，緩解“上下文衰減”問題

二、行為失范率極低，新增六類網(wǎng)絡(luò)安全探測工具

三、API新增自適應(yīng)思考功能，Claude Code現(xiàn)可多智能體并行

四、放手兩千次會話，Opus 4.6率智能體團(tuán)隊“煉”出十萬行C編譯器