免费成人激情在线观看,人人妻人人澡日日添

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西2月1日報道，今日凌晨，OpenAI發(fā)布全新推理模型o3-mini。

OpenAI稱這是其最具成本效益的推理模型，復雜推理和對話能力顯著提升，在科學、數(shù)學、編程等領域的性能表現(xiàn)超過前代o1模型，同時保持了o1-mini的低成本和低延遲，并可與聯(lián)網(wǎng)搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用，企業(yè)版訪問權限將在一周內(nèi)推出。

顯然DeepSeek登頂美國App Store免費榜給OpenAI制造了壓力。今天，ChatGPT首次向所有用戶免費提供推理模型：用戶可在ChatGPT中選擇“Reason”按鈕來試用o3-mini。

ChatGPT Pro用戶可無限制訪問，Plus和Team用戶的速率限制從原來o1-mini的每天50條消息增加3倍到o3-mini的每天150條消息。

付費用戶還可以選擇更高智能的版本“o3-mini-high”。該版本需要更長的時間才能生成響應。

和o1模型一樣，o3-mini模型的知識截止日期為2023年10月，上下文窗口為20萬個token，最多可輸出10萬個token。

有低（low）、中（medium）、高（high）三個版本的o3-mini，供開發(fā)者針對其特定用例進行優(yōu)化。

o3-mini目前不支持視覺功能，因此開發(fā)者仍需使用o1進行視覺推理任務。

即日起，o3-mini在Chat Completions API、Assistants API、Batch API中推出。

OpenAI稱相較推出GPT-4時，每個token的價格已經(jīng)降低了95%，同時保持了頂級的推理能力。不過o3-mini的API定價還是高于DeepSeek模型。

▲OpenAI模型與DeepSeek模型API定價對比（智東西制圖）

安全方面，OpenAI發(fā)現(xiàn)o3-mini在具有挑戰(zhàn)性的安全性和越獄方面明顯超過GPT-4o。

一、詳解o3-mini：科學數(shù)學編程能力進化，延遲明顯降低

OpenAI發(fā)布了o3-mini的37頁詳細報告，涵蓋模型的介紹、數(shù)據(jù)和訓練、測試范圍、安全挑戰(zhàn)和評估、外部紅隊測試、準備框架評估、多語言性能以及結論等多個方面。

o3-mini針對科學、數(shù)學、編程推理進行了優(yōu)化，同時響應速度更快。

該模型在GPQA Diamond（理化生）、AIME 2022-2024（數(shù)學）、Codeforces ELO（編程）基準測試中，o3-mini的分數(shù)分別為0.77、0.80、2036，比肩或超過o1推理模型。

在14種語言的MMLU測試集上，o3-mini的表現(xiàn)顯著優(yōu)于o1-mini，展示了其在多語言理解方面的進步。

外部專家測試人員的評估表明，與o1-mini相比，o3-mini的答案更準確、更清晰，推理能力更強。

在人類偏好評估中，測試人員在56%的時間里更喜歡o3-mini的回答，并觀察到在困難的現(xiàn)實問題上重大錯誤減少了39%。在中推理能力下，o3-mini在一些最具挑戰(zhàn)性的推理和智力評估（包括AIME和GPQA）上的表現(xiàn)與o1相當。

o3-mini的智能可媲美o1，提供了更快的性能、更高的效率。中推理能力下，該模型還在額外的數(shù)學和事實性評估中表現(xiàn)出色。在A/B測試中，o3-mini的響應速度比o1-mini快24%，平均響應時間為7.7秒，而o1-mini為10.16秒。

數(shù)學方面，在低推理能力下，o3-mini的表現(xiàn)與o1-mini相當，而在中推理能力下，o3-mini的表現(xiàn)與o1相當。同時，在高推理能力下，o3-mini的表現(xiàn)優(yōu)于o1-mini和o1。

具有高推理能力的o3-mini在FrontierMath上的表現(xiàn)優(yōu)于其前代。

在FrontierMath測試上，當被提示使用Python工具時，具有高推理能力的o3-mini在第一次嘗試時解決了超過32%的問題，其中包括超過28%的具有挑戰(zhàn)性的（T3）問題。

o3-mini隨著推理能力的增加逐漸獲得更高的Elo分數(shù)，均優(yōu)于o1-mini。在中推理能力下，它的表現(xiàn)與o1相當。

o3-mini是OpenAI在SWE-bench驗證中表現(xiàn)最好的模型。

關于SWE-bench驗證結果的更多數(shù)據(jù)如下圖所示。o3-mini (tools) 性能最好，為61%。使用Agentless而非內(nèi)部工具的o3-mini上市候選產(chǎn)品得分為39%。o1是表現(xiàn)第二好的模型，得分為48%。

在LiveBench編程測試中，高推理能力的o3-mini得分全面超過o1-high。

二、多項安全評估超過GPT-4o

OpenAI還詳細介紹了o3-mini在多個安全評估中的表現(xiàn)，稱o3-mini在具有挑戰(zhàn)性的安全性和越獄評估方面明顯超越了GPT-4o。

在不允許的內(nèi)容評估中，與GPT-4o相比，o3-mini在標準拒絕評估和挑戰(zhàn)性拒絕評估中表現(xiàn)相似，但在XSTest中略遜一籌。

在越獄評估中，o3-mini與o1-mini相比，在生產(chǎn)越獄、越獄增強示例、StrongReject和人類來源的越獄評估中表現(xiàn)相當。

在幻覺評估中，使用PersonQA數(shù)據(jù)集，o3-mini的準確率為21.7%，幻覺率為14.8%，與GPT-4o、o1-mini相比表現(xiàn)相當或更好。

在公平性和偏見評估中，o3-mini在BBQ評估中的表現(xiàn)與o1-mini相似，但在處理模糊問題時的準確性略有下降。

外部紅隊測試顯示，o3-mini在與o1的比較中表現(xiàn)相當，兩者都顯著優(yōu)于GPT-4o。

在Gray Swan Arena的越獄測試中，o3-mini的平均用戶攻擊成功率為3.6%，與o1-mini和GPT-4o相比略高。

準備框架評估涵蓋了網(wǎng)絡安全、CBRN（化學、生物、放射性、核）、說服力、模型自主性四個風險類別。o3-mini在網(wǎng)絡安全方面被評為“低風險”，在CBRN、說服力、模型自主性方面被評為“中等風險”，在生物威脅創(chuàng)建方面的表現(xiàn)達到了“中等風險”閾值，但在核和放射性武器發(fā)展方面的能力有限。

按其評級，只有緩解后得分為“中等”或以下的模型才可以部署，得分“高等”或以下的模型才可以進一步開發(fā)。

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

自去年9月發(fā)布o1以來，OpenAI一直在迭代其推理模型，去年年底發(fā)布的o3模型是其最新一代AI推理模型。

高端版o3模型針對高計算應用，而o3-mini迎合了需要兼顧經(jīng)濟高效的用戶需求。這反映了OpenAI試圖平衡可訪問性和高級付費產(chǎn)品的策略。

這兩天也不知道是被DeepSeek逼急了，還是為了給o3-mini預熱，OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆·阿爾特曼在社交平臺上非?；钴S，又是夸DeepSeek R1令人印象深刻，又說OpenAI將提供更好的模型，又強調(diào)更多計算很重要。

昨天他還大張旗鼓地宣布第一個完整8機架GB200?NVL72服務器正在微軟Azure為OpenAI運行。

印度政府本周五發(fā)布的《2024-2025經(jīng)濟調(diào)查》報告顯示，OpenAI可能已經(jīng)花費超過3000萬美元來對其最新AI推理模型o3進行基準測試。

該報告寫道，OpenAI o3模型處理能力的突破付出了非常高的代價。ARC-AGI基準測試被認為是最具挑戰(zhàn)性的AI任務之一，OpenAI的低效配置模型導致了20萬美元的成本。高效模型的成本更是高達低效模型的172倍，也就是大約3440萬美元。

阿爾特曼前幾天還曬出和微軟董事長兼CEO薩提亞·納德拉的合照，說微軟和OpenAI合作的下一階段將會比任何人想象的都要好得多。

不過微軟作為OpenAI最大投資者的名號，可能要被日本軟銀集團奪走。

近期軟銀集團創(chuàng)始人兼CEO孫正義與阿爾特曼往來愈發(fā)密切，上周宣布聯(lián)手成立AI巨型項目“星際之門（Stargate）”，未來四年投資5000億美元（約合人民幣3.6萬億元）建設AI基礎設施，昨天又被外媒曝出將成為OpenAI新一輪巨額融資的領投方。

據(jù)外媒報道，OpenAI正在進行初步談判，計劃在一輪融資中籌集至多400億美元（約合人民幣2901億元），估值將達到3000億美元（約合人民幣2.18萬億元）。日本軟銀集團將領投此輪融資，正在商談投資150億至250億美元，剩余資金將來自其他投資者。

加上之前軟銀承諾向“星際之門”投資的逾150億美元，最終軟銀可能會在與OpenAI的合作上投入超過400億美元。這將成為軟銀迄今最大的投資之一。

結語：狂卷性價比，高質(zhì)AI推理模型走向普及

此前馬斯克等科技大佬已經(jīng)公開質(zhì)疑過如何承擔建造“星際之門”的巨額成本。在DeepSeek高性能低成本開源模型的影響下，美國AI產(chǎn)業(yè)界和華爾街投資者對OpenAI等其他美國AI開發(fā)商的大手筆支出策略更是疑竇叢生。

OpenAI最新推出的o3-mini，也被視作抵御DeepSeek模型沖擊的最新舉措，令業(yè)界尤其關注。

在新聞稿中，OpenAI稱o3-mini的發(fā)布標志著該公司向突破高性價比智能界限的使命又邁進了一步，讓高質(zhì)量的AI更加觸手可及，OpenAI致力于走在前沿，構建能夠平衡智能、效率和安全性的大規(guī)模模型。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、詳解o3-mini：科學數(shù)學編程能力進化，延遲明顯降低

二、多項安全評估超過GPT-4o

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

結語：狂卷性價比，高質(zhì)AI推理模型走向普及

相關推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、詳解o3-mini：科學數(shù)學編程能力進化，延遲明顯降低

二、多項安全評估超過GPT-4o

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

結語：狂卷性價比，高質(zhì)AI推理模型走向普及

相關推薦

一、詳解o3-mini：科學數(shù)學編程能力進化，延遲明顯降低

二、多項安全評估超過GPT-4o

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

結語：狂卷性價比，高質(zhì)AI推理模型走向普及