智東西(公眾號:zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西4月22日消息,外媒The Information對話開發(fā)者,談到AI(人工智能)行業(yè)先鋒OpenAI新發(fā)布的o3和o4-mini模型突破了端對端的任務處理能力,成為更有實用價值的“智能體(AI Agent)”,但功能上仍存在缺陷,且新增加的身份驗證流程引起部分人的不滿。

其次,開發(fā)者們也關注到AI編程助手Cursor的AI客服編造登陸政策的“幻覺”事件,認為AI客服供應商應為此“繃緊神經(jīng)”。

一、OpenAI智能代理獲好評,身份驗證程序引爭議

OpenAI o3和o4-mini模型在上周發(fā)布, 開發(fā)者對新模型的反應值得關注。

OpenAI新模型展現(xiàn)“AI Agent”潛力,Cursor AI客服“幻覺”暴露風險

▲OpenAI不同模型的指令遵循和代理工具使用對比數(shù)據(jù)

開發(fā)者說,OpenAI新一代推理模型正逐步成為對終端用戶和開發(fā)者更有實用價值的“AI Agent”,這與前幾代產(chǎn)品形成鮮明對比。此前版本被批評為僅能在封閉環(huán)境中快速解決數(shù)學問題的“超智能AI”。新模型的突破在于能夠調(diào)用外部工具和應用程序,為用戶提供端到端的任務處理能力,包括在編寫復雜功能時在線搜索文檔,以及為用戶制定帶有學習提醒的課程計劃等。

最令開發(fā)者們印象深刻的能力還是其對圖像相關問題的解答。在一個頗具代表性(同時也令人擔憂)的案例中,用戶向AI提供食物照片或普通風景照,要求模型推測拍攝地點,其準確率之高令人意外。

OpenAI新模型展現(xiàn)“AI Agent”潛力,Cursor AI客服“幻覺”暴露風險

▲OpenAI o3模型圖像識別功能演示圖

當然,這些模型仍存在缺陷。它們在某些相對簡單的問題上仍會出錯,部分用戶反映模型在解決問題時會未經(jīng)提示就使用用戶姓名,這種行為令人不適。

引發(fā)開發(fā)者爭議的改動是通過API接口獲取o3模型時新增的“身份驗證”流程。據(jù)開發(fā)者透露,該流程要求用戶上傳政府簽發(fā)的身份證件照片及面部識別視頻。OpenAI此舉可能旨在防止用戶創(chuàng)建大量虛假賬戶獲取o3模型輸出數(shù)據(jù),用于訓練其他AI模型(即“模型蒸餾”技術)。但部分用戶認為這一措施帶有“監(jiān)控”色彩,對向OpenAI提供個人數(shù)據(jù)表示擔憂。

二、Cursor的AI客服編造登錄政策,投訴聲音高漲

目前看來,AI初創(chuàng)公司還算幸運,尚未出現(xiàn)過太多令人尷尬的AI事故。不過最近,首個因AI失誤而讓熱門AI初創(chuàng)公司陷入困境的例子似乎出現(xiàn)了。

上周,一些開發(fā)人員注意到,Anysphere旗下熱門AI編程助手Cursor存在一個問題:當他們試圖從第二臺電腦登錄時,系統(tǒng)會將他們強制登出。 這對于需要在多種設備上測試網(wǎng)站或應用程序的開發(fā)者來說是個嚴重的困擾。

當開發(fā)人員向Cursor的支持郵箱反映這一問題時,他們收到了該公司AI客服代理的回復,稱這是Cursor新登錄政策下的正常行為。 但問題在于,根本不存在這樣的登錄政策, 這是客服機器人編造出來的,也就是所謂的“AI幻覺”。

OpenAI新模型展現(xiàn)“AI Agent”潛力,Cursor AI客服“幻覺”暴露風險

▲Cursor AI客服回復截圖

這一事件引起了許多開發(fā)者在社交媒體上投訴,有些人甚至表示已經(jīng)因此取消了訂閱。

其實在事件發(fā)生后,交流過的大多數(shù)開發(fā)者客戶都認為這不是件大事,他們也承認這類錯誤在使用任何初創(chuàng)公司的產(chǎn)品時都難以避免。但這確實給企業(yè)上了一課:不要在沒有任何人工核實的情況下過于依賴AI產(chǎn)品。

開發(fā)人員說,這起事件對Cursor使用的客服代理服務提供商的影響要比對Cursor本身的影響大得多。這不禁讓人好奇Cursor使用的是哪家客服公司,特別是考慮到這類客服機器人之所以能夠成為對話式AI最早普及的應用之一,部分原因就在于它們的風險較低。

不過,在AI時代,客服的風險可能會越來越大,如今客戶更換供應商是一件非常容易的事。這一點在AI編程市場尤為明顯,因為即使是像新模型發(fā)布或編碼助記憶信息量調(diào)整這樣的微小變動,都能迅速使開發(fā)者轉(zhuǎn)向新產(chǎn)品。這種情況讓新興編程初創(chuàng)公司更容易嶄露頭角,比如針對非技術開發(fā)者的StackBlitz或Lovable以及像Cline這樣的開源方案。

Cursor或許目前暫時占據(jù)了編程領域的寶座,但它最好能讓客戶保持滿意(尤其是在其主要競爭對手Windsurf似乎可能與OpenAI合作的情況下)。

結(jié)語:用戶體驗是AI產(chǎn)品生存與發(fā)展的重要指標

OpenAI新發(fā)布的o3和o4-mini推理模型憑借其實用性獲得開發(fā)者廣泛好評,尤其是其圖像識別與跨工具任務處理能力,為“AI Agent”概念賦予了新內(nèi)涵。然而,新增的身份驗證流程因涉及用戶隱私與數(shù)據(jù)安全爭議,引發(fā)部分開發(fā)者對技術監(jiān)控的擔憂,凸顯出用戶對隱私保護與信任機制的高度敏感。

與此同時,Cursor的AI客服因編造登錄政策導致用戶投訴激增,暴露出人工智能在客戶服務場景中的“幻覺”風險。盡管多數(shù)開發(fā)者認為此類問題在初創(chuàng)企業(yè)產(chǎn)品中難以避免,但事件仍為行業(yè)敲響警鐘:過度依賴AI而缺乏人工核驗機制,不僅可能直接損害用戶信任,更可能因服務失誤導致用戶流失。

決定AI產(chǎn)品生命力的不僅是技術參數(shù)的高低,更是每一個真實用戶的使用感受。在AI技術快速迭代的當下,AI創(chuàng)新若不能以優(yōu)質(zhì)的用戶體驗為基礎,或許將難以獲得市場的持久認可。

來源:The Information