智東西(公眾號(hào):zhidxcom)
作者 | ZeR0 程茜
編輯 | 漠影

OpenAI的12天“圣誕大禮包”還沒熄火,谷歌突然“插隊(duì)”放出年末大招!

智東西12月12日?qǐng)?bào)道,今日,谷歌重磅發(fā)布其迄今最強(qiáng)大的AI大模型Gemini 2.0,新功能包括原生圖像生成和音頻輸出的多模態(tài)輸出,并支持原生調(diào)用谷歌搜索、地圖、Lens等工具。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

其第一款新模型是Gemini 2.0 Flash的實(shí)驗(yàn)版本,速度是1.5 Pro的兩倍。谷歌稱,這款新模型專為AI Agent時(shí)代而設(shè)計(jì),主打多模態(tài)+AI Agent。

基于Gemini 2.0 Flash,谷歌推出一大波AI Agent新品,包括今年5月轟動(dòng)業(yè)界的通用AI助手原型Project Astra,還有能夠作為實(shí)驗(yàn)性擴(kuò)展在谷歌瀏覽器中完成多步驟復(fù)雜任務(wù)的Project Mariner,以及實(shí)驗(yàn)性AI編程Agent Jules、游戲Agent。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

Gemini 2.0的發(fā)布,打響了邁向AI Agent新世界的關(guān)鍵一槍。

?谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)說:“如果說Gemini 1.0是關(guān)于組織和理解信息,那么Gemini 2.0是關(guān)于使其更加有用?!?/strong>這也是其專注于AI Agent、多模態(tài)輸出的原因所在。

Gemini和Gemini Advanced用戶可在桌面端的模型下拉菜單中選擇聊天優(yōu)化版Gemini 2.0來試用。開發(fā)人員可通過Google AI Studio和Vertex AI在Gemini API中開始使用此模型進(jìn)行構(gòu)建。

本周,谷歌開始在搜索的AI概覽中測(cè)試Gemini 2.0。1月份,Gemini 2.0 Flash將全面上市,同時(shí)將推出更多模型尺寸。明年年初,谷歌會(huì)將Gemini 2.0擴(kuò)展到更多谷歌產(chǎn)品中。

Gemini 2.0背后的核心硬件也正式揭曉——Trillium TPU

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

谷歌宣布其最強(qiáng)AI芯片Trillium TPU普遍可用,還詳細(xì)介紹了谷歌云AI超級(jí)計(jì)算機(jī)架構(gòu),包括可集成超過100,000顆Trillium芯片的Jupiter網(wǎng)絡(luò)。Trillium不僅在訓(xùn)練密集型大語(yǔ)言模型、MoE模型上性能更強(qiáng),而且AI訓(xùn)練和推理性價(jià)比更高。亞洲AI大模型獨(dú)角獸AI21 Labs已使用Trillium來開發(fā)語(yǔ)言模型。

此外,谷歌發(fā)布了一款名為Deep Research(深度研究)的全新AI工具。該工具擅長(zhǎng)做研究工作,相當(dāng)于一位AI研究生,幫你只用幾分鐘就能完成原本需要數(shù)小時(shí)的研究。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

用戶輸入問題后,它會(huì)創(chuàng)建一個(gè)多步驟研究計(jì)劃,在用戶修改及批準(zhǔn)后開始調(diào)用Gemini機(jī)器人深入分析來自網(wǎng)上的相關(guān)信息,并根據(jù)其關(guān)鍵發(fā)現(xiàn)生成一份詳細(xì)的綜合報(bào)告,并列上信息來源鏈接。用戶可以要求Gemini擴(kuò)展某些領(lǐng)域或調(diào)整報(bào)告,并將AI生成的研究導(dǎo)出到谷歌文檔。

該工具當(dāng)前僅向Gemini Advanced訂閱者提供英文版,并將于明年年初在移動(dòng)App中提供。

一、Gemini 2.0首款模型發(fā)布!多模態(tài)輸出、原生調(diào)用工具、四大Agent

谷歌的官方博客顯示,Gemini 2.0 Flash在關(guān)鍵基準(zhǔn)測(cè)試中的速度是1.5 Pro的兩倍。

除了支持圖像、視頻和音頻等多模式輸入外,Gemini 2.0 Flash現(xiàn)在還支持多模態(tài)輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉(zhuǎn)語(yǔ)音(TTS)多語(yǔ)言音頻,還可以原生調(diào)用谷歌搜索、代碼執(zhí)行以及第三方用戶定義函數(shù)等工具。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

為了幫助開發(fā)人員構(gòu)建動(dòng)態(tài)和交互式應(yīng)用程序,在此基礎(chǔ)上,谷歌還發(fā)布了具有實(shí)時(shí)音頻、視頻流輸入以及使用多個(gè)組合工具的能力的Multimodal Live API。

在AI Agent方面,谷歌宣布了對(duì)實(shí)驗(yàn)性功能的更新,包括通用AI Agent Project Astra、多步驟任務(wù)AI Agent Project Mariner、AI編程Agent Jules、游戲Agent。

1、通用AI Agent Project Astra:記住10分鐘視頻,更強(qiáng)agent能力

還記得谷歌今年5月展示的通用AI助手研究原型Project Astra嗎?

這是一個(gè)全視、全聽和全記憶的實(shí)驗(yàn)性AI助手,展示了通用AI助手的未來功能。你通過安卓App或原型眼鏡來記錄看到的世界,AI助手可以實(shí)時(shí)處理文本、圖像、視頻、音頻,分析它所看到的內(nèi)容并回答廣泛的問題,還精通多國(guó)語(yǔ)言。

由Gemini 2.0提供支持Project Astra更新版本,可以實(shí)現(xiàn)Agent(代理)能力。其最新改進(jìn)包括:

  • 更好的記憶:今年5月谷歌展示了早期版本只能記住45秒的視頻,現(xiàn)在它已經(jīng)能記憶10分鐘的視頻了,可以記住用戶與其進(jìn)行的更多對(duì)話和個(gè)人偏好,更具個(gè)性化。
  • 更好的對(duì)話:?能使用多種語(yǔ)言和混合語(yǔ)言進(jìn)行交談,并且能夠更好地理解口音和不常見的單詞。
  • 新工具用途:使用Gemini 2.0的內(nèi)置Agent框架,通過文本、語(yǔ)音、圖像和視頻回答問題并執(zhí)行任務(wù),在需要時(shí)調(diào)用谷歌搜索、Lens、地圖等應(yīng)用。
  • 改善延遲:借助新的流媒體功能和本機(jī)音頻理解,Agent以與人類對(duì)話相同的延遲理解語(yǔ)言,使對(duì)話感覺更自然。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

谷歌正在擴(kuò)大Project Astra的測(cè)試范疇,將新的反饋納入更新中,包括優(yōu)化其對(duì)各種口音及不常見單詞的理解、減少延遲、將其集成到一些谷歌產(chǎn)品(如搜索、Lens、地圖等)。

*后文有更詳細(xì)的功能演示。

2、多步驟任務(wù)AI Agent Project Mariner:最佳工作結(jié)果83.5%,為保證安全目前需人類介入?

Project Mariner?是谷歌在Gemini 2.0模型基礎(chǔ)上發(fā)布的一個(gè)實(shí)驗(yàn)性功能,?其可以完成多步驟的復(fù)雜任務(wù)。

作為研究原型,Project Mariner?能夠理解和推理瀏覽器屏幕上的信息,包括像素和文本、編程、圖像和表單等網(wǎng)絡(luò)元素,然后通過實(shí)驗(yàn)性的谷歌擴(kuò)展程序使用這些信息完成任務(wù)。

谷歌官方博客顯示,根據(jù)WebVoyager基準(zhǔn)進(jìn)行評(píng)估,該基準(zhǔn)測(cè)試Agent在端到端真實(shí)世界網(wǎng)絡(luò)任務(wù)上的性能,Project Mariner作為單一Agent設(shè)置實(shí)現(xiàn)了83.5%的最佳工作結(jié)果。

?在演示中,Project Mariner可以同時(shí)完成獲取表單、找到公司官網(wǎng)、聯(lián)系方式等多步驟任務(wù),Agent會(huì)自動(dòng)執(zhí)行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以隨時(shí)點(diǎn)擊暫停和停止。同時(shí),用戶可以看到Agent每一步行動(dòng)的推理步驟和計(jì)劃。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

盡管目前?Project Mariner執(zhí)行任務(wù)時(shí)較慢且并不總是準(zhǔn)確,但從技術(shù)上講,這表明了在瀏覽器中導(dǎo)航已經(jīng)成為可能。

目前,該代理在完成任務(wù)時(shí)需要人類介入,如Project Mariner只能在瀏覽器的活動(dòng)選項(xiàng)卡中鍵入、滾動(dòng)或點(diǎn)擊,并且它會(huì)在用戶執(zhí)行某些購(gòu)買等敏感操作之前要求用戶進(jìn)行最終確認(rèn)

3、AI編程Agent?Jules:直接集成GitHub,長(zhǎng)期目標(biāo)是構(gòu)建通用Agent

谷歌還在探索Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實(shí)驗(yàn)性AI驅(qū)動(dòng)的編程Agent。

Jules可以解決問題、制定計(jì)劃并執(zhí)行它,所有過程都在開發(fā)人員的指導(dǎo)和監(jiān)督下進(jìn)行。在這一領(lǐng)域,谷歌的長(zhǎng)期目標(biāo)是構(gòu)建在所有領(lǐng)域(包括編程)都有幫助的AI Agent。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

4、游戲Agent:視頻游戲?qū)Ш?,根?jù)游戲動(dòng)作推理、實(shí)時(shí)對(duì)話充當(dāng)游戲交流

谷歌使用Gemini 2.0構(gòu)建了游戲Agent,可以幫助用戶在視頻游戲的虛擬世界中導(dǎo)航。Agent可以僅根據(jù)屏幕上的動(dòng)作來推理游戲,并在實(shí)時(shí)對(duì)話中提供下一步操作的建議。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

目前,研究人員在與Supercell等游戲開發(fā)商合作,探索這些Agent從《部落沖突》等策略游戲到《Hay Day》等農(nóng)業(yè)模擬器,在各種游戲中解釋規(guī)則和挑戰(zhàn)的能力。

未來,谷歌還在試驗(yàn)可以通過將Gemini 2.0的空間推理功能應(yīng)用于機(jī)器人技術(shù)來在物理世界中提供幫助的Agent。

三、通用AI助手原型升級(jí)!能存儲(chǔ)10分鐘視頻,開啟Agent時(shí)代

谷歌發(fā)布了由Gemini 2.0提供支持Project Astra更新版本的新演示視頻。

測(cè)試者拿著安裝了最新測(cè)試版Project Astra的Pixel手機(jī),在倫敦附近遛彎并進(jìn)行測(cè)試。比如收到包含公寓信息的電子郵件,你可以讓AI助手告訴你門的密碼,并記住它。洗衣服時(shí),把衣服標(biāo)簽、機(jī)器圖標(biāo)拍給AI助手,它會(huì)告訴測(cè)試者正確的洗衣服方式。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

測(cè)試者把推薦列表拍給AI助手,它能搜索列表中的地點(diǎn),給出相應(yīng)的信息。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

當(dāng)測(cè)試者走在街道上,掃過食物、雕塑或花卉,AI助手都能為詢問作出解答。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

測(cè)試者還把朋友在讀的書發(fā)給AI助手,讓它推薦符合朋友喜好的禮物,并討論朋友可能感興趣的點(diǎn)。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

當(dāng)偶遇一輛公交車,測(cè)試者問AI助手“那輛公交車能帶我去唐人街附近嗎?”AI助手會(huì)回復(fù)說:“是的,24路公交車經(jīng)過萊斯特廣場(chǎng),離唐人街很近。”測(cè)試者繼續(xù)追問路上有什么路標(biāo),AI助手也作出流利地回復(fù):“你可能遇到的著名地標(biāo)是威斯敏斯特大教堂、大本鐘和特拉法加廣場(chǎng)?!?/p>

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

除了使用手機(jī)外,測(cè)試者也戴上原型眼鏡來使用Project Astra,并提出讓它查看天氣預(yù)報(bào)、詢問旁邊的公園是什么、查詢能否騎自行車進(jìn)入、這條路是否有超市等問題。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

目前該AI助手仍有很多局限性,比如無法訪問個(gè)人的電子郵件或照片,在嘈雜的環(huán)境中難以區(qū)分多個(gè)聲音,并且無法執(zhí)行設(shè)置計(jì)時(shí)器等操作任務(wù)等。

Project Astra產(chǎn)品經(jīng)理Bibo Xu說:“它正在融合我們這個(gè)時(shí)代一些最強(qiáng)大的信息檢索系統(tǒng)?!?/p>

四、基于AI Agent,探索保護(hù)用戶敏感信息、遵循用戶指令策略

在安全方面,谷歌在對(duì)多個(gè)實(shí)驗(yàn)原型進(jìn)行研究的基礎(chǔ)上,正通過迭代實(shí)施安全培訓(xùn)、與測(cè)試人員和外部專家合作,進(jìn)行廣泛的風(fēng)險(xiǎn)評(píng)估以及安全和保證評(píng)估。

  • 谷歌與責(zé)任與安全委員會(huì) (RSC) 合作以識(shí)別和了解潛在風(fēng)險(xiǎn)。
  • Gemini 2.0的推理功能使其AI輔助紅隊(duì)方法取得重大進(jìn)步,包括從簡(jiǎn)單地檢測(cè)風(fēng)險(xiǎn)到自動(dòng)生成評(píng)估和訓(xùn)練數(shù)據(jù)以減輕風(fēng)險(xiǎn)的能力。
  • 由于Gemini 2.0的多模態(tài)功能增加了潛在輸出的復(fù)雜性,其將繼續(xù)在圖像和音頻輸入和輸出方面評(píng)估和訓(xùn)練模型,以幫助提高安全性。
  • 通過Project Astra,谷歌正在探索針對(duì)用戶無意中與代理共享敏感信息的潛在緩解措施,并且其已經(jīng)內(nèi)置了隱私控制功能,使用戶可以輕松刪除會(huì)話。他們還在繼續(xù)研究以確保AI代理充當(dāng)可靠的信息來源,并且不會(huì)代表您采取意外操作。
  • 通過Project Mariner,谷歌正在努力確保模型學(xué)會(huì)優(yōu)先考慮用戶指令,而不是第三方的提示注入嘗試,以便它可以識(shí)別來自外部來源的潛在惡意指令并防止濫用。這可以防止用戶通過電子郵件、文檔或網(wǎng)站中隱藏的惡意指令等方式受到欺詐和網(wǎng)絡(luò)釣魚攻擊。

五、Gemini 2.0背后的硬件功臣:谷歌最強(qiáng)AI芯片Trillium TPU普遍可用

全新Gemini 2.0由谷歌今年發(fā)布的Trillium TPU訓(xùn)練而成。Trillium是谷歌第六代TPU,也是迄今性能最高的TPU。

其相比上一代芯片的優(yōu)化包括:超過4倍的訓(xùn)練性能,高達(dá)3倍的推理吞吐量,能效提高67%,每顆芯片峰值計(jì)算性能提高4.7倍,HBM容量翻倍,單個(gè)Jupiter網(wǎng)絡(luò)有10萬(wàn)顆TPU,高至2.5倍的每美元訓(xùn)練性能、1.4倍的每美元推理性能。

今日,谷歌宣布如今Trillium TPU面向谷歌云客戶普遍可用

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

Trillium TPU是谷歌云AI超級(jí)計(jì)算機(jī)的關(guān)鍵組成部分,其架構(gòu)采用了性能優(yōu)化的硬件、開放的軟件、領(lǐng)先的機(jī)器學(xué)習(xí)框架和靈活的消費(fèi)級(jí)模型的集成系統(tǒng)。谷歌還對(duì)開放軟件層進(jìn)行了增強(qiáng),包括對(duì)XLA編譯器和流行框架的優(yōu)化,以在AI訓(xùn)練、調(diào)優(yōu)和服務(wù)方面實(shí)現(xiàn)大規(guī)模的領(lǐng)先性價(jià)比。

此外,使用大量主機(jī)DRAM(補(bǔ)充HBM)進(jìn)行主機(jī)卸載等功能,提供了更高的效率。

每個(gè)Jupiter網(wǎng)絡(luò)結(jié)構(gòu)超過100,000顆Trillium芯片,具有13Pbps的對(duì)分帶寬,能夠?qū)蝹€(gè)分布式訓(xùn)練任務(wù)擴(kuò)展到數(shù)十萬(wàn)個(gè)加速器。

以色列AI大模型獨(dú)角獸AI21 Labs已使用Trillium來加速開發(fā)下一代復(fù)雜語(yǔ)言模型。

1、擴(kuò)展AI訓(xùn)練工作負(fù)載

Trillium通過部署12個(gè)包含3072顆芯片的pod實(shí)現(xiàn)了99%的擴(kuò)展效率,并在24個(gè)包含6144顆芯片的pod中展示了94%的擴(kuò)展效率,以預(yù)訓(xùn)練gpt3-175b。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

谷歌使用4片的Trillium-256芯片作為基準(zhǔn),使用1片的Trillium-256芯片作為基準(zhǔn),當(dāng)擴(kuò)展到24個(gè)pod時(shí),仍可獲得超過90%的擴(kuò)展效率。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

在訓(xùn)練Llama-2-70B模型時(shí),測(cè)試表明,Trillium以99%的擴(kuò)展效率實(shí)現(xiàn)了從4片Trillium-256芯片pod到36片Trillium-256芯片pod的近線性擴(kuò)展。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

2、訓(xùn)練密集型和MoE大模型

與前幾代產(chǎn)品相比,Trillium TPU具有更好的擴(kuò)展效率。下圖表中,其測(cè)試展示了與同等規(guī)模的Cloud TPU v5p集群相比,Trillium在12 pod規(guī)模下的99%擴(kuò)展效率(總峰值FLOPS)。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

與上一代云TPU v5e相比,Trillium為密集大語(yǔ)言模型(如Llama-2-70b和gpt3-175b)提供高達(dá)4倍的訓(xùn)練速度,為MoE模型提供了比上一代云TPU v5e快3.8倍的訓(xùn)練。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

與Cloud TPU v5e相比,Trillium TPU提供了3倍的DRAM。在訓(xùn)練Llama-3.1-405B模型時(shí),根據(jù)模型FLOPs利用率(MFU)測(cè)量,Trillium的主機(jī)卸載功能可將性能提高50%以上。

3、優(yōu)化推理性能和收集調(diào)度

Trillium也為圖像擴(kuò)散模型和密集大語(yǔ)言模型提供了最佳的TPU推理性能。其測(cè)試表明,與Cloud TPU v5e相比,Stable Diffusion XL的相對(duì)推理吞吐量(每秒圖像)提高了3倍以上,Llama2-70B的相對(duì)推理吞吐量(每秒token)提高了近2倍。

Trillium是谷歌在離線和服務(wù)器推理用例中性能最高的TPU。下圖顯示,與Cloud TPU v5e相比,Stable Diffusion XL的離線推理相對(duì)吞吐量(每秒圖像數(shù))提高了3.1倍,服務(wù)器推理相對(duì)吞吐量提高了2.9倍。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

除了更好的性能,Trillium還引入了一個(gè)新的集合調(diào)度功能。這個(gè)特性允許谷歌的調(diào)度系統(tǒng)做出智能的作業(yè)調(diào)度決策,從而在一個(gè)集合中有多個(gè)副本時(shí)提高推理工作負(fù)載的總體可用性和效率。

它提供了一種管理運(yùn)行單主機(jī)或多主機(jī)推理工作負(fù)載的多個(gè)TPU片的方法,包括通過谷歌Kubernetes Engine(GKE)。將這些片分組到一個(gè)集合中,可以很容易地調(diào)整副本的數(shù)量以滿足需求。

4、提高嵌入密集型模型性能

第三代數(shù)據(jù)流處理器SparseCore更擅長(zhǎng)加速動(dòng)態(tài)和數(shù)據(jù)依賴操作。引入第三代SparseCore的Trillium將嵌入密集型模型的性能提高了2倍,將DLRM DCNv2的性能提高了5倍。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

5、提高訓(xùn)練和推理性價(jià)比

Trillium還旨在優(yōu)化每美元的性能。迄今為止,在訓(xùn)練密集大語(yǔ)言模型(如Llama2-70b和Llama3.1-405b)中,Trillium的每美元性能比Cloud TPU v5e提高了2.1倍,比Cloud TPU v5p提高了2.5倍。

在Trillium上生成1000張圖像的成本比離線推理的Cloud TPU v5e低27%,比在SDXL上進(jìn)行服務(wù)器推理的Cloud TPU v5e低22%。

谷歌最強(qiáng)大模型登場(chǎng)!掀Agent風(fēng)暴,放AI芯片大招,深夜突襲OpenAI

結(jié)語(yǔ):大模型狂飆沖向Agent時(shí)代

通用人工智能(AGI)熱戰(zhàn)在年末愈演愈烈。從亞馬遜、OpenAI、Meta到谷歌,一系列重磅發(fā)布將大模型的競(jìng)爭(zhēng)格局推向了新的高潮。

其中谷歌是少有的同時(shí)在大模型、云端基礎(chǔ)設(shè)施、端側(cè)智能方面同時(shí)占據(jù)優(yōu)勢(shì)的頭部大模型企業(yè)。

在如火如荼的大模型競(jìng)賽中,執(zhí)掌安卓操作系統(tǒng)的谷歌對(duì)端側(cè)智能理解距離最近、理解最深。通過今日的一系列發(fā)布,谷歌進(jìn)一步強(qiáng)化了Agent(代理)在智能手機(jī)、智能眼鏡等端側(cè)設(shè)備上的誘人前景。在更強(qiáng)大模型加持下,Agent將能夠更廣泛地為人類代勞,幫人類了解周圍世界,提前進(jìn)行多步驟思考,并在人類的監(jiān)督下采取行動(dòng)。

但AI系統(tǒng)仍具有相當(dāng)多的不可控性。包括谷歌在內(nèi),大模型公司在將世界推向Agent時(shí)代的同時(shí),必須竭力確保低風(fēng)險(xiǎn),控制好安全的方向盤。