智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

最近幾天,支付寶App中悄然出現(xiàn)了一項(xiàng)新的AI應(yīng)用——“探一下”。在“掃一掃”頁面下方切換至“探一下”就能體驗(yàn)。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

與傳統(tǒng)的識(shí)物、搜題等視覺搜索應(yīng)用不同,“探一下”的核心亮點(diǎn)為探索。識(shí)圖辨物只是開始,在此基礎(chǔ)上,有探知識(shí)、探靈感、探文本等能力板塊。

從視覺搜索到智能推薦信息,“探一下”可成為一本隨身的“視覺百科全書”。逛展時(shí),打開“探一下”對(duì)準(zhǔn)畫作,背后的故事、歷史背景、藝術(shù)風(fēng)格都一覽無余。踏青時(shí),打開“探一下”對(duì)準(zhǔn)花朵,不僅能識(shí)別出名稱、科屬,還有文化、園藝的相關(guān)知識(shí)。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

“探一下”也可以識(shí)別同款商品、給出藥物使用指南,或是翻譯外文菜單,并鏈接到支付寶豐富的商業(yè)生態(tài),提供用車、醫(yī)療等服務(wù),使用場(chǎng)景很廣泛。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

當(dāng)切換至探靈感功能時(shí),它可以根據(jù)場(chǎng)景靈活配文,可幽默、可治愈,在寵物、辦公等場(chǎng)景,還會(huì)有“讀心”、“卷王”等定制濾鏡,適合想曬圖但不知道怎么寫文案的人。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

這些實(shí)用、有趣的功能背后,其實(shí)是視覺搜索產(chǎn)品在GenAI(生成式AI)時(shí)代范式轉(zhuǎn)變的縮影,告別過去的傳統(tǒng)判別式方案,多模態(tài)大模型驅(qū)動(dòng)的AI視覺搜索方案正逐漸走向規(guī)?;瘧?yīng)用。

在海外,Google Lens這一爆款視覺搜索產(chǎn)品,已憑借GenAI成為谷歌增長(zhǎng)最快的查詢類型之一,每月視覺搜索調(diào)用量超200億次。依托于掃一掃的用戶群體、支付寶的龐大商業(yè)生態(tài)圈以及螞蟻的技術(shù)積累,“探一下”會(huì)否成為國(guó)內(nèi)對(duì)標(biāo)乃至超越Google Lens的現(xiàn)象級(jí)產(chǎn)品呢?

一、視覺搜索賽道火熱,理解分析能力亟待突破

過去20多年中,傳統(tǒng)的文字搜索引擎已成為了搜索的標(biāo)準(zhǔn)形態(tài)。不過近幾年來,原本作為文字搜索補(bǔ)充的視覺搜索已經(jīng)逐漸走到臺(tái)前。2022年,谷歌開發(fā)的視覺搜索應(yīng)用Google Lens每月執(zhí)行的視覺搜索任務(wù)已超過120億次,2024年這一數(shù)字已達(dá)200億次,并持續(xù)快速增長(zhǎng)。

從用戶角度來看,視覺搜索能提供超越文字限制的直觀搜索體驗(yàn),還能幫助用戶發(fā)現(xiàn)更多相關(guān)信息,從而激發(fā)新的創(chuàng)意與靈感。在傳統(tǒng)文字搜索增長(zhǎng)進(jìn)入穩(wěn)定期后,視覺成為眾多互聯(lián)網(wǎng)科技企業(yè)發(fā)力的重點(diǎn)之一。

從商業(yè)價(jià)值的角度來看,視覺搜索能在電商、社交媒體等領(lǐng)域提供全新的體驗(yàn),成為連接用戶與商業(yè)服務(wù)的重要橋梁,催生新的商業(yè)模式與價(jià)值。國(guó)內(nèi)與國(guó)際的淘寶、亞馬遜等電商平臺(tái)紛紛推出相關(guān)服務(wù),正是出于這一考量。

然而,在中國(guó),現(xiàn)象級(jí)的視覺搜索產(chǎn)品尚未出現(xiàn)。許多廠商的視覺搜索基于AI1.0時(shí)代的判別式基礎(chǔ)視覺算法,依托大量數(shù)據(jù),專注于某一垂直領(lǐng)域,如搜題、識(shí)花、購(gòu)物等,未能實(shí)現(xiàn)破圈。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

即便是具備“識(shí)萬物”能力的產(chǎn)品,也大多停留在了“識(shí)你所見”的層面,并且在復(fù)雜場(chǎng)景上的表現(xiàn)并不理想。當(dāng)用戶需要了解圖片背后的更多信息時(shí),仍需鏈接到搜索引擎的結(jié)果,理解分析能力成為上一代視覺搜索的明顯短板,亟待突破。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

二、從判別到生成,GenAI重新定義視覺搜索

互聯(lián)網(wǎng)誕生以來,搜索的形態(tài)就處于不斷流變的過程中。以Google為代表的傳統(tǒng)搜索通過匹配關(guān)鍵詞來獲取信息,其核心是基于文字的資訊檢索。

隨著深度學(xué)習(xí)浪潮的開啟,視覺搜索應(yīng)運(yùn)而生,以Google Lens早期版本為代表的同類產(chǎn)品以圖像識(shí)別技術(shù)為核心,匹配數(shù)據(jù)庫(kù)中的物體、場(chǎng)景或文字。

在GenAI技術(shù)的洗禮之下,傳統(tǒng)搜索已往生成式搜索靠攏,顯然,視覺搜索也需要順應(yīng)這一趨勢(shì)。用戶已經(jīng)不再滿足于僅僅獲取信息,而是期待更豐富、更智能、更個(gè)性化的體驗(yàn)與解讀。

視覺搜索需要從單純的信息檢索工具,進(jìn)化為能夠理解用戶意圖、提供個(gè)性化內(nèi)容、激發(fā)創(chuàng)意靈感、連接服務(wù)生態(tài)的下一代生成式視覺搜索。

GenAI對(duì)視覺搜索的變革性意義已經(jīng)成為共識(shí)。

去年,谷歌旗下的視覺搜索產(chǎn)品已與大模型進(jìn)行了深度融合,可在識(shí)別畫面信息之外回答用戶的問題,內(nèi)容由模型進(jìn)行整合并輸出。Google Lens還進(jìn)一步支持了視頻提問、語音提問等功能,同樣也可為用戶提供豐富、個(gè)性化的交互體驗(yàn)。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

蘋果也提升了對(duì)視覺智能的重視。新款iPhone的“相機(jī)控制”按鈕能一鍵啟用視覺智能,成為Apple Intelligence的視覺入口,支持拍餐廳看評(píng)價(jià)、拍傳單添加日程、拍小狗看品種、拍商品買同款等新穎的交互體驗(yàn)。

支付寶近期推出“探一下”,也正是由于他們把握住了生成式視覺搜索這一視覺搜索領(lǐng)域的新趨勢(shì)?!疤揭幌隆睒I(yè)務(wù)負(fù)責(zé)人蔡偉(David Cai)曾在谷歌工作,從零開始深度參與了Google Lens等視覺搜索項(xiàng)目,他認(rèn)為這一代基于多模態(tài)大模型的視覺搜索技術(shù)變遷有兩大趨勢(shì),一是由搜索走向生成,二是由文本輸入走向多模態(tài)、全模態(tài)輸入。

據(jù)了解,“探一下”的視覺原生解決方案將多模態(tài)大模型能力同mRAG(多模態(tài)檢索增強(qiáng)生成)、基礎(chǔ)視覺算法、Agent能力相結(jié)合,以視覺為中心,提供了以探索為核心亮點(diǎn),有用、有趣的用戶體驗(yàn)。

為穩(wěn)住識(shí)別等“求知”類需求的基本盤,并進(jìn)行更具深度和廣度的分析解讀,“探一下”采用多模態(tài)大模型全圖理解+open-set多主體檢測(cè)的技術(shù)鏈路,能夠識(shí)別特定場(chǎng)景中的多個(gè)主體,并將識(shí)別的結(jié)果聚合到一起,從而實(shí)現(xiàn)意圖識(shí)別的快響應(yīng)、高精度,并借助大模型理解力和知識(shí)力,進(jìn)一步分析信息、理解信息、提供信息。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在精細(xì)化識(shí)別的基礎(chǔ)上,“探一下”還可提供趣味性、啟發(fā)性的內(nèi)容。結(jié)合預(yù)訓(xùn)練好的“讀心、幽默、治愈”等文本模版,“探靈感”功能可以即時(shí)生成對(duì)應(yīng)“類人”風(fēng)格的文本。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

響應(yīng)速度是不少AI產(chǎn)品落地時(shí)的痛點(diǎn)。蔡偉介紹,“探一下”聯(lián)合螞蟻百靈多模態(tài)大模型團(tuán)隊(duì),針對(duì)大模型進(jìn)行了輕量化推理加速,并采用了從視覺初定位,到粗意圖,再到精細(xì)化識(shí)別的Coarse-to-Fine機(jī)制,縮短了結(jié)果輸出的耗時(shí),為用戶提供了更為即時(shí)的體驗(yàn)。

準(zhǔn)確性則是所有AI產(chǎn)品真正發(fā)揮實(shí)際效用的關(guān)鍵。探一下在生成回答時(shí)依靠不同的數(shù)據(jù)源,利用RAG技術(shù)綜合信息進(jìn)行交叉驗(yàn)證,還在最終輸出時(shí)注明來源,讓結(jié)果更可靠,用戶更信任。

同時(shí),“探一下”在隱私與安全上保持了與支付寶金融級(jí)產(chǎn)品一樣的安全合規(guī)標(biāo)準(zhǔn),對(duì)圖片類型、數(shù)據(jù)存儲(chǔ)位置(用戶或服務(wù)器)都進(jìn)行了細(xì)致嚴(yán)格的限定。

三、鏈接支付寶生態(tài),“探一下”探萬物的可能性

“探一下”目前的主要入口是支付寶的掃一掃功能,這從一定程度上反映了螞蟻對(duì)這一交互形式的信心與決心。“我們認(rèn)為生成式AI帶來的搜索變革,其實(shí)是一個(gè)全新的交互形態(tài),視覺不僅僅是文本的一個(gè)附庸,而是能承載獨(dú)立的產(chǎn)品入口?!?/p>

蔡偉進(jìn)一步介紹,掃一掃在過去已積累了億萬級(jí)的用戶,新應(yīng)用“探一下”能利用這一優(yōu)勢(shì),降低培養(yǎng)用戶習(xí)慣的成本。如果探一下能為用戶創(chuàng)造足夠多的價(jià)值,或許有希望引發(fā)如上一輪“掃一掃”般的新一輪用戶行為升級(jí)。

未來,“探一下”仍然會(huì)專注于大模型具有優(yōu)勢(shì),而前一代技術(shù)無法實(shí)現(xiàn)的場(chǎng)景。螞蟻并不是一家搜索起家的企業(yè),這讓他們得以輕裝上陣,更自由地探索“探一下”發(fā)展的可能性。

基于支付寶豐富的服務(wù)供給,“探一下”未來可能會(huì)接入小程序、智能體和其他潛在的用戶交互形式。今年螞蟻集團(tuán)接連推出了AI生活管家“支小寶”、AI金融管家“螞小財(cái)”和AI健康管家。作為視覺元素交互入口,“探一下”也有可能成為鏈接三大管家服務(wù)的重要入口。比如,在健康管家中,“探一下”可以識(shí)別藥物,并且進(jìn)一步鏈接用藥指南、報(bào)告解讀、醫(yī)生推薦、智能導(dǎo)診等健康服務(wù)。

支付寶長(zhǎng)眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在三大AI管家之外,作為獨(dú)立的視覺原生入口,“探一下”還能識(shí)別汽車等物品及場(chǎng)景,鏈接到支付寶的“車生活”服務(wù),提供看車、充電等生活服務(wù),具備鏈接商業(yè)世界的想象力空間。

“探一下”也可落地到更豐富的應(yīng)用場(chǎng)景,如旅游、戶外、親子等場(chǎng)景,不斷擴(kuò)大內(nèi)容生態(tài);也能基于支付寶數(shù)字公益方面的經(jīng)驗(yàn),發(fā)揮更大的社會(huì)價(jià)值,比如,探索無障礙輔助等領(lǐng)域,更好服務(wù)視障人群。

“探一下”團(tuán)隊(duì)在測(cè)試與發(fā)布過程中發(fā)現(xiàn)了不少意外之喜:如用戶很喜歡用它來識(shí)別昆蟲;部分用戶還用“探一下”取代相機(jī),作為內(nèi)容記錄與分享的新方式。作為一款C端的通用AI視覺搜索產(chǎn)品,“探一下”未來會(huì)針對(duì)用戶需求不斷進(jìn)行迭代,持續(xù)優(yōu)化體驗(yàn)。

此外,新一代視覺搜索也帶來了智能硬件的發(fā)展想象。在部分場(chǎng)景中,“Always-on”的智能眼鏡等硬件能提供比手機(jī)更好的用戶體驗(yàn),蔡偉稱“探一下”也在思考與智能硬件的融合模式。

結(jié)語:“探一下”或?qū)⒁I(lǐng)下一代AI視覺搜索趨勢(shì)

搜索是互聯(lián)網(wǎng)的組織層,串聯(lián)起用戶、信息、商業(yè)、服務(wù)等諸多要素,是信息、智能世界的重要入口。谷歌定義了搜索目前的模樣,但他們起初或許并不知道搜索會(huì)長(zhǎng)成它現(xiàn)在的樣子。

在生成式AI時(shí)代,視覺搜索這個(gè)動(dòng)作,將極大豐富搜索的樣式,搜索不再是從已知中找答案,而是基于多模態(tài)大模型的視覺理解與創(chuàng)作能力,提供更智能、更豐富、更具交互性的服務(wù)體驗(yàn)。

螞蟻集團(tuán)入局AI視覺搜索,正是對(duì)其AI First戰(zhàn)略的進(jìn)一步加速。2024年,螞蟻集團(tuán)發(fā)布三大AI管家,設(shè)立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,AI專利、AI論文數(shù)量猛增。而支付寶的“探一下”也正在探索下一代AI視覺搜索新范式,煥新傳統(tǒng)的搜索產(chǎn)品,也有希望讓AI像掃碼支付一樣便利每個(gè)人的生活——不止有大腦能對(duì)話、有手腳能辦事,更有眼睛能探索身邊世界。