智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智東西11月16日報(bào)道,昨日,騰訊在其技術(shù)開放日舉辦了AGI時(shí)代的“數(shù)據(jù)樞紐”騰訊云向量數(shù)據(jù)庫技術(shù)&產(chǎn)業(yè)峰會。在此次大會上,騰訊云聯(lián)合中國信通院聯(lián)合發(fā)布向量數(shù)據(jù)庫標(biāo)準(zhǔn)。騰訊云向量數(shù)據(jù)庫成為首家通過信通院的向量庫標(biāo)準(zhǔn)測試的向量數(shù)據(jù)庫,最高支持千億級向量規(guī)模和500萬QPS峰值能力。

向量是AI理解世界的通用數(shù)據(jù)形勢,是多模態(tài)數(shù)據(jù)庫的壓縮。向量數(shù)據(jù)則是由數(shù)值向量組成的數(shù)據(jù)集合,向量數(shù)據(jù)庫是以向量嵌入式存儲和管理向量數(shù)據(jù)的數(shù)據(jù)庫,其主要的來自于對文本、語音、圖像、視屏等非結(jié)構(gòu)化數(shù)據(jù),提供向量化的功能。

“向量數(shù)據(jù)庫不僅是支撐大模型的重要基礎(chǔ)設(shè)施,也正在成為企業(yè)以數(shù)據(jù)驅(qū)動(dòng)打造未來競爭力的重要一環(huán)?!彬v訊集團(tuán)高級執(zhí)行副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生說道。他認(rèn)為,目前企業(yè)數(shù)據(jù)庫內(nèi)80%的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù),向量數(shù)據(jù)可以讓AI直接解讀語音、視頻等多模態(tài)的數(shù)據(jù)。

據(jù)騰訊云數(shù)據(jù)庫副總經(jīng)理羅云介紹,目前騰訊云向量數(shù)據(jù)庫已經(jīng)累積服務(wù)了騰訊內(nèi)部40多個(gè)業(yè)務(wù),日請求量達(dá)1600億次,服務(wù)了包括博世、銷售易、搜狐、好未來、鏈家等在內(nèi)的超過1000家外部客戶。

此外,騰訊云向量數(shù)據(jù)庫和百川智能聯(lián)合發(fā)布的“AGI啟航計(jì)劃”也正式啟動(dòng),向量數(shù)據(jù)庫免費(fèi)實(shí)例及Baichuan2 400萬免費(fèi)Tokens將限量開放領(lǐng)取,助力用戶快速搭建RAG應(yīng)用。同時(shí),騰訊云還與硬件廠商、大模型廠商、行業(yè)代表等聯(lián)合成立了“AGI技術(shù)生態(tài)聯(lián)盟”。

國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn)亮相,日處理1600億請求,對話騰訊云向量數(shù)據(jù)庫高管羅云

一、騰訊集團(tuán)高級執(zhí)行副總裁湯道生:向量數(shù)據(jù)庫比傳統(tǒng)數(shù)據(jù)庫的檢索規(guī)模提升數(shù)百倍

“向量數(shù)據(jù)庫可以成為大模型的外部知識庫,給大模型輸入最新,最全面,最有效的信息,讓大模型擁有長記憶,避免聊天時(shí)的斷線,是大模型的最佳拍檔?!睖郎ㄟ^視頻說道。他認(rèn)為,AI驅(qū)動(dòng)產(chǎn)業(yè)數(shù)據(jù)變動(dòng)的時(shí)代正在到來,向量數(shù)據(jù)庫正在成為數(shù)據(jù)的樞紐。

國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn)亮相,日處理1600億請求,對話騰訊云向量數(shù)據(jù)庫高管羅云

據(jù)他介紹,早在2019年,騰訊云向量數(shù)據(jù)庫已經(jīng)接入了QQ瀏覽器等多業(yè)務(wù)場景,每天處理超過1600億次的請求。在向量檢索幫助下,QQ瀏覽器檢索成本38%,QQ音樂的技術(shù)支持也較大提升。

今年8月,騰訊云正式推出向量數(shù)據(jù)庫,如今,騰訊云向量數(shù)據(jù)庫也成為首個(gè)通過信通院標(biāo)準(zhǔn)測試的廠商,該向量庫擁有千億級的向量規(guī)模,比傳統(tǒng)數(shù)據(jù)庫的檢索規(guī)模提升數(shù)百倍。

湯道生認(rèn)為,數(shù)據(jù)在大模型的向量數(shù)據(jù)庫實(shí)現(xiàn)了智能計(jì)算、智能存儲,大幅降低客戶的應(yīng)用門檻和成本。不少用戶基于騰訊云向量數(shù)據(jù)庫打造相應(yīng)的應(yīng)用,讓用戶在模糊的提示詞下,也可以準(zhǔn)確的找到答案,幫助客戶節(jié)省80%的人工客服成本。

二、騰訊云副總裁陳平:國內(nèi)擁有130個(gè)大模型,向量數(shù)據(jù)庫是AGI時(shí)代大模型的最佳拍檔

“向量數(shù)據(jù)庫已經(jīng)被業(yè)內(nèi)公認(rèn)大模型時(shí)代的數(shù)據(jù)樞紐,因此其建設(shè)也尤為重要?!彬v訊云副總裁陳平談到在新的時(shí)代,AI行業(yè)將會改變千行百業(yè),傳統(tǒng)行業(yè)需要及時(shí)調(diào)整自己的生產(chǎn)方式,以跟上新的時(shí)代。

國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn)亮相,日處理1600億請求,對話騰訊云向量數(shù)據(jù)庫高管羅云

同時(shí),在新興數(shù)據(jù)技術(shù)集成上,移動(dòng)互聯(lián)網(wǎng)、泛互聯(lián)網(wǎng)等數(shù)據(jù)正呈現(xiàn)指數(shù)級成長,傳統(tǒng)處理數(shù)據(jù)的能力帶來壓力,更高效的數(shù)據(jù)存儲需要更智能存儲、梳理等。他認(rèn)為,向量數(shù)據(jù)庫是AGI時(shí)代大模型的最佳拍檔。

企業(yè)需要將數(shù)據(jù)采集和存儲,更多利用大模型的數(shù)據(jù)和存儲。在數(shù)據(jù)采集層,騰訊計(jì)劃部署各種AI芯片,提供穩(wěn)定的服務(wù)性能,為各種各樣的AI廠商提供服務(wù)。在模型層,據(jù)他統(tǒng)計(jì),中國已經(jīng)有130個(gè)大模型,接下來需要廠商將大模型沉淀到各個(gè)產(chǎn)業(yè)中。大模型的應(yīng)用并不完全看算力,也看生態(tài)合作。而應(yīng)用層,AGI應(yīng)用需要投入到真實(shí)環(huán)節(jié),也是其實(shí)現(xiàn)價(jià)值最重要的一環(huán)。

在2018年左右,由于自身業(yè)務(wù)的需要,騰訊云就已經(jīng)開始打磨向量數(shù)據(jù)庫,如今已經(jīng)成為較為成熟體系。“騰訊云積極參與向量數(shù)據(jù)庫相關(guān)標(biāo)準(zhǔn)制定,并通過搭建AGI技術(shù)生態(tài)聯(lián)盟,與上下游伙伴一道,加強(qiáng)產(chǎn)業(yè)合作,打造更多的行業(yè)解決方案,加速大模型落地?!标惼秸f道。

三、中國信通院人工智能創(chuàng)新中心負(fù)責(zé)人魏凱:國內(nèi)數(shù)據(jù)庫仍以關(guān)系型為主

中國數(shù)據(jù)庫產(chǎn)業(yè)開始于20世紀(jì)末,并在2013年后迎來新的繁榮發(fā)展,在2020年后,中國數(shù)據(jù)庫迎來的真正的爆發(fā)?!皵?shù)據(jù)庫是一個(gè)生命力比較頑強(qiáng)的產(chǎn)業(yè),幾乎每幾年都有一個(gè)熱點(diǎn)。在全球數(shù)據(jù)庫第二波爆發(fā)階段,中國趕上了浪潮。”中國信通院人工智能創(chuàng)新中心負(fù)責(zé)人、云計(jì)算與大數(shù)據(jù)研究所副所長魏凱說道。

數(shù)據(jù)庫上云成為當(dāng)今產(chǎn)業(yè)行業(yè)重要的趨勢,2022年,國內(nèi)的公有云市場首次超過了私有云,市場份額超過一半。

向量數(shù)據(jù)庫是存儲檢索、多維度向量最關(guān)鍵的數(shù)據(jù)庫。向量數(shù)據(jù)庫與大模型的結(jié)合,成為其當(dāng)下的產(chǎn)業(yè)熱門。向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫會協(xié)同發(fā)展、相互補(bǔ)充。向量數(shù)據(jù)庫將會通過數(shù)據(jù)的向量化來滿足特定需求,尤其是傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以處理的大規(guī)模數(shù)據(jù)。

國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn)亮相,日處理1600億請求,對話騰訊云向量數(shù)據(jù)庫高管羅云

目前,全球數(shù)據(jù)庫產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型數(shù)據(jù)為主。但國內(nèi)卻出現(xiàn)關(guān)系型數(shù)據(jù)庫的發(fā)展超過非關(guān)系型數(shù)據(jù)庫的現(xiàn)象。從創(chuàng)新看,非關(guān)系型數(shù)據(jù)是熱點(diǎn),我國創(chuàng)新實(shí)力不斷增強(qiáng)。而從標(biāo)準(zhǔn)上看,行業(yè)組織正逐步推動(dòng)我國標(biāo)準(zhǔn)體系完善。從模式來看,開源模式在全球范圍內(nèi)發(fā)展勢頭較猛,目前,我國國內(nèi)的開源數(shù)據(jù)庫共有42款,開源數(shù)據(jù)庫中69%為關(guān)系型數(shù)據(jù)庫。

他提到目前向量數(shù)據(jù)庫的核心技術(shù)有Embedding技術(shù)、向量索引技術(shù)、分布式系統(tǒng)架構(gòu)、硬件加速技術(shù)等。向量數(shù)據(jù)庫可以在文本、圖像、視頻、生物制藥等多場景中,發(fā)揮其創(chuàng)造性,提供豐富的應(yīng)用。

四、對話騰訊云向量數(shù)據(jù)庫負(fù)責(zé)人羅云:智能化數(shù)據(jù)平臺的數(shù)據(jù)要可流通、可對話

隨著AI的發(fā)展,整個(gè)計(jì)算機(jī)科學(xué)行業(yè)的底層基礎(chǔ)設(shè)施將會構(gòu)建全新的方式。

“AGI時(shí)代大模型是提供算力、調(diào)度的智能平臺,向量數(shù)據(jù)庫就是這個(gè)智能化的數(shù)據(jù)的調(diào)度平臺的中樞”騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫副總經(jīng)理兼向量數(shù)據(jù)庫負(fù)責(zé)人羅云認(rèn)為,大模型的本質(zhì)是帶有智能計(jì)算的計(jì)算平臺,將會將人們所接觸編程語言才可以觸達(dá)的計(jì)算體,轉(zhuǎn)換成人們自然語言就可以接觸的計(jì)算體。

他認(rèn)為AGI時(shí)代,智能化數(shù)據(jù)平臺將會存在兩大特點(diǎn),第一、底層數(shù)據(jù)化數(shù)據(jù)將要可以通過智能化的方式流通;第二則是,能夠和數(shù)據(jù)庫對話。因此,在AGI時(shí)代,向量數(shù)據(jù)庫是數(shù)據(jù)的中樞。通過向量這樣中間模式,將會磨平了數(shù)據(jù)之間的差異。

在會后的采訪環(huán)節(jié),羅云提到向量是一種通用的人工智能背后的數(shù)據(jù)格式,它可能是需要橋接關(guān)鍵數(shù)據(jù)庫、非關(guān)鍵數(shù)據(jù)庫、對象存儲、文件存儲所有的各式各樣結(jié)構(gòu)的數(shù)據(jù),把這些數(shù)據(jù)集中化放在一個(gè)數(shù)據(jù)管理平臺上。而傳統(tǒng)的插件式向量數(shù)據(jù)庫相比,很難讓某一個(gè)數(shù)據(jù)庫的插件支持到其他的格式?!跋蛄繑?shù)據(jù)庫會成為智能化AI的一個(gè)索引層,它會把底層所有的數(shù)據(jù)都智能化的管理起來,讓人類通過自然語言,通過向量去做交互?!彼a(bǔ)充道。

國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn)亮相,日處理1600億請求,對話騰訊云向量數(shù)據(jù)庫高管羅云▲中間為騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫副總經(jīng)理兼向量數(shù)據(jù)庫負(fù)責(zé)人羅云

AGI時(shí)代的數(shù)據(jù)中樞及既要有傳統(tǒng)數(shù)據(jù)路的企業(yè)級能力,更需要智能化升級。向量數(shù)據(jù)庫需要在可用性、分布式、性能、可靠性等六大能力方面,擁有新的要求,實(shí)現(xiàn)計(jì)算智能化、存儲智能化、接口智能化。

為了加速向量數(shù)據(jù)庫在企業(yè)的大規(guī)模應(yīng)用,騰訊云還推出了國內(nèi)“首個(gè)”端到端的向量數(shù)據(jù)庫解決方案,通過文本智能化分割、選擇向量化模型、幫助客戶建立索引,再經(jīng)智能化排序?qū)崿F(xiàn)端到端的數(shù)據(jù)接入體驗(yàn)。將端到端召回率提高30%,縮短數(shù)據(jù)接入AI的時(shí)間。

現(xiàn)階段,騰訊云已經(jīng)接入了百余項(xiàng)項(xiàng)目,同時(shí),騰訊已經(jīng)外部接入了千余家企業(yè)。例如,在SaaS領(lǐng)域,幫助企業(yè)客戶快速構(gòu)建私域知識庫、智能客服系統(tǒng);在電商行業(yè),使用向量數(shù)據(jù)庫來提升推薦、搜索、廣告業(yè)務(wù)的推薦效果;在出行行業(yè),使用向量數(shù)據(jù)庫來加速自動(dòng)駕駛模型訓(xùn)練,此外,在教育行業(yè)以及文創(chuàng)等行業(yè)也有廣泛應(yīng)用。

在產(chǎn)業(yè)創(chuàng)新方向上,他提到不少在向量數(shù)據(jù)庫廠商發(fā)力的點(diǎn)集中在在成本層的一些調(diào)優(yōu),且想要去做AI Native,AI原生的把智能化的東西做成一站式的向量數(shù)據(jù)庫??蛻粼谙蛄繑?shù)據(jù)庫的采購方面也并未卡在成本環(huán)節(jié),更多在思考怎么樣把自己的行業(yè)know-how和AI的整個(gè)技術(shù)站打通起來。

對于向量數(shù)據(jù)庫的版本迭代節(jié)奏,羅云計(jì)劃在未來的一年時(shí)間內(nèi)可能會把向量數(shù)據(jù)庫升級的節(jié)奏控制在三個(gè)月到六個(gè)月會有一個(gè)大的版本,再往后會隨著AI的進(jìn)展再去看。

結(jié)語:騰訊云加速向量數(shù)據(jù)庫大規(guī)模應(yīng)用

向量數(shù)據(jù)庫正在成為當(dāng)下大模型熱潮中底層技術(shù)突破重點(diǎn)。通過向量的方式存儲各式各樣的數(shù)據(jù),能夠讓大模型更快、更自然的理解相應(yīng)的數(shù)據(jù)內(nèi)容,從而給出更準(zhǔn)確、合適的內(nèi)容,幫助企業(yè)提高生產(chǎn)效率。

目前,我國的數(shù)據(jù)庫正呈多樣、豐富化的組合方式。騰訊云和信通院一起聯(lián)合50多家企業(yè)共同發(fā)布了國內(nèi)首個(gè)向量數(shù)據(jù)庫標(biāo)準(zhǔn),推進(jìn)向量數(shù)據(jù)庫及大模型相關(guān)產(chǎn)業(yè)走向大規(guī)模應(yīng)用。