智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

智東西11月20日報道,11月18日,國產(chǎn)數(shù)據(jù)庫玩家OceanBase發(fā)布并開源其首款A(yù)I數(shù)據(jù)庫OceanBase seekdb,全方位拉低AI開發(fā)門檻。

這正是其面對當(dāng)下AI應(yīng)用難題掏出的數(shù)據(jù)庫最新解法:支持向量、全文、標(biāo)量及空間地理數(shù)據(jù)的統(tǒng)一混合搜索,深度融合AI推理與數(shù)據(jù)處理,兼容Dify、Coze、LangChain、LlamaIndex等30余種主流AI框架。最終實現(xiàn)開發(fā)者僅需三行代碼,即可快速構(gòu)建知識庫、智能體等AI應(yīng)用,應(yīng)對百億級數(shù)據(jù)檢索。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

數(shù)據(jù)庫是AI應(yīng)用開發(fā)的核心底層支撐,直接決定應(yīng)用的性能、效率與落地能力。正如OceanBase CEO楊冰所說,AI這一產(chǎn)業(yè)發(fā)展的確定性拐點背后,不僅帶來了工具的升級,更是計算范式以及數(shù)據(jù)能力的重塑。

但當(dāng)下,企業(yè)數(shù)據(jù)存儲與處理正遭遇前所未有的復(fù)合型挑戰(zhàn):數(shù)據(jù)規(guī)模呈指數(shù)級激增,多模態(tài)數(shù)據(jù)形態(tài)日益復(fù)雜且與AI模型鏈接持續(xù)加深,這使得傳統(tǒng)數(shù)據(jù)庫在高并發(fā)檢索、跨模態(tài)處理、AI框架適配等方面的局限性愈發(fā)凸顯。AI原生數(shù)據(jù)庫幾乎已經(jīng)成為行業(yè)剛需。

OceanBase自成立之初就設(shè)定了核心目標(biāo)——打造世界級數(shù)據(jù)庫,而在當(dāng)下這個節(jié)點實現(xiàn)這一目標(biāo)需要解決的問題就是:生成式AI時代的數(shù)據(jù)庫應(yīng)該怎么做?如今,seekdb的發(fā)布就是其交出的又一份高分答卷,其不是在傳統(tǒng)數(shù)據(jù)庫上集成AI能力,而是以AI場景為核心,從0開始重構(gòu)一套AI原生混合搜索數(shù)據(jù)庫

而這份行業(yè)剛需的背后,是OceanBase多年的技術(shù)積淀,自2010年成立以來,它從深耕分布式數(shù)據(jù)庫技術(shù)到2020年開啟商業(yè)化征程,目前客戶數(shù)已突破4000,連續(xù)5年客戶數(shù)量年均增速超過100%,技術(shù)已深入金融、政務(wù)、通信、零售、制造、互聯(lián)網(wǎng)等十余領(lǐng)域,服務(wù)覆蓋16個國家和地區(qū)、60多個地域、240多個可用區(qū)。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

以seekdb為切入點,我們試圖回溯OceanBase十五年來的技術(shù)深耕軌跡,尤其在今年全面邁向AI時代的節(jié)點上,探究其正為整個數(shù)據(jù)庫行業(yè)勾勒出怎樣的全新敘事。

一、發(fā)布AI原生混合搜索數(shù)據(jù)庫,開發(fā)者構(gòu)建AI應(yīng)用門檻再降

用一句話總結(jié)AI原生混合搜索數(shù)據(jù)庫seekdb的目標(biāo),就是讓每個開發(fā)者都能低門檻、快速構(gòu)建和驗證AI應(yīng)用。

想要做到這一點,就需要直擊開發(fā)者的核心痛點:效能、部署門檻、兼容性

拆解來看,首先seekdb是AI原生混合搜索,支持通過原生SQL及Python SDK,同步完成結(jié)構(gòu)化過濾、關(guān)鍵詞匹配與向量語義計算。其內(nèi)置AI Function功能,允許開發(fā)者直接在數(shù)據(jù)庫內(nèi)調(diào)用大模型或向量處理函數(shù),實現(xiàn)存儲、索引、檢索、推理一站式閉環(huán)。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

這聚焦的是大規(guī)模多模數(shù)據(jù)的檢索效率瓶頸,基于這一能力,開發(fā)者即便面對百億級數(shù)據(jù)量,也能通過優(yōu)化的混合搜索與并行處理能力,避免因數(shù)據(jù)規(guī)模增長而導(dǎo)致應(yīng)用卡頓。

其次是部署門檻,seekdb最低起步配置僅需1核CPU、2GB內(nèi)存,支持pip install一鍵安裝、秒級啟動,兼容嵌入式與客戶端/服務(wù)器雙部署模式,可集成至Agent、開發(fā)工具鏈或本地應(yīng)用。

一般而言,開發(fā)者需要進行復(fù)雜的環(huán)境配置或底層調(diào)優(yōu),且在傳統(tǒng)數(shù)據(jù)庫層面還要進行搭建到適配的全流程操作,使得從開發(fā)到驗證的周期較長。

最后是兼容性,OceanBase將seekdb全面開源,無縫生態(tài)對接。其以Apache 2.0協(xié)議開源,開發(fā)者可自由使用、修改和擴展,同時提供Python、SDK及MySQL協(xié)議接口,完全兼容Dify、LangChain等30余種主流AI框架。同步開源的還包括PowerRAG智能文檔解析框架與PowerMem分層記憶架構(gòu),后者在權(quán)威LOCOMO評測中以78.79分達到SOTA水準(zhǔn),Token消耗較傳統(tǒng)方案降低96%。

此前,由于不同AI框架的接口規(guī)范、數(shù)據(jù)格式差異顯著,再加上AI應(yīng)用開發(fā)涉及數(shù)據(jù)預(yù)處理、向量生成、模型調(diào)用、檢索交互等多環(huán)節(jié),且各環(huán)節(jié)需適配不同工具,開發(fā)者往往需要重構(gòu)現(xiàn)有代碼進行集成,跨框架協(xié)作的適配成本較高。

歸根結(jié)底,seekdb的核心在于AI原生與混合搜索的深度融合:一方面,它以數(shù)據(jù)庫在AI時代面臨的核心挑戰(zhàn),如多模數(shù)據(jù)處理、低延遲檢索、框架適配等為突破點,構(gòu)建底層技術(shù)架構(gòu);另一方面,通過將AI能力與向量、全文、標(biāo)量等多類型數(shù)據(jù)統(tǒng)一檢索的混合搜索深度耦合,為AI應(yīng)用開發(fā)提供從數(shù)據(jù)存儲到智能交互的全鏈路支撐。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

楊傳輝認為,向量搜索只是AI數(shù)據(jù)庫的初級階段,最終所有的向量搜索都會逐步演進為混合搜索,能不能支持混合搜索是AI數(shù)據(jù)庫核心能力的分水嶺。

除此以外,楊冰還官宣了明年2月2日將正式發(fā)布OceanBase 4.4一體化融合商用LTS版本,其首次將TP、AP與AI能力集成于單一內(nèi)核。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

二、全面進軍AI時代,破解AI數(shù)據(jù)庫核心命題

回過頭來看,數(shù)據(jù)貫穿大模型訓(xùn)練、場景適配與技術(shù)迭代的全流程,直接影響模型性能突破,其核心命題早已不止于存儲數(shù)據(jù),更在于如何深度挖掘數(shù)據(jù)價值,讓數(shù)據(jù)實現(xiàn)更自然的存儲與流轉(zhuǎn)。

AI原生混合搜索數(shù)據(jù)庫正是在這一需求下應(yīng)運而生。傳統(tǒng)數(shù)據(jù)庫僅能滿足基礎(chǔ)存儲需求,已遠遠跟不上當(dāng)下AI的發(fā)展節(jié)奏,而生成式AI加成下的數(shù)據(jù)庫,能夠精準(zhǔn)理解數(shù)據(jù)語義,讓數(shù)據(jù)實現(xiàn)靈活調(diào)用與高效復(fù)用,更契合大模型的發(fā)展需求。

但AI對數(shù)據(jù)庫的重構(gòu)并不是一蹴而就的。在這樣的背景下,OceanBase在今年4月底就宣布全面進入AI時代,基于“Data x AI”核心能力,加速打造AI時代數(shù)據(jù)底座。我們可以從其最新的動向出發(fā),抽離出這家國產(chǎn)數(shù)據(jù)庫主力玩家在當(dāng)下的AI戰(zhàn)略布局,同時探討生成式AI浪潮下,數(shù)據(jù)庫行業(yè)面臨的核心挑戰(zhàn)。

進入AI時代,OceanBase一直在解答一個問題:生成式AI時代的數(shù)據(jù)庫應(yīng)該怎么做?其核心就是一體化數(shù)據(jù)庫。

其原因在于三大當(dāng)下的行業(yè)趨勢,一是AI在實際應(yīng)用中需要接收大量文本、數(shù)據(jù)、圖片、音頻等數(shù)據(jù)的混合輸入,還要基于單個客戶對話進行長期記憶;二是企業(yè)知識庫中存在結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),需要更好進行存儲,并結(jié)合RAG和大模型能力精準(zhǔn)定位、回答問題;三是多Agent協(xié)同的應(yīng)用發(fā)展加速,其會存儲簡單多模態(tài)數(shù)據(jù)還會在不同Agent之間協(xié)同工作。

在這樣的行業(yè)趨勢下,楊冰認為,未來AI數(shù)據(jù)庫應(yīng)該具備多模數(shù)據(jù)存儲、組裝式實時查詢引擎、實時多層存儲,以及混合事務(wù)分析引擎,而這與其一體化的理念不謀而合。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

因此相對應(yīng)的,OceanBase就確定了三大工程化路徑:多模態(tài)數(shù)據(jù)融合、多工作負載融合、數(shù)模融合。

存儲層面核心是實現(xiàn)多模態(tài)數(shù)據(jù)融合,將各類數(shù)據(jù)納入同一引擎管理,向上提供多維度數(shù)據(jù)視圖,滿足不同場景訪問需求;向下依托一套具備高擴展性、高穩(wěn)定性且低成本的底層引擎。

其次將TP、AP與搜索、AI相關(guān)負載深度融合,實現(xiàn)精準(zhǔn)高效的混合檢索,適配更復(fù)雜的業(yè)務(wù)場景。

最后數(shù)據(jù)灌入數(shù)據(jù)庫時,需完成高效向量化處理,檢索階段則依賴模型而非傳統(tǒng)規(guī)則,進而實現(xiàn)結(jié)果的精準(zhǔn)排序。同時要保障模型調(diào)用的精準(zhǔn)性,并推動數(shù)據(jù)庫與大模型推理過程深度整合,這一深度整合的過程,正催生全新的技術(shù)范式。OceanBase CTO楊傳輝提到,數(shù)據(jù)和模型融合,一定是未來的最大趨勢,在數(shù)據(jù)庫內(nèi)直接去集成模型能力,能夠大幅度降低模型開發(fā)和使用的復(fù)雜度。

因此,這三大方向相結(jié)合的重點,就是OceanBase持續(xù)打造的一體化AI原生數(shù)據(jù)庫。

這正是OceanBase在當(dāng)下,面向生成式AI時代對數(shù)據(jù)庫的最新思考,也是其在數(shù)據(jù)化轉(zhuǎn)型之路上開啟新篇章的里程碑。

三、OceanBase深耕15年,發(fā)力技術(shù)積累、商業(yè)化落地

最后將視角落回OceanBase本身,一個核心問題仍待解答:它究竟憑借何種核心能力,支撐起AI時代一體化數(shù)據(jù)庫的建設(shè)與落地?

答案可從三大關(guān)鍵維度拆解:核心理念的戰(zhàn)略指引、技術(shù)創(chuàng)新的深厚積累、商業(yè)化落地的實踐驗證。

2010年OceanBase誕生之日,其就將“打造世界級數(shù)據(jù)庫”作為技術(shù)理想。這一目標(biāo)已經(jīng)內(nèi)化到其技術(shù)迭代、場景落地的全流程中。而這份歷經(jīng)15年沉淀的布局,也為其在生成式AI時代高效落地AI原生數(shù)據(jù)庫,奠定了堅實基礎(chǔ)。

技術(shù)積累層面,OceanBase自誕生起便扎根世界級場景淬煉技術(shù),全程支撐支付寶核心交易體系。目前它已全面承載支付寶所有核心賬務(wù)與核心支付系統(tǒng),連續(xù)十余年穩(wěn)定扛住雙11流量洪峰。

從0到1重構(gòu)AI原生數(shù)據(jù)庫,不再讓AI應(yīng)用開發(fā)困于數(shù)據(jù)

正是在這樣的嚴(yán)苛考驗中,OceanBase的數(shù)據(jù)庫技術(shù)不斷迭代升級,最終在核心技術(shù)領(lǐng)域斬獲多項行業(yè)第一。

例如,其是全球唯一刷新過TPC-C和TPC-H測試世界紀(jì)錄的分布式數(shù)據(jù)庫、OceanBase 4.0是業(yè)內(nèi)首個單機分布式一體化數(shù)據(jù)庫、打造了業(yè)內(nèi)首個基于對象存儲面向OLTP的多云原生數(shù)據(jù)庫等,同時OceanBase向量數(shù)據(jù)庫能力躋身DB-Engines全球前十,2025年16篇論文被ICDE、VLDB、SIGMOD等數(shù)據(jù)庫頂會收錄。

2020年,OceanBase邁入發(fā)展關(guān)鍵節(jié)點,正式開啟了商業(yè)化。這不僅是其業(yè)務(wù)版圖的重要拓展,更是檢驗自身技術(shù)落地能力的試金石。

依托專有云和公有云雙輪驅(qū)動的戰(zhàn)略,目前,OceanBase全球客戶數(shù)已突破4000家,專有云客戶數(shù)增長50%,涵蓋金融、政企等核心企業(yè);公有云客戶數(shù)年均增長115%,營收占比已達30%,已穩(wěn)定運行于阿里云、華為云、騰訊云、百度智能云、AWS、Azure、GCP七大主流云基礎(chǔ)設(shè)施,在零售、金融科技、消費電子和泛互聯(lián)網(wǎng)行業(yè)規(guī)?;涞亍?/p>

歷經(jīng)技術(shù)沉淀與商業(yè)化落地,OceanBase已邁入全新發(fā)展節(jié)點,正式向全球化布局與AI深度融合兩大方向全面進階。

楊冰提到,AI技術(shù)的爆發(fā)式發(fā)展為數(shù)據(jù)庫行業(yè)帶來全新需求,而中國在AI應(yīng)用落地、數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)上的快速推進,疊加海量數(shù)據(jù)的規(guī)模優(yōu)勢,正為國內(nèi)數(shù)據(jù)庫廠商創(chuàng)造更大發(fā)展機遇。

15年深耕,OceanBase從原生分布式數(shù)據(jù)庫到一體化架構(gòu)顛覆,再到TP、AP與AI深度融合塑造DataxAI能力,這正是其全面進入AI時代,洞察開發(fā)者核心痛點并交出高分答卷的關(guān)鍵。

結(jié)語:AI時代,中國自研力量發(fā)力

AI時代,數(shù)據(jù)庫承載的能力正經(jīng)歷顛覆性變革。OceanBase正一步一個腳印,將這些變化轉(zhuǎn)化為技術(shù)突破與產(chǎn)品實力,成為AI時代數(shù)據(jù)處理的堅實底座。

當(dāng)下從大模型、AI應(yīng)用到底層的算力、數(shù)據(jù)庫等,中國自研技術(shù)的行業(yè)影響力與日俱增,從可用、好用到甚至趕超海外領(lǐng)先水平,OceanBase正是國產(chǎn)數(shù)據(jù)庫廠商中的典型代表。