智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 漠影

“投入幾百萬采購算力及大模型,AI應(yīng)用依然跑不起來?!蹦硞鹘y(tǒng)行業(yè)公司CTO的吐槽,折射出當(dāng)前企業(yè)AI落地的普遍困境。

當(dāng)DeepSeek掀起的大模型平權(quán)潮到來,企業(yè)逐漸意識(shí)到:功能趨同的模型已難形成差異化競爭力,而雜亂無章的數(shù)據(jù)正成為AI價(jià)值釋放的最大瓶頸。數(shù)據(jù)孤島嚴(yán)重,決策延遲導(dǎo)致?lián)p失;數(shù)據(jù)存儲(chǔ)模型單一,不同模型無法統(tǒng)一存放調(diào)用;數(shù)據(jù)質(zhì)量差,帶來嚴(yán)重預(yù)測(cè)偏差率……

企業(yè)數(shù)據(jù)現(xiàn)狀與AI需求嚴(yán)重錯(cuò)位,何解?

一、AI競爭范式轉(zhuǎn)移:數(shù)據(jù)質(zhì)量取代模型選型

產(chǎn)業(yè)正在形成新共識(shí):數(shù)據(jù)管理能力正取代模型選型,成為AI核心競爭力。

當(dāng)下,大模型參數(shù)量級(jí)躍升,訓(xùn)練及推理數(shù)據(jù)需求指數(shù)增長,多模態(tài)數(shù)據(jù)融合成剛需。然而,企業(yè)80%的非結(jié)構(gòu)化數(shù)據(jù)沉睡在孤島中,工業(yè)設(shè)備數(shù)據(jù)利用率不足5%……當(dāng)AI亟需“高質(zhì)量燃料”時(shí),多數(shù)企業(yè)的數(shù)據(jù)引擎仍停留在“蒸汽時(shí)代”。

Gartner最新研究報(bào)告指出:“特定的LLM將不再被視為企業(yè)成功的主要區(qū)別因素。取而代之的是,其他企業(yè)很難獲得或復(fù)制的獨(dú)特內(nèi)部數(shù)據(jù)將成為成功AI旅程的唯一競爭力來源?!?span style="color: #0f59a4;">在AI技術(shù)深度普及的今天,私有數(shù)據(jù)的獨(dú)特性、實(shí)時(shí)性、領(lǐng)域知識(shí)密度,才是AI應(yīng)用的真正護(hù)城河。

換句話說,模型可以采購,但數(shù)據(jù)能力必須自建。

正值此時(shí),行業(yè)悄然興起的新概念——AI-Ready Data Platform,正重新定義數(shù)據(jù)基礎(chǔ)設(shè)施標(biāo)準(zhǔn):

1、多模態(tài)融合:統(tǒng)一管理關(guān)系型表、向量、圖、時(shí)序等多種數(shù)據(jù)模型;

2、全鏈路治理:非結(jié)構(gòu)化數(shù)據(jù)→結(jié)構(gòu)化轉(zhuǎn)化→質(zhì)量管控→領(lǐng)域知識(shí)提煉→AI應(yīng)用;

3、實(shí)時(shí)洞察:端到端數(shù)據(jù)分析延時(shí)從“T+1天”提速至“T+1秒”,數(shù)據(jù)落地即分析。

對(duì)于企業(yè)來說,這不僅是技術(shù)的升級(jí),更是一場(chǎng)思維的迭代更新。

過去企業(yè)數(shù)據(jù)架構(gòu)以“事務(wù)處理”為核心設(shè)計(jì)(如Oracle),現(xiàn)在需轉(zhuǎn)向以“AI消費(fèi)”為中心——這意味著數(shù)據(jù)平臺(tái)需具備三大新能力:毫秒級(jí)響應(yīng)、非結(jié)構(gòu)化理解、跨模型關(guān)聯(lián)計(jì)算。

星環(huán)科技于5月27日推出的新一代AI Infra,是一套完整的AI基礎(chǔ)設(shè)施技術(shù)架構(gòu),正是圍繞“AI-Ready Data Platform”概念,為企業(yè)提供“外腦”的幫助。

據(jù)悉,星環(huán)新一代AI Infra包含四大核心平臺(tái): Knowledge Platform(知識(shí)平臺(tái))、AI Platform(AI平臺(tái))、AI-Ready Data Platform(AI就緒數(shù)據(jù)平臺(tái))和Resources Platform(資源平臺(tái)),能助企業(yè)適應(yīng)AI競爭。

大模型平權(quán)時(shí)代:企業(yè)AI決戰(zhàn)“數(shù)據(jù)就緒”新戰(zhàn)場(chǎng)

可以說,這不僅是一套完整的AI基礎(chǔ)設(shè)施技術(shù)架構(gòu),更是一次關(guān)于未來企業(yè)智能化如何落地的系統(tǒng)性思考。

二、多模融合數(shù)據(jù)平臺(tái),破解數(shù)據(jù)“三無”困境

作為星環(huán)科技AI Infra的核心構(gòu)成,AI-Ready Data Platform是一個(gè)AI賦能的數(shù)據(jù)平臺(tái),提供多模型數(shù)據(jù)的統(tǒng)一存儲(chǔ)和處理能力。

1、架構(gòu)革命:從“數(shù)據(jù)倉庫”到“多模融合平臺(tái)”

過去,企業(yè)往往選用不同架構(gòu)處理文本、存圖譜、做分析,導(dǎo)致數(shù)據(jù)冗余率居高不下,跨模型分析需人工搬運(yùn)。多模統(tǒng)一架構(gòu)將異構(gòu)數(shù)據(jù)查詢歸約為單入口操作,使開發(fā)效率大大提升。

面向大模型時(shí)代的多模態(tài)數(shù)據(jù)需求,星環(huán)科技推出的AI-Ready Data Platform支持向量、圖、文檔、全文索引、關(guān)系型表等多種數(shù)據(jù)模型,為AI應(yīng)用提供豐富的數(shù)據(jù)基礎(chǔ)。

同時(shí),平臺(tái)實(shí)現(xiàn)了統(tǒng)一接口、統(tǒng)一計(jì)算引擎、統(tǒng)一存儲(chǔ)、統(tǒng)一資源管理,形成了完整的統(tǒng)一技術(shù)架構(gòu),用戶可以在接口和計(jì)算層屏蔽所有異構(gòu)數(shù)據(jù)帶來的差異化,以統(tǒng)一形態(tài)滿足目前以及未來各類垂直大模型場(chǎng)景的落地需求。

AI-Ready Data Platform還支持非結(jié)構(gòu)化數(shù)據(jù)處理,能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù),解決企業(yè)80%以上的非結(jié)構(gòu)化數(shù)據(jù)難以利用的問題。

早在2020年,星環(huán)科技就實(shí)現(xiàn)多模型統(tǒng)一架構(gòu)技術(shù)突破。至2023年分布式向量數(shù)據(jù)庫發(fā)布,其平臺(tái)已覆蓋關(guān)系型、向量、圖、時(shí)序等11類主流數(shù)據(jù)模型。該公司連續(xù)兩年獲評(píng)Gartner“數(shù)據(jù)庫產(chǎn)品品類最多的廠商之一”,并于國內(nèi)首批通過中國信通院“多模數(shù)據(jù)庫產(chǎn)品評(píng)測(cè)”。

2、數(shù)據(jù)治理自動(dòng)化:AI反哺數(shù)據(jù)提質(zhì)、知識(shí)沉淀

面向數(shù)據(jù)全鏈路治理痛點(diǎn),星環(huán)AI-Ready Data Platform提供高效數(shù)據(jù)治理能力,確保數(shù)據(jù)的準(zhǔn)確性、一致性和可用性;同時(shí),AI-Ready Data Platform強(qiáng)調(diào)特定領(lǐng)域知識(shí),將數(shù)據(jù)模型轉(zhuǎn)化為知識(shí),提取和沉淀領(lǐng)域知識(shí),為AI應(yīng)用提供知識(shí)基礎(chǔ)。

值得一提的是,星環(huán)科技通過AI賦能實(shí)現(xiàn)數(shù)字治理的全面自動(dòng)化。其以知識(shí)工程為核心,構(gòu)建了一套全面自動(dòng)化、高效且精準(zhǔn)的解決方案,助力企業(yè)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的深度挖掘與高效利用。

具體來說,AI-Ready Data Platform語料平臺(tái)支持多源數(shù)據(jù)采集(含PDF、Word等多種格式及網(wǎng)絡(luò)/內(nèi)部數(shù)據(jù)),可自動(dòng)提取標(biāo)準(zhǔn)名稱、編號(hào)、發(fā)布單位等關(guān)鍵信息,并實(shí)現(xiàn)智能分類。其知識(shí)工程平臺(tái)進(jìn)一步解析文本、表格及圖像內(nèi)容,通過AI技術(shù)抽取數(shù)據(jù)項(xiàng)、定義等要素,構(gòu)建含數(shù)據(jù)字典、質(zhì)量規(guī)則的知識(shí)庫,支持動(dòng)態(tài)更新維護(hù)。

上述能力通過AI數(shù)據(jù)治理MCP Server集成封裝,實(shí)現(xiàn)數(shù)據(jù)治理工具與AI的深度協(xié)同,顯著提升治理效率與智能化水平。

3、實(shí)時(shí)能力:AI決策的“生死線”

面對(duì)實(shí)時(shí)能力這一AI決策的“生死線”,星環(huán)AI-Ready Data Platform支持全流程實(shí)時(shí)數(shù)據(jù)洞察:實(shí)時(shí)接入、實(shí)時(shí)處理、實(shí)時(shí)分析,滿足企業(yè)對(duì)數(shù)據(jù)時(shí)效性的高要求。

據(jù)悉,星環(huán)科技湖倉集平臺(tái)支持端到端秒級(jí)數(shù)據(jù)分析。其通過統(tǒng)一的存儲(chǔ)、資源管理、計(jì)算引擎及接口,同時(shí)支持批處理、交互分析、實(shí)時(shí)處理與在線服務(wù)四類場(chǎng)景,端到端數(shù)據(jù)處理時(shí)延從“T+1”天降至秒級(jí)。

大模型平權(quán)時(shí)代:企業(yè)AI決戰(zhàn)“數(shù)據(jù)就緒”新戰(zhàn)場(chǎng)

在100TB TPC-DS測(cè)試中,其分析性能較Databricks(Photon)提升100%,硬件成本降低50%。該架構(gòu)自2017年迭代至2022年湖倉集一體階段,數(shù)據(jù)集市性能持平或優(yōu)于獨(dú)立方案,目前已落地?cái)?shù)百個(gè)客戶。

分布式時(shí)序數(shù)據(jù)庫Timelyre 9.3支持PB級(jí)時(shí)序數(shù)據(jù)秒級(jí)分析(性能提升10倍),適用于傳感器、金融交易、系統(tǒng)日志、生產(chǎn)設(shè)備等實(shí)時(shí)場(chǎng)景。通過線性擴(kuò)展架構(gòu)與5-20倍無損壓縮,其能夠?qū)崿F(xiàn)EB級(jí)存儲(chǔ)支持及大幅成本優(yōu)化。

總的來說,AI-Ready Data Platform可以助企業(yè)破解數(shù)據(jù)“三無(無統(tǒng)一、無質(zhì)量、無時(shí)效)”困境。

這些能力通過星環(huán)科技的多款產(chǎn)品得以實(shí)現(xiàn),包括Transwarp Corpus Studio(星環(huán)語料開發(fā)工具)、Transwarp Data Studio星環(huán)數(shù)據(jù)開發(fā)工具)、Transwarp Data Hub(星環(huán)一站式多模型大數(shù)據(jù)平臺(tái))和Transwarp Knowledge Hub(星環(huán)知識(shí)平臺(tái))。

大模型平權(quán)時(shí)代:企業(yè)AI決戰(zhàn)“數(shù)據(jù)就緒”新戰(zhàn)場(chǎng)

可以推測(cè),未來三年將是AI數(shù)據(jù)平臺(tái)升級(jí)潮的加速期,各行各業(yè)的企業(yè)都需要考慮將“AI-Ready Data”置于戰(zhàn)略優(yōu)先級(jí)。

做AI應(yīng)用就像烹飪,食材好,飯菜才好吃。當(dāng)數(shù)據(jù)成為更加高價(jià)值的資產(chǎn),每一個(gè)企業(yè)都需要構(gòu)建一個(gè)AI-Ready Data Platform這樣的“數(shù)據(jù)食材處理中心”,為AI的應(yīng)用做好準(zhǔn)備。

三、一站式解決企業(yè)六大痛點(diǎn),落地金融等行業(yè)

多模態(tài)數(shù)據(jù)“食材”一切就緒,下一步還需要進(jìn)入“智能廚房”。

星環(huán)科技推出的Sophon LLMOps 1.6 AI平臺(tái)正是這樣一個(gè)“智能廚房”,助企業(yè)用處理好的食材烹飪AI應(yīng)用。

Sophon LLMOps統(tǒng)一管理空間、模型、算力、數(shù)據(jù)及工具,實(shí)現(xiàn)智能體驅(qū)動(dòng)的AI全流程運(yùn)營。其四大核心模塊協(xié)同支撐AI生命周期:

1、星鑄(模型開發(fā)):支持Hugging Face模型一鍵導(dǎo)入部署,具備自動(dòng)量化與推理加速能力,兼容國產(chǎn)GPU及多環(huán)境管理;

2、星典(知識(shí)工程):提供知識(shí)構(gòu)建、融合與治理全流程管理,支撐業(yè)務(wù)語義理解;

3、星解(語料工程):實(shí)現(xiàn)語料資產(chǎn)化、標(biāo)準(zhǔn)化與分布式處理,保障訓(xùn)練數(shù)據(jù)供給;

4、星構(gòu)(應(yīng)用開發(fā)):支持智能體/插件靈活編排,通過MCP協(xié)議快速集成業(yè)務(wù)系統(tǒng)。

大模型平權(quán)時(shí)代:企業(yè)AI決戰(zhàn)“數(shù)據(jù)就緒”新戰(zhàn)場(chǎng)

其核心解決六大企業(yè)痛點(diǎn):

1、多模型適配難:統(tǒng)一納管機(jī)制簡化集成;

2、算力資源短缺:智能調(diào)度優(yōu)化利用率;

3、語料供給不足:星解模塊實(shí)現(xiàn)專業(yè)供給;

4、應(yīng)用準(zhǔn)確度低:知識(shí)工程+模型優(yōu)化提升可靠性;

5、傳統(tǒng)架構(gòu)轉(zhuǎn)型難:適配AI新范式需求;

6、分散建設(shè)成本高:統(tǒng)一平臺(tái)降低冗余投入。

企業(yè)可基于Sophon LLMOps構(gòu)建客服助手、合規(guī)分析等跨部門智能應(yīng)用,通過集中化管理實(shí)現(xiàn)資源可控、流程規(guī)范與資產(chǎn)復(fù)用,加速AI規(guī)模化落地。

總的來說,數(shù)據(jù)平臺(tái)解決“AI無米之炊”,Sophon LLMOps解決“應(yīng)用落地之困”,二者共同實(shí)現(xiàn) “高質(zhì)量數(shù)據(jù)→高價(jià)值應(yīng)用” 的轉(zhuǎn)化,缺一不可。

從理論到實(shí)踐,星環(huán)科技的新一代AI Infra已經(jīng)在實(shí)際應(yīng)用中加速落地。

比如在金融領(lǐng)域,某銀行通過星環(huán)科技構(gòu)建企業(yè)級(jí)知識(shí)庫,解決數(shù)據(jù)治理復(fù)雜、語料缺乏及知識(shí)孤島問題。該銀行基于Sophon LLMOps平臺(tái)星典、星解,實(shí)現(xiàn)知識(shí)資產(chǎn)全流程管理,形成覆蓋指標(biāo)、制度、運(yùn)營、客服四大場(chǎng)景及金融通用知識(shí)的“4+1”體系,支撐智能問答、信貸風(fēng)控、財(cái)務(wù)分析等十余類應(yīng)用。

結(jié)語:大模型平權(quán)呼喚全新AI Infra

當(dāng)下,大模型的平權(quán)正在加速,一場(chǎng)關(guān)于數(shù)據(jù)基礎(chǔ)設(shè)施的暗戰(zhàn)已然打響。企業(yè)需要清醒認(rèn)識(shí)到:沒有AI-Ready的數(shù)據(jù),就沒有真正的AI競爭力。

當(dāng)行業(yè)集體從“模型狂熱”轉(zhuǎn)向“數(shù)據(jù)務(wù)實(shí)”,新一代基礎(chǔ)設(shè)施的較量,將決定誰是智能化時(shí)代的真正贏家。星環(huán)科技推出的AI-Ready Data Platform、Sophon LLMOps等平臺(tái),為企業(yè)的數(shù)據(jù)就緒提供了有力抓手。

但這不是單純的技術(shù)采購,而是企業(yè)運(yùn)營模式的重構(gòu)。當(dāng)數(shù)據(jù)就緒度成為新KPI,2025年或許將見證兩類企業(yè)的分野:用新一代AI Infra打破“數(shù)據(jù)詛咒”的領(lǐng)跑者,與困在模型幻影中的追趕者。