12月5-6日,由智猩猩與智東西聯(lián)合主辦的2024中國(guó)生成式AI大會(huì)(上海站)在上海圓滿收官。在第二日主會(huì)場(chǎng)進(jìn)行的「AI Infra峰會(huì)」上,楓清科技創(chuàng)始?兼CEO高雪峰以《從數(shù)據(jù)到知識(shí):AI 重塑百行千業(yè)的基石》為主題發(fā)表了主題演講。

在演講中,高雪峰談到要將生成式AI真正應(yīng)用到企業(yè)決策場(chǎng)景中,彌合其與決策智能之間鴻溝的技術(shù)突破點(diǎn),就是利用好企業(yè)本地知識(shí),同時(shí)將符號(hào)邏輯推理的能力和各種大模型的算法能力相融合。

隨后,高雪峰指出企業(yè)智能化的核心趨勢(shì),正在從以模型為中心(Model-Centric)的人工智能架構(gòu)落地范式,轉(zhuǎn)向以數(shù)據(jù)為中心(Data-Centric)這一新的人工智能落地范式。他總結(jié)了企業(yè)智能化面臨的四個(gè)典型困境:模型幻覺、可解釋性、推理能力弱、安全與合規(guī);以及企業(yè)級(jí)人工智能平臺(tái)場(chǎng)景落地需要解決的四個(gè)技術(shù)挑戰(zhàn):數(shù)據(jù)孤島、數(shù)據(jù)整合、知識(shí)校驗(yàn)、實(shí)時(shí)性與時(shí)效。

為此,他在演講中表示,楓清科技可以為企業(yè)提供知識(shí)引擎與大模型雙輪驅(qū)動(dòng)的新一代智能體平臺(tái),通過(guò)構(gòu)建全鏈路優(yōu)化體系,幫助企業(yè)提升數(shù)據(jù)質(zhì)量,將企業(yè)本地?cái)?shù)據(jù)知識(shí)化,并融合大模型沉淀的泛化知識(shí),在知識(shí)網(wǎng)絡(luò)之上進(jìn)行符號(hào)邏輯推理,實(shí)現(xiàn)可解釋的智能,進(jìn)而使AI在多個(gè)場(chǎng)景下能夠?qū)崿F(xiàn)精準(zhǔn)、透明的決策支持,推動(dòng)企業(yè)智能化轉(zhuǎn)型的順利實(shí)施。

之后,他重點(diǎn)介紹了楓清科技助力企業(yè)智能化落地實(shí)現(xiàn)的兩個(gè)示例,分別是為金融企業(yè)客戶打造的智能指標(biāo)問(wèn)數(shù)這一示例,以及為APEC會(huì)議開發(fā)的中國(guó)-APEC數(shù)字平臺(tái)這一示例。同時(shí),他也分享了為頭部央企提供企業(yè)級(jí)知識(shí)引擎和智能體平臺(tái),從而推動(dòng)其智能化轉(zhuǎn)型這一合作案例。

演講最后高雪峰透露,今年4月份以來(lái)?xiàng)髑蹇萍家呀?jīng)跟金融、化工能源、汽車制造等行業(yè)的多家頭部央企展開深入合作,進(jìn)行人工智能場(chǎng)景平臺(tái)的落地。

以下為高雪峰的演講全文:

各位來(lái)賓,下午好!今天很開心在這與大家一起探討當(dāng)下最熱的話題:如何將人工智能技術(shù)真正應(yīng)用于千行百業(yè),真正發(fā)揮其作為“新質(zhì)生產(chǎn)力”的核心作用。。所以,我今天給大家?guī)?lái)的演講題目是《從數(shù)據(jù)到知識(shí):AI 重塑百?千業(yè)的基石》。

首先,我簡(jiǎn)單自我介紹下,我是高雪峰,楓清科技的創(chuàng)始人。在創(chuàng)辦楓清科技之前,我曾擔(dān)任IBM認(rèn)知計(jì)算解決方案研究院院長(zhǎng),后來(lái)加入了阿里云,負(fù)責(zé)阿里云大數(shù)據(jù)和人工智能的技術(shù)產(chǎn)品。我一直在在大數(shù)據(jù)、人工智能和ToB企業(yè)市場(chǎng)領(lǐng)域摸爬滾打了大概20多年。因此,在2021年創(chuàng)辦楓清科技時(shí),我們一直堅(jiān)持三個(gè)至今未變的原則:

1.我們?cè)?2021 年談到未來(lái)的人工智能以及 AGI 時(shí),就曾跟大家說(shuō),將大模型與大圖融合在一起,才能構(gòu)建未來(lái)AGI的基礎(chǔ)。也就我們所說(shuō)的,將符號(hào)邏輯推理與連接主義的概率融合在一起,才能夠構(gòu)建真正的人工智能。

2.一定要以數(shù)據(jù)為中心,從數(shù)據(jù)的角度出發(fā),構(gòu)建未來(lái)人工智能的基礎(chǔ)平臺(tái)。

3.堅(jiān)持ToB領(lǐng)域的深耕。這條路雖然慢,但這一領(lǐng)域能真正帶來(lái)實(shí)際的生產(chǎn)力價(jià)值和長(zhǎng)期回報(bào)。

一、信息化到智能化:人工智能的三大階段

首先,我們來(lái)看一下人工智能的發(fā)展趨勢(shì)。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

為什么我剛才說(shuō),我們?cè)?021年與投資人、客戶交流時(shí),都在強(qiáng)調(diào)“大模型與大圖的融合”才是未來(lái)通往AGI的基礎(chǔ)?我們可以看到,自從1956年人工智能這個(gè)概念被達(dá)特茅斯會(huì)議提出到現(xiàn)在,連接主義和符號(hào)主義兩種技術(shù)交替發(fā)展。任何單一技術(shù)都難以獨(dú)占鰲頭,也無(wú)法靠單獨(dú)的技術(shù)實(shí)現(xiàn)未來(lái)的通用人工智能。

因此,我們說(shuō)深度學(xué)習(xí),包括當(dāng)下火熱的大模型,都以Transformer技術(shù)為基礎(chǔ),是概率體系的典型技術(shù)代表。所以,去年大模型火爆出圈,所有人都認(rèn)為連接主義、Transformer一定是未來(lái),能夠帶來(lái)真正的智能涌現(xiàn),帶來(lái)AGI。這是業(yè)界一直以來(lái)的一種聲音。

但是,當(dāng)我們將生成式人工智能技術(shù)應(yīng)用到企業(yè)決策場(chǎng)景當(dāng)中時(shí),就會(huì)發(fā)現(xiàn),真正的決策智能是不可能僅由生成式智能這一單一的技術(shù)來(lái)實(shí)現(xiàn)的。所以,如何跨越生成式人工智能到?jīng)Q策智能之間的鴻溝,真正讓人工智能的技術(shù)在企業(yè)場(chǎng)景側(cè)發(fā)揮價(jià)值,是我們當(dāng)下最需要突破的核心技術(shù)點(diǎn)。當(dāng)下在這個(gè)領(lǐng)域,有非常多的技術(shù)嘗試和挑戰(zhàn),包括OpenAI新推出的GPT-o1,也不再追求參數(shù)越來(lái)越大的智能涌現(xiàn),而是在推理的框架側(cè)進(jìn)行符號(hào)邏輯推理與概率體系的深度融合。

再看下面,為什么剛才我說(shuō),我們?cè)趫?jiān)持“以數(shù)據(jù)為核心”推動(dòng)智能場(chǎng)景落地。可以看到,從最開始的信息化時(shí)代,到數(shù)字化時(shí)代,到我們一直堅(jiān)信的未來(lái)智能化的時(shí)代,都涌現(xiàn)出了非常知名的數(shù)據(jù)基礎(chǔ)設(shè)施的體系和標(biāo)準(zhǔn)。

在信息化時(shí)代,典型的代表是關(guān)系型數(shù)據(jù)庫(kù),涌現(xiàn)出了Oracle、DB2,以及一直延續(xù)到現(xiàn)在的NewSQL體系的關(guān)系型數(shù)據(jù)庫(kù),這些都是在信息化時(shí)代最偉大的沉淀。

回到數(shù)字化的時(shí)代,在互聯(lián)網(wǎng)蓬勃發(fā)展的這些年,我們一直在強(qiáng)調(diào)、追求數(shù)字價(jià)值驅(qū)動(dòng)企業(yè)決策。在這個(gè)時(shí)候,也涌現(xiàn)出了許多非常優(yōu)秀的數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品,如數(shù)倉(cāng)、數(shù)據(jù)湖、智能湖倉(cāng)等,都是這個(gè)領(lǐng)域典型的代表。

未來(lái),當(dāng)智能場(chǎng)景涌現(xiàn)在千行百業(yè)的時(shí)候,在智能化時(shí)代,也一定會(huì)有屬于它的數(shù)據(jù)基礎(chǔ)設(shè)施的形態(tài)。那么,這種數(shù)據(jù)基礎(chǔ)設(shè)施的形態(tài),與從生成式人工智能到?jīng)Q策智能之間的演進(jìn)路徑,是否有天然的結(jié)合點(diǎn)呢?這就是我們一直在探索、研究和實(shí)踐的技術(shù)領(lǐng)域。

二、企業(yè)智能化趨勢(shì):從Model-Centric轉(zhuǎn)向Data-Centric

今年4月份,國(guó)家把“人工智能+”寫進(jìn)了政府工作報(bào)告當(dāng)中,正式揭開了所有企業(yè)級(jí)的場(chǎng)景在行業(yè)中真正擁抱人工智能技術(shù)、帶來(lái)生產(chǎn)力變革的序幕。我們也跟很多龍頭企業(yè)、央國(guó)企展開了合作,幫助它們把包括生成式人工智能在內(nèi)的多種人工智能算法和分析技術(shù),結(jié)合企業(yè)本地的數(shù)據(jù),在業(yè)務(wù)場(chǎng)景中真正發(fā)揮價(jià)值,嘗試向決策智能邁進(jìn)。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

在此前提之下,我們認(rèn)識(shí)到,在企業(yè)業(yè)務(wù)場(chǎng)景當(dāng)中單獨(dú)去進(jìn)行模型微調(diào),或者簡(jiǎn)單地圍繞模型或企業(yè)數(shù)據(jù)的進(jìn)行RAG檢索,很難滿足客戶在業(yè)務(wù)場(chǎng)景中的真正需求。

今天,我們看到海外已經(jīng)有很多聲音,不再追求模型參數(shù)越來(lái)越大所產(chǎn)生的智能涌現(xiàn)。大家已經(jīng)越來(lái)越少地談?wù)撨@件事情,而是開始關(guān)注如何在推理框架的能力上,將符號(hào)邏輯推理能力與生成式連接主義技術(shù)融合,嘗試進(jìn)行技術(shù)突破。

大家一直以來(lái)堅(jiān)持的以模型為中心(Model-Centric)的人工智能架構(gòu)落地的范式,在ToB的業(yè)務(wù)場(chǎng)景中也已經(jīng)開始慢慢地轉(zhuǎn)向以數(shù)據(jù)為中心(Data-Centric)的新的人工智能落地范式。

三、企業(yè)智能化的4個(gè)現(xiàn)實(shí)困境與4大技術(shù)挑戰(zhàn)

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

所以,企業(yè)的智能化落地會(huì)有哪些典型的落地困境?

第一個(gè)是模型幻覺。大模型會(huì)一本正經(jīng)的胡說(shuō)八道。有一些我們的企業(yè)客戶跟我反饋,這叫大模型的“腦誤”。這個(gè)問(wèn)題在企業(yè)決策的場(chǎng)景當(dāng)中,是必須要解決的。

第二個(gè)是可解釋性當(dāng)企業(yè)決策智能給出決策建議或輔助建議時(shí),缺乏透明的思考邏輯和決策依據(jù)。企業(yè)的決策者很難真正地相信這些建議并據(jù)此做出相應(yīng)的行動(dòng)和決策。

第三個(gè)是推理能力弱。僅靠?Transformer的概率連接主義,很難增強(qiáng)其推理能力,所以我們需要把符號(hào)邏輯推理的能力融入到落地的技術(shù)平臺(tái)當(dāng)中。

最后一個(gè)是安全與合規(guī)性。許多企業(yè)都面臨同樣的需求:部門A與子公司A或B的數(shù)據(jù)通常不允許互通。那么,如何將這些數(shù)據(jù)全部用于大模型的微調(diào)(Fine-Tune),又能單獨(dú)為各部門和子公司提供智能決策建議呢?目前的技術(shù)無(wú)法同時(shí)滿足這兩個(gè)要求。因?yàn)橹灰獙⑺袛?shù)據(jù)用于同一個(gè)大模型的微調(diào),無(wú)論采用何種方式,都可能通過(guò)提示詞(Prompts)提取出其他部門或子公司企業(yè)的數(shù)據(jù)。因此,要確保數(shù)據(jù)安全與合規(guī),實(shí)現(xiàn)對(duì)知識(shí)進(jìn)行細(xì)粒度的權(quán)限控制,是企業(yè)級(jí)智能化平臺(tái)落地必須要滿足的需求。

如果想要解決剛才說(shuō)的四個(gè)困境,企業(yè)級(jí)人工智能平臺(tái)落地時(shí)會(huì)遇到哪些具體的技術(shù)挑戰(zhàn)呢?

第一個(gè)是數(shù)據(jù)孤島。我原來(lái)在阿里的時(shí)候,負(fù)責(zé)大數(shù)據(jù)產(chǎn)品,也就是飛天大數(shù)據(jù),是阿里當(dāng)時(shí)非常有名的登月系統(tǒng)。我們把阿里所有子公司的數(shù)據(jù)全部匯聚到MaxCompute大數(shù)據(jù)平臺(tái)之上,當(dāng)時(shí)耗費(fèi)了18個(gè)月的時(shí)間,我們把它稱為“登月”。那么現(xiàn)在,對(duì)一個(gè)大型企業(yè)來(lái)說(shuō),僅將結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)孤島全集中到一個(gè)大型數(shù)據(jù)倉(cāng)庫(kù)中,就已經(jīng)是一件無(wú)法完成的的任務(wù)。更別說(shuō)把企業(yè)閑置的80%以上的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行匯聚或連通,這一看就是很難完成的任務(wù)。

第二個(gè)是數(shù)據(jù)整合。比如說(shuō),銀行里存儲(chǔ)的每個(gè)人的身份證信息,與其數(shù)據(jù)庫(kù)表中該人對(duì)應(yīng)的貸款、存款等信息之間存在實(shí)際的關(guān)聯(lián)關(guān)系。那結(jié)構(gòu)化數(shù)據(jù)表和非結(jié)構(gòu)化數(shù)據(jù)的各種屬性之間存在隱含的知識(shí)網(wǎng)絡(luò)連接。所以,如何把數(shù)據(jù)整合起來(lái),是一個(gè)非常大的挑戰(zhàn)。

第三個(gè)是知識(shí)校驗(yàn),如何將企業(yè)本地?cái)?shù)據(jù)實(shí)現(xiàn)真正的知識(shí)化?在這里提到的不是單純的向量化,而是真正地實(shí)現(xiàn)數(shù)據(jù)的知識(shí)化。也就是說(shuō),如何利用企業(yè)數(shù)據(jù),包括元數(shù)據(jù),語(yǔ)義信息以及數(shù)據(jù)之間的關(guān)系等,構(gòu)建出一個(gè)龐大的知識(shí)網(wǎng)絡(luò)。這是企業(yè)構(gòu)建真正屬于自己的知識(shí)引擎必須要做到的事情,也是非常復(fù)雜的事情。

還有一個(gè)是數(shù)據(jù)的時(shí)效。通常在做決策的時(shí)候,需要依據(jù)企業(yè)最新的數(shù)據(jù),以便智能體平臺(tái)能夠?yàn)槠髽I(yè)做出及時(shí)決策支撐和反饋。不管是Fine-Tuning,還是預(yù)訓(xùn)練,都很難滿足企業(yè)對(duì)時(shí)效性的需求。

四、Data-Centric:驅(qū)動(dòng)AI場(chǎng)景化落地的新范式

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

因此,我們才提出要以數(shù)據(jù)為中心,搭建企業(yè)人工智能落地的平臺(tái)架構(gòu)。

最開始,業(yè)內(nèi)使用“Data-Centric(以數(shù)據(jù)為中心)”和“Model-Centric(以模型為中心)”這兩個(gè)詞,是為了研究如何使模型算法更高效、更低成本地實(shí)現(xiàn)收斂,達(dá)到最好的模型效果?!癕odel-Centric”通過(guò)不斷調(diào)整模型算法,而“Data-Centric”則通過(guò)做好本地?cái)?shù)據(jù)的清洗和知識(shí)工程來(lái)達(dá)到最好的模型效果。在模型訓(xùn)練和收斂方面,業(yè)界已普遍采用Data-Centric的方式。很多大模型的企業(yè),在研究算法的同時(shí),也花費(fèi)了很多精力構(gòu)建自己的知識(shí)引擎,構(gòu)建自己的數(shù)據(jù)知識(shí)化與知識(shí)工程。

而我們?cè)诖苏劦降?,并不是上述領(lǐng)域的“Model-Centric”和“Data-Centric”,而是人工智能技術(shù)在企業(yè)多場(chǎng)景落地的過(guò)程當(dāng)中涉及的兩種架構(gòu)范式:“Model-Centric”和“Data-Centric”。

此處的“Model-Centric”指的是企業(yè)部署一個(gè)或多個(gè)多模態(tài)大模型,然后通過(guò)兩種方式利用企業(yè)的本地?cái)?shù)據(jù):第一種是扔給模型進(jìn)行Fine-Tune,讓大模型能夠體現(xiàn)本地?cái)?shù)據(jù)的價(jià)值;第二種是簡(jiǎn)單地構(gòu)建基礎(chǔ)知識(shí)庫(kù),通過(guò)RAG的方式補(bǔ)充模型沒有理解的一些本地?cái)?shù)據(jù)。這就是以模型為中心,依然是概率體系的架構(gòu)特征,并沒有從根本解決幻覺、可解釋性、推理能力等等問(wèn)題。

相反,“以數(shù)據(jù)為中心”則是不一樣的架構(gòu),關(guān)注的是企業(yè)本地的數(shù)據(jù),并將其轉(zhuǎn)化為可用的知識(shí)。當(dāng)然,這種轉(zhuǎn)化也是通過(guò)智能的方式來(lái)構(gòu)建。當(dāng)我們需要使用大模型或多模態(tài)大模型去做內(nèi)容理解的時(shí)候,就用它去做內(nèi)容理解;需要給它足夠的Prompt生成一長(zhǎng)段內(nèi)容的時(shí)候,我們就用它去做內(nèi)容生成;當(dāng)需要對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)理分析時(shí),可以用非常傳統(tǒng)的數(shù)據(jù)分析的方法去做結(jié)構(gòu)化的數(shù)據(jù)分析。這種以本地?cái)?shù)據(jù)知識(shí)化為核心的架構(gòu),是企業(yè)級(jí)人工智能場(chǎng)景落地的有效范式。這種方法已經(jīng)在多家大型的頭部企業(yè)進(jìn)行過(guò)驗(yàn)證,是一種能夠快速將人工智能的技術(shù)應(yīng)用在企業(yè)決策場(chǎng)景中的典型范式。

通過(guò)與多家頭部央國(guó)企的接觸,我們也觀察到,他們已經(jīng)開始尋求構(gòu)建整個(gè)企業(yè)或者集團(tuán)的大型知識(shí)庫(kù)或知識(shí)網(wǎng)絡(luò)體系。當(dāng)然不止自己本地的數(shù)據(jù),也會(huì)包含外部的各種各樣的數(shù)據(jù)。我們把大模型中沉淀的知識(shí)稱之為“泛化知識(shí)”。我們要做的是搭建一個(gè)平臺(tái),能夠把企業(yè)的本地?cái)?shù)據(jù)知識(shí)化,然后把大模型中的泛化知識(shí)與企業(yè)本地的知識(shí)融合在一起,來(lái)推動(dòng)大模型在企業(yè)多個(gè)場(chǎng)景中的落地。

五、從數(shù)據(jù)到知識(shí):企業(yè)智能化的技術(shù)路徑

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

所以,我們具體的過(guò)程是什么呢?最開始一定是要對(duì)企業(yè)的本地多模態(tài)數(shù)據(jù)進(jìn)行智能化治理,然后構(gòu)建為企業(yè)的本地知識(shí)網(wǎng)絡(luò),同樣要把它存儲(chǔ)在知識(shí)網(wǎng)絡(luò)里,并進(jìn)行相應(yīng)的多種類型的知識(shí)領(lǐng)域的應(yīng)用。在應(yīng)用的過(guò)程當(dāng)中,我可能會(huì)利用大模型的能力進(jìn)行內(nèi)容生成或知識(shí)的構(gòu)建。

在大模型出現(xiàn)之前,知識(shí)圖譜的構(gòu)建是一件成本非常高的事情。但是有了大語(yǔ)言參數(shù)模型,我們可以把構(gòu)建龐大的企業(yè)知識(shí)網(wǎng)絡(luò)的效率變得非常高。這里面涉及到很多技術(shù)細(xì)節(jié)的突破。同時(shí),也有很多技術(shù)特點(diǎn)需要去解決并實(shí)現(xiàn)。

第一個(gè)是企業(yè)知識(shí)的表征。以前企業(yè)的本地很多各種各樣的文檔,把它向量化就可以了。但實(shí)際上,向量化的過(guò)程就是信息壓縮、特征提取的過(guò)程。但是在這,我們不是把企業(yè)本地的數(shù)據(jù)單純地壓縮或是特征提取向量化,而是把企業(yè)所有的數(shù)據(jù),向量與向量之間關(guān)系、實(shí)體和實(shí)體之間的關(guān)系、實(shí)體和向量之間的關(guān)系等等,都構(gòu)建了一個(gè)龐大的企業(yè)數(shù)據(jù)知識(shí)網(wǎng)絡(luò)。

在這樣的一個(gè)知識(shí)網(wǎng)絡(luò)里面,需要我們能夠具備融合圖向量和類似Mongo的原文數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算的能力。

在這之上,其實(shí)我們還要能夠通過(guò)智能體平臺(tái)的方式,智能地構(gòu)建不同領(lǐng)域的知識(shí)引擎,生成特定的Prompts來(lái)去結(jié)合不同的大模型的能力,連接大模型內(nèi)部的泛化知識(shí),最后賦能多場(chǎng)景價(jià)值的應(yīng)用。

同時(shí),我們的知識(shí)網(wǎng)絡(luò)會(huì)不斷豐富語(yǔ)義信息。例如在為金融客戶構(gòu)建知識(shí)庫(kù)的時(shí)候,當(dāng)問(wèn)答系統(tǒng)遇到不理解的關(guān)鍵詞,我們會(huì)通過(guò)用戶反饋的方式,將這些詞的語(yǔ)義理解疊加到知識(shí)網(wǎng)絡(luò)中,使系統(tǒng)能夠理解新的問(wèn)題,或者用戶訴求該如何滿足。

六、知識(shí)驅(qū)動(dòng):創(chuàng)新路徑加速大模型落地

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

所以,在人工智能的企業(yè)場(chǎng)景落地的平臺(tái)當(dāng)中,我們必須要解決的核心的問(wèn)題就是模型幻覺、可解釋性、推理能力、時(shí)效性和企業(yè)級(jí)安全能力。

為此,我們進(jìn)行了多項(xiàng)技術(shù)創(chuàng)新,包括圖和向量的分布式存儲(chǔ)與計(jì)算融合、獨(dú)創(chuàng)的Hybrid RAG技術(shù)、知識(shí)的運(yùn)維與校驗(yàn),以及針對(duì)大模型推理框架的Graph of Thoughts等前沿技術(shù)實(shí)現(xiàn)。這些都是我們?cè)诼涞刂R(shí)驅(qū)動(dòng)的智能平臺(tái)落地時(shí)需要解決的問(wèn)題。

下圖展示了我們?nèi)绾瓮ㄟ^(guò)圖、向量融合等技術(shù),有效地解決了大模型幻覺、推理能力弱以及大模型數(shù)據(jù)時(shí)效性等問(wèn)題:

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

我們當(dāng)下服務(wù)的都是龍頭的央國(guó)企,即鏈主企業(yè)。通過(guò)鏈主企業(yè),來(lái)構(gòu)建對(duì)行業(yè)的影響力。

七、從AI Market Place到人工智能平臺(tái)新范式

那么,一定是通過(guò)平臺(tái)驅(qū)動(dòng)的方式,來(lái)推動(dòng)多智能化場(chǎng)景的均衡落地。下圖是我們非常典型應(yīng)用的一個(gè)平臺(tái)搭建。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

回到AI平臺(tái)這個(gè)詞或說(shuō)這個(gè)事,我相信大家都聽過(guò)很長(zhǎng)時(shí)間了。在上一代人工智能技術(shù)出現(xiàn)的時(shí)候,我們就在談AI平臺(tái)。但那時(shí)的AI平臺(tái),是由算法、數(shù)據(jù)和應(yīng)用場(chǎng)景以“煙囪式”堆積而成的平臺(tái)。這個(gè)平臺(tái),我更愿意把它稱之為AI的Market Place。

現(xiàn)在隨著大模型的涌現(xiàn),模型這一層可以匯聚到一個(gè)或者幾個(gè)大模型領(lǐng)域當(dāng)中。企業(yè)的模型在慢慢收斂到個(gè)位數(shù)級(jí)別,帶來(lái)的影響是底下的數(shù)據(jù)也一定會(huì)收斂到個(gè)位數(shù)的統(tǒng)一級(jí)別,即剛才提到的數(shù)據(jù)知識(shí)化的過(guò)程。

通過(guò)這樣的平臺(tái)能力,去賦能多價(jià)值場(chǎng)景的落地,這是當(dāng)下非常典型的人工智能平臺(tái)落地的架構(gòu)。

八、“知識(shí)引擎+大模型”雙輪驅(qū)動(dòng)企業(yè)智能化

下圖是我們幫很多頭部鏈主央企構(gòu)建的真正能夠解決實(shí)際場(chǎng)景落地價(jià)值的人工智能平臺(tái)。最下面是基礎(chǔ)設(shè)施(智算中心);上層是由各個(gè)大模型企業(yè)以及云廠商提供的模型工廠;再往上是大模型的運(yùn)維平臺(tái),我們叫做Model OPS的平臺(tái),包括訓(xùn)練推理加速、模型的生命周期管理等等。很多企業(yè)在最開始嘗試的時(shí)候,結(jié)合了行業(yè)的數(shù)據(jù)集直接面向了最上層的多應(yīng)用場(chǎng)景的賦能。這個(gè)就是之前提及的Model-Centric的路徑。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

但是,大部分企業(yè)在這樣的實(shí)踐的過(guò)程當(dāng)中,發(fā)現(xiàn)剛才那幾個(gè)問(wèn)題無(wú)法解決,無(wú)法真正實(shí)現(xiàn)決策智能的場(chǎng)景價(jià)值。所以,這也是為什么我跟所有企業(yè)說(shuō),中間其實(shí)缺了這樣的一層,也就是我們楓清科技的“一體兩翼”的產(chǎn)品矩陣,來(lái)進(jìn)行知識(shí)的構(gòu)建,把企業(yè)本地的數(shù)據(jù)構(gòu)建為知識(shí)。它是一個(gè)數(shù)據(jù)關(guān)系的龐大網(wǎng)絡(luò),而在這個(gè)網(wǎng)絡(luò)之上就可以進(jìn)行符號(hào)邏輯推理,并結(jié)合大模型的生成能力,做真正可解釋的智能。

然后,底下有我們核心的知識(shí)引擎、支持圖、向量以及源數(shù)據(jù)的分布式存儲(chǔ)計(jì)算的多模態(tài)智能引擎。在此之上有大模型應(yīng)用支撐中心,能夠鏈接并管理不同的大模型;同時(shí)有行業(yè)智能體平臺(tái),能夠管理本地知識(shí)引擎,起到連接本地知識(shí)、行業(yè)知識(shí)以及模型中的泛化知識(shí)的作用。最后,所有應(yīng)用場(chǎng)景都通過(guò)行業(yè)智能體的方式,透?jìng)鹘o企業(yè)智能化的應(yīng)用。

我早在IBM的時(shí)候,大概七八年前,IBM內(nèi)部就推出了一個(gè)非常秘密的項(xiàng)目:Intelligent Workflow。當(dāng)時(shí)正在做的事情就是類似目前的這個(gè)架構(gòu),只不過(guò)沒有把太多生成式人工智能技術(shù)融入其中。當(dāng)時(shí)也有Watson Debater,也是基于Transformer的技術(shù),能夠?qū)崿F(xiàn)非常好的人機(jī)對(duì)話的實(shí)際應(yīng)用。所以,我們要幫幫助B端客戶慢慢地實(shí)現(xiàn)決策智能,必須要采用的這樣的架構(gòu),沒有任何第二個(gè)選擇。

九、助力鏈主企業(yè)智能化實(shí)現(xiàn)示例和場(chǎng)景演示

下圖是我們的一個(gè)案例,通過(guò)我們搭建的平臺(tái),針對(duì)于頭部鏈主企業(yè)在實(shí)際業(yè)務(wù)場(chǎng)中具體的智能化訴求,我們提供了最基本的比對(duì)、交互、檢索、創(chuàng)作、總結(jié)等行業(yè)智能化的Agent能力,并結(jié)合企業(yè)本地已經(jīng)知識(shí)化的數(shù)據(jù)體系,可以給企業(yè)進(jìn)行多場(chǎng)景智能化賦能,這些方案已在多家頭部央企成功落地并應(yīng)用于決策。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

然后在這舉個(gè)很簡(jiǎn)單的示例:智能指標(biāo)問(wèn)數(shù)。Text2SQL其實(shí)不是大語(yǔ)言模型最擅長(zhǎng)的,因?yàn)檫@不屬于生成智能。但是,回歸到企業(yè)的決策指標(biāo)問(wèn)數(shù)領(lǐng)域,我們依賴的可不單純是企業(yè)本地的結(jié)構(gòu)化數(shù)倉(cāng)中的指標(biāo)庫(kù)數(shù)據(jù),還需要關(guān)聯(lián)企業(yè)本地的多模態(tài)數(shù)據(jù)。然后,這些數(shù)據(jù)對(duì)企業(yè)的決策產(chǎn)生影響之后,我們要做粒度非常細(xì)的、直接對(duì)話式的根因分析,才能夠真正實(shí)現(xiàn)企業(yè)的決策智能。

在一個(gè)問(wèn)數(shù)場(chǎng)景中,如何把我以上所說(shuō)的這些理念以及技術(shù)點(diǎn)給融合在一起呢?

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

上面這張圖展示的是我們?yōu)橐粋€(gè)金融客戶開發(fā)的智能指標(biāo)系統(tǒng)。當(dāng)用戶查詢不良貸款相關(guān)指標(biāo)時(shí),系統(tǒng)能夠智能搜索并生成不良貸款指標(biāo)數(shù)據(jù)及對(duì)比。當(dāng)用戶詢問(wèn)不良貸款指標(biāo)的后續(xù)影響時(shí),系統(tǒng)會(huì)直接呈現(xiàn)深度影響分析及解釋邏輯。系統(tǒng)還集成了智能體工具。例如,當(dāng)用戶詢問(wèn)“A越高,B是否越低”等相關(guān)性問(wèn)題時(shí),智能體會(huì)調(diào)用相關(guān)性分析算法工具,給出相關(guān)性和相關(guān)系數(shù)。

在系統(tǒng)搭建過(guò)程中,我們將企業(yè)本地的非結(jié)構(gòu)化數(shù)據(jù)(例如不良貸款客戶類型比例限制等)也融入到知識(shí)網(wǎng)絡(luò)中,以便在指標(biāo)展示時(shí)直接提示用戶是否違反了監(jiān)管規(guī)定和指標(biāo)約定。通過(guò)該系統(tǒng),我們還能針對(duì)不良貸款比例超標(biāo)的企業(yè),基于銀行數(shù)據(jù)的匯總,分析其與不同企業(yè)之間的交易往來(lái),并進(jìn)行不良貸款回溯分析,這正是典型的基于圖的根因分析。

在APEC多國(guó)貿(mào)易領(lǐng)域,有非常多的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的貿(mào)易相關(guān)的交易數(shù)據(jù)。我們把這些數(shù)據(jù)整合到企業(yè)的本地知識(shí)體系當(dāng)中,可以開放給APEC成員國(guó)企業(yè)。幫助 APEC 成員國(guó)的企業(yè)查找上下游渠道商。系統(tǒng)還能智能生成貿(mào)易分析報(bào)告、風(fēng)險(xiǎn)投資回報(bào)比等詳細(xì)信息,幫助企業(yè)決策出口產(chǎn)品到哪個(gè)APEC成員國(guó)能帶來(lái)最大收益,以及在特定國(guó)家進(jìn)行何種類型的貿(mào)易。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

通過(guò)我們的智能體平臺(tái),兩個(gè)禮拜內(nèi)就可以幫助企業(yè)快速搭建具備業(yè)務(wù)場(chǎng)景價(jià)值的智能應(yīng)用。

楓清科技高雪峰:Data-Centric新范式開啟,知識(shí)引擎+大模型雙輪驅(qū)動(dòng)企業(yè)智能化

上圖展示了我們?yōu)橐患翌^部央企的集團(tuán)搭建的智能平臺(tái)架構(gòu),賦能并落地多個(gè)業(yè)務(wù)場(chǎng)景,包括私域文檔智能問(wèn)答、企業(yè)供應(yīng)鏈智能問(wèn)數(shù)、AI科技情報(bào)智能分析,有效支持企業(yè)生產(chǎn)運(yùn)營(yíng)。例如,在生產(chǎn)線上,我們實(shí)現(xiàn)了智能化的風(fēng)險(xiǎn)檢測(cè),并結(jié)合企業(yè)安全知識(shí)庫(kù),為企業(yè)建立風(fēng)險(xiǎn)預(yù)警機(jī)制。當(dāng)生產(chǎn)過(guò)程中出現(xiàn)潛在問(wèn)題時(shí),系統(tǒng)能夠及時(shí)向工廠或企業(yè)提供風(fēng)險(xiǎn)點(diǎn)提示。這一切都依托于集團(tuán)安全生產(chǎn)知識(shí)庫(kù)的完善構(gòu)建。平臺(tái)成功融合了多模態(tài)數(shù)據(jù)與企業(yè)文本知識(shí)數(shù)據(jù),為智能化生產(chǎn)提供了強(qiáng)大支撐。

我們通過(guò)一個(gè)平臺(tái)可以賦能多個(gè)業(yè)務(wù)場(chǎng)景,同時(shí)還能夠幫助企業(yè)將數(shù)據(jù)持續(xù)不斷地沉淀在統(tǒng)一的我們一個(gè)知識(shí)平臺(tái)和知識(shí)引擎當(dāng)中。

從今年4月以來(lái),我們已與多家頭部央國(guó)企展開深入合作,在人工智能場(chǎng)景平臺(tái)的落地方面積累了豐富經(jīng)驗(yàn),覆蓋金融、化工能源、汽車制造等多個(gè)行業(yè)。我們與客戶的數(shù)字科技企業(yè)緊密合作,共同探索人工智能的最佳應(yīng)用路徑。

我們觀察到,越來(lái)越多企業(yè)正在積極探索如何將智能化技術(shù)真正融入決策過(guò)程。未來(lái),我們希望能與在座的嘉賓和客戶一起,共同邁向人工智能賦能千行百業(yè)的美好新時(shí)代。