智東西(公眾號(hào):zhidxcom)
編輯?| ?GTIC
智東西4月18日?qǐng)?bào)道,在剛剛落幕的GTIC 2023中國AIGC創(chuàng)新峰會(huì)上,瀾舟科技創(chuàng)始人兼CEO、中國計(jì)算機(jī)學(xué)會(huì)CCF副理事長(zhǎng)、創(chuàng)新工場(chǎng)首席科學(xué)家周明以《大模型帶來的新范式》為題發(fā)表了主題演講。
作為微軟走出的技術(shù)專家,周明非常認(rèn)可微軟聯(lián)合創(chuàng)始人比爾·蓋茨關(guān)于“要把自然語言理解做好了,基本上可以重塑一個(gè)微軟”的評(píng)價(jià)。
在他看來,大模型正帶來認(rèn)知智能的崛起。大模型尤其是ChatGPT代表著語言理解、多輪對(duì)話、問題求解進(jìn)入了一個(gè)可實(shí)用的時(shí)代。同時(shí),大模型有效解決NLP任務(wù)碎片化問題,大幅度提高研發(fā)效率,標(biāo)志著NLP進(jìn)入工業(yè)化實(shí)施階段。AI 2.0時(shí)代將首先革新創(chuàng)作內(nèi)容、辦公方式、搜索引擎、人機(jī)交互界面、金融場(chǎng)景任務(wù)等領(lǐng)域。
創(chuàng)立于2021年6月的瀾舟科技已推出了多個(gè)大模型對(duì)外產(chǎn)品服務(wù),目前已落地孟子大模型、AIGC(智能創(chuàng)作)平臺(tái)、機(jī)器翻譯平臺(tái)、金融NLP平臺(tái)等多款技術(shù)及產(chǎn)品,落地同花順、華夏基金等企業(yè)。結(jié)合類ChatGPT技術(shù),瀾舟科技推出了對(duì)話機(jī)器人MChat,能夠通過智能對(duì)話幫助用戶完成特定場(chǎng)景中的多種工作任務(wù)。
談及對(duì)產(chǎn)業(yè)未來方向的展望,周明坦言,當(dāng)下類ChatGPT技術(shù)在推理、邏輯、數(shù)學(xué)和算術(shù)、事實(shí)性錯(cuò)誤等方面仍有所欠缺。未來,大模型相關(guān)的九大問題尤其值得關(guān)注,涉及推理能力、事實(shí)正確性、中文處理能力等方面。
以下為周明的演講實(shí)錄:
今天給大家介紹我們對(duì)大模型的一些新思考,我的演講分三部分:一是我們對(duì)大模型的理解,它帶來哪些新的范式變化;二是瀾舟科技在這個(gè)領(lǐng)域所做的一些努力;三是未來大模型的發(fā)展。
一、大模型標(biāo)志著NLP進(jìn)入工業(yè)化實(shí)施階段
我先談?wù)劥竽P偷囊恍┍尘啊4饲笆嗄耆斯ぶ悄茉诟兄悄芊矫孢M(jìn)展迅速。大模型帶來認(rèn)知智能的崛起,大家都知道2017年谷歌提出了Transformer技術(shù),隨后預(yù)訓(xùn)練模型BERT、GPT等一系列技術(shù)出現(xiàn),NLP能力在各項(xiàng)任務(wù)上大幅度提升,最近ChatGPT帶動(dòng)了NLP發(fā)展熱潮。
我們今天看到的一個(gè)明顯趨勢(shì)是AI正在大模型驅(qū)動(dòng)下快速實(shí)現(xiàn)認(rèn)知智能。認(rèn)知智能包含語言理解,就跟我們的大腦一樣,理解后要回答、解決問題,對(duì)業(yè)務(wù)做出預(yù)測(cè)。它有很多廣泛的應(yīng)用,從翻譯、問答、交互、搜索、推薦、寫作、專家系統(tǒng)等等,你能想到的跟人的智能有關(guān)的應(yīng)用,幾乎都是認(rèn)知智能。
它對(duì)企業(yè)非常重要,原來企業(yè)講大數(shù)據(jù),現(xiàn)在智能平臺(tái)可以把企業(yè)的很多業(yè)務(wù)進(jìn)行升級(jí),甚至可以提供一些企業(yè)洞見,發(fā)現(xiàn)數(shù)據(jù)之間規(guī)律。
大規(guī)模預(yù)訓(xùn)練模型簡(jiǎn)單來說就是幾件事:1、海量文本數(shù)據(jù),比如互聯(lián)網(wǎng)數(shù)據(jù);2、超大規(guī)模算力;3、超大規(guī)模預(yù)訓(xùn)練語言模型,要么針對(duì)不同任務(wù)進(jìn)行微調(diào)(BERT/GPT),要么連微調(diào)都不做(GPT-3,ChatGPT);4、一個(gè)模型解決N個(gè)任務(wù)。
大家最近很熟悉的是ChatGPT,其實(shí)大模型有很多流派,像BERT是encoder這邊,GPT是decoder這邊,T5既有encoder又有decoder,它適合不同的場(chǎng)合。BERT類似的東西一般適合于文本分析、信息抽取,GPT更多適用于文本生成,T5更多被用于機(jī)器翻譯。
當(dāng)前在預(yù)訓(xùn)練模型領(lǐng)域較受關(guān)注的研究重點(diǎn)包括:第一,怎么把大模型做到更好,把它的能力做到更強(qiáng)?第二,預(yù)訓(xùn)練大模型代價(jià)太大,怎么降下來?第三,我自己有行業(yè)數(shù)據(jù)、有知識(shí)圖譜,怎么融入進(jìn)去?第四,做下游任務(wù)時(shí),能不能少標(biāo)點(diǎn)數(shù)據(jù),少樣本學(xué)習(xí)或者無樣本學(xué)習(xí)?
我這里有兩句話,希望大家能有點(diǎn)印象:第一,大模型尤其是ChatGPT和GPT-4,代表著語言理解、多輪對(duì)話和問題求解,進(jìn)入了一個(gè)可實(shí)用的時(shí)代;第二,大模型有效解決了NLP任務(wù)碎片化問題,大幅度提高研發(fā)效率,標(biāo)志著NLP進(jìn)入工業(yè)化實(shí)施階段。
傳統(tǒng)NLP開發(fā)存在任務(wù)碎片化嚴(yán)重的問題,每一個(gè)NLP小任務(wù)比如分詞、語義理解、機(jī)器理解都是從頭開始開發(fā),每個(gè)企業(yè)的數(shù)據(jù)又不一樣。其他問題還有要做很多數(shù)據(jù)標(biāo)注、開發(fā)周期長(zhǎng)、支付成本高、維護(hù)代價(jià)高。
有了大模型,用微調(diào)(Fine-tune)或者提示(Prompt)技術(shù),一下子就把碎片化解決得很好;再加上一點(diǎn)零樣本技術(shù)或Prompt技術(shù),減少了數(shù)據(jù)標(biāo)注問題;再有一些輕量化訓(xùn)練方法或部署方法,減少了客戶代價(jià);還可以幫助客戶自行快速建模,以便快速驗(yàn)證業(yè)務(wù)流程;最后可以通過本地部署或SaaS提供服務(wù),減少用戶的開發(fā)代價(jià)和維護(hù)代價(jià)。
我原來也是微軟的,我一直受到比爾·蓋茨的感召,他曾經(jīng)跟我們?cè)趓eview的時(shí)候說過一句話:“你們要把自然語言理解做好了,基本上可以重塑一個(gè)微軟。”我們這些天看到的微軟和ChatGPT和OpenAI的合作中,幾乎微軟所有的業(yè)務(wù)都受到了一些新的革命性的影響。
ChatGPT有對(duì)話、語言理解、改寫、翻譯、寫作、解題等能力,具體來講,有幾件事印象深刻:比如in-context learning,不需要改變大模型參數(shù),用Prompt技術(shù)一個(gè)模型解決N多問題;還有Instruct-learning、涌現(xiàn)能力、復(fù)雜query理解、多輪對(duì)話、推理、邏輯、NL2Code、與人類價(jià)值觀對(duì)齊等等。
過去幾十年來,NLP也好,AI也好,以前都是一個(gè)模型解決一個(gè)任務(wù),要針對(duì)每一個(gè)具體任務(wù),設(shè)計(jì)規(guī)則(規(guī)則系統(tǒng))、設(shè)計(jì)特征(統(tǒng)計(jì)系統(tǒng))、針對(duì)大模型微調(diào)(大模型早期),開發(fā)周期長(zhǎng),而且不能復(fù)用。訓(xùn)練出來的模型,只具備這個(gè)能力,不具備其他的能力,而且設(shè)計(jì)的能力水平不會(huì)因模型架構(gòu)修改或數(shù)據(jù)增加出現(xiàn)躍升。
這樣的AI系統(tǒng),我管它叫AI 1.0系統(tǒng)。有點(diǎn)類比于比較本分的小孩子,你告訴他做什么,他做什么,不會(huì)舉一反三,不會(huì)觸類旁通,他練習(xí)增加,能力可慢慢增長(zhǎng),但是不能頓悟。在GPT3.0,GPT3.5和ChatGPT之前,我們就簡(jiǎn)單地說ChatGPT之前是AI 1.0時(shí)代。
現(xiàn)在ChatGPT帶來了一個(gè)所謂的AI 2.0或者NLP 2.0時(shí)代,用一個(gè)模型解決N個(gè)功能,再加新的功能,就用Prompt技術(shù)把它的能力帶動(dòng)起來。再往前走,我們可以設(shè)想這樣的能力一點(diǎn)點(diǎn)增強(qiáng),一點(diǎn)點(diǎn)走到所謂的通用人工智能(AGI)。

二、大模型改變工作范式:激發(fā)創(chuàng)意、高效辦公、革新搜索、重塑人機(jī)交互
AI 2.0時(shí)代會(huì)帶來哪些影響呢?
第一個(gè)影響是ChatGPT以及大模型,很好解決了創(chuàng)意問題,以前想一個(gè)營(yíng)銷文案半天想不明白,現(xiàn)在跟它交互幾次,它可以提供很多新的創(chuàng)意。解決了這個(gè)問題,就可以大批量生產(chǎn)很多內(nèi)容。這已經(jīng)影響到大文娛、影視傳媒等很多產(chǎn)業(yè)。
第二是辦公自動(dòng)化的問題,生成式AI讓用戶更加專注自己的業(yè)務(wù)領(lǐng)域,把繁瑣的生成工作交給AI,讓工作成果展現(xiàn)更加高效。像微軟Office加上了Copilot,郵件、文章、PPT等辦公工作的生產(chǎn)過程更加智能化、更加快速。
第三是對(duì)搜索引擎的影響。原來一個(gè)query得到10個(gè)Boolean,現(xiàn)在搜索引擎基于大模型的理解,可以做復(fù)雜query理解,可以做語義層面的query和文檔的匹配;以前搜索就是看數(shù)據(jù),看不到數(shù)據(jù)內(nèi)部的規(guī)律,現(xiàn)在除了看數(shù)據(jù),可以形成總結(jié)、形成觀點(diǎn)洞見,對(duì)數(shù)據(jù)可以有深度的洞察;最后是整個(gè)搜索改變了,原來就是搜索,現(xiàn)在把搜索、了解內(nèi)容、了解規(guī)律、形成洞見、寫出文章及發(fā)表,都可以一條龍?zhí)峁┓?wù)。
除了微軟提供的通用搜索服務(wù),我們也可以設(shè)想在某些專用領(lǐng)域,把這樣一些事情,比如解決金融領(lǐng)域的投研分析、投研報(bào)告問題,對(duì)各行各業(yè)都有非常大的影響。
第四是對(duì)用戶語言的理解增強(qiáng),你可以用自然語言與幾乎所有的應(yīng)用、所有的設(shè)備對(duì)話,你也可以把很多第三方的東西通過插件的方式聯(lián)系到你的系統(tǒng)里,就像我們所看到的OpenAI通過發(fā)布了一些插件的方式,實(shí)際上用AI連接一切。我認(rèn)為這是未來非常大的一個(gè)趨勢(shì)。
三、瀾舟科技大模型已落地金融場(chǎng)景,具備百億級(jí)類ChatGPT能力
有了大模型,怎么改變行業(yè)?
我們要做金融,拿金融的數(shù)據(jù)繼續(xù)訓(xùn)練,得到一個(gè)金融大模型,再支持金融中幾乎所有的業(yè)務(wù),這就是我們大模型落地方面所做的一些努力。

在智能客服場(chǎng)景,我們有上下文理解、多輪對(duì)話的能力,會(huì)對(duì)現(xiàn)在的客服、基于FAQ的客服產(chǎn)生碾壓式的影響。
在營(yíng)銷文案生成場(chǎng)景,跟聊天機(jī)器人對(duì)話,可以激發(fā)新的靈感,最后得到不錯(cuò)的營(yíng)銷文案;可以生成各種各樣的風(fēng)控報(bào)告,基于信息抽取能力得到一些干貨,包括保函審查、搜索問答場(chǎng)景等。
接下來介紹一下瀾舟科技做了哪些工作,以及我們站在從業(yè)人員的視角,看類ChatGPT未來的發(fā)展趨勢(shì)是什么。
瀾舟科技成立于2021年,一直做大模型,我們的大模型獲得了HICOOL 2021全球創(chuàng)業(yè)大賽一等獎(jiǎng),得到時(shí)任北京市長(zhǎng)陳吉寧先生的接見。
我們已經(jīng)推出一系列大模型的服務(wù),像AIGC(智能創(chuàng)作)平臺(tái)、機(jī)器翻譯平臺(tái)、孟子大模型、金融NLP平臺(tái)等等。這些底層都是大模型,上層針對(duì)行業(yè)特點(diǎn)做繼續(xù)訓(xùn)練,或者針對(duì)任務(wù)特點(diǎn)做監(jiān)督學(xué)習(xí),把大模型和體系發(fā)布出來,通過SaaS或者本地部署來提供服務(wù)。

孟子大模型有很多應(yīng)用案例:比如跟同花順做大模型在金融領(lǐng)域的落地,用于問答、對(duì)話、信息抽取等場(chǎng)景;跟傳神做大模型在多種語言翻譯和多種垂直領(lǐng)域翻譯的應(yīng)用;跟華夏基金做輿情分析平臺(tái);跟數(shù)說故事合作做AIGC營(yíng)銷文案寫作。
瀾舟科技把類ChatGPT做出來了,加上以前做的很多功能,如何用類ChatGPT把原來的功能串通起來,來解決行業(yè)的落地問題。比如調(diào)用類ChatGPT的能力,讓它介紹一下愛因斯坦,回答如何發(fā)現(xiàn)相對(duì)論的、推薦北京的5個(gè)著名景點(diǎn)、續(xù)寫小說、寫一個(gè)口紅的營(yíng)銷文案、作為工具處理一些金融場(chǎng)景任務(wù)等等。

目前我們開發(fā)的是百億級(jí)的類ChatGPT能力,有一定的對(duì)話、理解、問答各種方面的能力。我們花了很多工夫去整理中文數(shù)據(jù),增強(qiáng)中文對(duì)話能力。我們也可以讓類ChatGPT調(diào)用一些已有的引擎,比如可能企業(yè)自己原來就開發(fā)出很好的翻譯、寫作等引擎,可能有第三方引擎,如何跟類ChatGPT聯(lián)系起來。
四、未來大模型研究方向,9個(gè)問題待解
再花5分鐘的時(shí)間,講講未來的研究方向。我們先問一下ChatGPT:我是做自然語言研究的,沒有很多塊GPU,能做什么樣的研究?
我昨天到學(xué)校去演示,很多同學(xué)也問了這樣的問題,ChatGPT告訴你,第一,你可以做模型壓縮;第二,你可以做遷移學(xué)習(xí);第三,你可以做多語言學(xué)習(xí);第四,你可以做領(lǐng)域有關(guān)的模型,或者說做小規(guī)模試驗(yàn)環(huán)境下的創(chuàng)新算法。
我覺得它講得都挺好的,雖然大家都很喜歡、很追捧ChatGPT,但是它還有很多問題。我們要做未來的研究,一定要知己知彼,知道它的問題在哪里,才能有的放矢,進(jìn)行改進(jìn)。
第一,ChatGPT在推理、邏輯、數(shù)學(xué)和算數(shù)、事實(shí)性錯(cuò)誤、偏見和歧視、寫代碼、抽象理解等方面還有很多欠缺。
比如問魯迅和周樹人是一個(gè)人嗎?它說不是一個(gè)人,講了半天理由;問父親和母親可以結(jié)婚嗎?它回答說不可以結(jié)婚。這就說明ChatGPT在常識(shí)、事實(shí)性方面的理解和推理能力還有問題。
網(wǎng)上最近熱傳的畫一幅唐伯虎點(diǎn)秋香的圖,結(jié)果AI畫成了一只老虎正在點(diǎn)香,實(shí)際上是因?yàn)樗焕斫庵袊奈幕?,可能是把中文翻譯成英文,調(diào)用了Stable Diffusion,Stable Diffusion是針對(duì)英文的特點(diǎn)做的數(shù)據(jù)清洗和訓(xùn)練,所以拿它做翻譯肯定會(huì)有很多的問題。實(shí)際上,要從根上來做,需對(duì)數(shù)據(jù)清洗做出中文標(biāo)記,不能僅僅依靠英文標(biāo)記,有很多的功夫要做。
信息抽取也有很多挑戰(zhàn),比如對(duì)話式抽取的意圖理解欠佳,領(lǐng)域知識(shí)不足,缺乏專業(yè)度。Prompt這件事既好又壞:好的Prompt能夠把它的能力帶出來,可是如果不會(huì)寫Prompt,它的能力放在那兒也用不起來。
還有涌現(xiàn),大家整天討論涌現(xiàn),涌現(xiàn)到底是什么?什么時(shí)候能出現(xiàn)涌現(xiàn)?模型做到多大才能出現(xiàn)涌現(xiàn)?模型小一點(diǎn)的時(shí)候,能不能用什么招把數(shù)據(jù)弄好,把算法弄好,讓涌現(xiàn)早點(diǎn)出現(xiàn),別等到搞到萬億模型才出現(xiàn)涌現(xiàn)?

以及如何建立大模型的評(píng)測(cè)體系?有沒有一個(gè)比較客觀的自動(dòng)化較強(qiáng)的體系來測(cè)大模型的能力?雖然我們看到學(xué)術(shù)界有些分任務(wù)做了一些標(biāo)準(zhǔn)測(cè)試集,但是很多新的大模型的能力是沒辦法測(cè)試的。所以我們呼喚產(chǎn)業(yè)界、學(xué)術(shù)界把大模型的評(píng)測(cè)體系好好地建立起來。
總結(jié)一下未來大模型方向的9個(gè)問題:
1、如何增強(qiáng)模型的推理能力,能理解復(fù)雜任務(wù),如解數(shù)學(xué)題、邏輯推理。
2、如何提高生成內(nèi)容的事實(shí)正確性,保證生成內(nèi)容安全可靠。
3、如何最小化代價(jià)建立實(shí)時(shí)學(xué)習(xí)模型,能基于新產(chǎn)生的知識(shí)去生成答案,保證內(nèi)容的時(shí)效性。
4、提升中文的處理能力,如中文處理的成語、比喻、跨模態(tài)的語義對(duì)齊等。
5、如何增強(qiáng)領(lǐng)域知識(shí)、跨語言知識(shí)、更好注入特定任務(wù)知識(shí)等。
6、如何更加交互地、靈活地、智能地提升提示(Prompt)能力?
7、更好理解涌現(xiàn)能力。到底是什么能力?怎么激發(fā)出來的?能不能更有效地,而不是單純靠模型規(guī)模急劇增加,而得到涌現(xiàn)能力?
8、如何做好模型輕量化?
9、如何高效構(gòu)建更全面的模型評(píng)測(cè)體系,以建立更加安全、可控、無偏見的模型?
結(jié)語:在大模型帶動(dòng)下,邁向通用人工智能
最后總結(jié)一下:
第一,大模型帶來了認(rèn)知智能技術(shù)跨越式發(fā)展。
1、從AI大模型1.0到2.0,從簡(jiǎn)單能力+針對(duì)具體任務(wù)的專用模型,到復(fù)雜能力+面向泛任務(wù)的通用模型,推動(dòng)著語言理解、多輪對(duì)話、問題求解進(jìn)入了基本可用時(shí)代。
2、有效解決NLP任務(wù)碎片化問題,大幅度提高研發(fā)效率,標(biāo)志著NLP進(jìn)入工業(yè)化可實(shí)施階段。
第二,大模型帶來了個(gè)人和企業(yè)工作的新范式。
1、個(gè)人:從內(nèi)容創(chuàng)作、辦公、搜索和人機(jī)交互,都將被深深變革。
2、金融領(lǐng)域:智能客服、營(yíng)銷、風(fēng)控、投研、推薦等各個(gè)方面將本增效。
3、企業(yè)服務(wù):提升人力、財(cái)務(wù)、營(yíng)銷、獲客、調(diào)研、報(bào)告生成等方面生產(chǎn)率,有效改善客戶滿意度,實(shí)現(xiàn)智能決策,提高工作效率,提升企業(yè)形象和市場(chǎng)競(jìng)爭(zhēng)力。
第三,未來在大模型帶動(dòng)下,從AI 1.0到AI 2.0,將不斷走向AGI。
1、實(shí)現(xiàn)負(fù)責(zé)任的、安全可控的、功能強(qiáng)大的通用大模型和功能引擎。
2、知識(shí)、常識(shí)、可解釋、自學(xué)習(xí)、動(dòng)態(tài)接入各類動(dòng)態(tài)和靜態(tài)數(shù)據(jù)。
3、成為認(rèn)知智能的基礎(chǔ)模型,通過云計(jì)算、本地部署和端,成為各項(xiàng)服務(wù)的內(nèi)在中樞和各類計(jì)算機(jī)軟硬件系統(tǒng)的泛在人機(jī)接口。
今天我的演講就到這里,謝謝大家!
以上是周明演講內(nèi)容的完整整理。