1、GPT-4模型架構(gòu)等關(guān)鍵信息遭泄露

2、ACL 2023最佳論文放榜 西安交大等獲獎(jiǎng)

3、李飛飛團(tuán)隊(duì)發(fā)布“大模型版”機(jī)器人

4、微軟推出多模態(tài)AI模型CoDi

5、百川智能推出130億參數(shù)通用大語(yǔ)言模型

6、北京將發(fā)4000萬(wàn)元算力券 支持大模型企業(yè)

7、用戶吐槽必應(yīng)聊天失去創(chuàng)造力

8、星火大模型帶動(dòng)訊飛開(kāi)發(fā)者增85萬(wàn)

9、電商平臺(tái)引入AI后解雇90%員工

10、騰訊絕藝AI登頂日本麻將平臺(tái)

11、達(dá)闥機(jī)器人推出機(jī)器人大模型RobotGPT

12、美國(guó)立法者正在考慮圍繞AI立法

13、AI優(yōu)化器助大模型訓(xùn)練成本減半

1、GPT-4模型架構(gòu)等關(guān)鍵信息遭泄露

據(jù)愛(ài)范兒援引SemiAnalysis報(bào)道,今天,OpenAI旗下的GPT-4大量模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集等大量信息被泄露。爆料人稱,GPT-4架構(gòu)的封閉性是因?yàn)樗麄儤?gòu)建的東西是可復(fù)制的,Google、Meta、Anthropic、Inflection、Character、騰訊、字節(jié)跳動(dòng)、百度等在短期內(nèi)都將擁有與GPT-4一樣強(qiáng)大的模型。

據(jù)透露,在模型架構(gòu)方面,GPT-4的規(guī)模是GPT-3的10倍以上,作者認(rèn)為GPT-4在120層中包含了1.8萬(wàn)億參數(shù),而GPT-3只有大約1750億個(gè)參數(shù)。

OpenAI通過(guò)使用混合專家(MoE)模型來(lái)保持成本合理。具體而言,GPT-4擁有16個(gè)專家模型,每個(gè)專家的MLP參數(shù)約為1110億。其中,有兩個(gè)專家模型被用于前向傳播。此外,大約550億個(gè)參數(shù)用于注意力機(jī)制的共享。每次的前向傳播推理(生成一個(gè)token)僅利用了約2800億個(gè)參數(shù)和560TFLOP的計(jì)算。

在數(shù)據(jù)集構(gòu)成方面,GPT-4的訓(xùn)練花費(fèi)了13萬(wàn)億的token數(shù)據(jù)集。這個(gè)數(shù)據(jù)集因?yàn)闆](méi)有高質(zhì)量的token,還包含了許多個(gè)epoch。

在并行策略方面,OpenAI采用了8路張量并行,因?yàn)镹VLink最高只支持這么多。但除此之外,爆料作者聽(tīng)說(shuō)OpenAI采用15路并行管線。

在訓(xùn)練成本方面,OpenAI訓(xùn)練GPT-4的FLOPS約為2.15e25,在大約25000個(gè)A100上訓(xùn)練了90到100天,利用率在32%到36%之間。

原文鏈接:

https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

2、ACL 2023最佳論文放榜 西安交大等獲獎(jiǎng)

據(jù)ACL?2023官網(wǎng),今年的AI頂會(huì)ACL 2023獲獎(jiǎng)?wù)撐娜涨肮?,共?篇最佳論文獎(jiǎng)、4篇特別獎(jiǎng)和39篇優(yōu)秀論文。此外,還有區(qū)域主席獎(jiǎng),由每個(gè)領(lǐng)域的高級(jí)主席提名。據(jù)統(tǒng)計(jì),獲獎(jiǎng)?wù)撐恼纪陡蹇倲?shù)的1.5%-2.5%。今年獲獎(jiǎng)?wù)撐挠胁簧俪鲎試?guó)內(nèi)機(jī)構(gòu)及華人學(xué)者,涉及西安交通大學(xué)、清華大學(xué)、中科大、智譜AI等。

3篇ACL?2023最佳論文的簡(jiǎn)介及論文地址如下:

(1)Do Androids Laugh at Electric Sheep? Humor“Understanding”Benchmarks from The New Yorker Caption Contest

作者:Jack Hessel、Ana Marasovic、Jena D. Hwang、Lillian Lee、Jeff Da、Rowan Zellers、Robert Mankoff and Yejin Choi

論文地址:

https://arxiv.org/pdf/2209.06293.pdf

(2)What the DAAM: Interpreting Stable Diffusion Using Cross Attention

作者:Raphael Tang、Linqing Liu、Akshat Pandey、Zhiying Jiang、Gefei Yang、Karun Kumar、Pontus Stenetorp、Jimmy Lin and Ferhan Ture

論文地址:

https://arxiv.org/pdf/2210.04885.pdf

(3)From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

作者:Shangbin Feng、Chan Young Park、Yuhan Liu and Yulia Tsvetkov

論文地址:

https://arxiv.org/pdf/2305.08283.pdf

3、李飛飛團(tuán)隊(duì)發(fā)布“大模型版”機(jī)器人

據(jù)《科創(chuàng)板日?qǐng)?bào)》報(bào)道,AI科學(xué)家李飛飛帶領(lǐng)的團(tuán)隊(duì)日前發(fā)布了具身智能最新成果:大模型接入機(jī)器人,把復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃,人類可以很隨意地用自然語(yǔ)言給機(jī)器人下達(dá)指令,機(jī)器人也無(wú)需額外數(shù)據(jù)和訓(xùn)練。李飛飛團(tuán)隊(duì)將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法用大模型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互,所以直接解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

4、微軟推出多模態(tài)AI模型CoDi

根據(jù)微軟官網(wǎng),近日,微軟Azure認(rèn)知服務(wù)研究團(tuán)隊(duì)與北卡羅來(lái)納大學(xué)教堂山分校合作開(kāi)發(fā)名為“可組合擴(kuò)散(CoDi)”的AI模型,它能夠同時(shí)處理和生成任意模態(tài)組合的內(nèi)容。

據(jù)悉,CoDi采用了一種新穎的可組合生成策略,該策略涉及通過(guò)在擴(kuò)散過(guò)程中橋接對(duì)齊來(lái)構(gòu)建共享的多模態(tài)空間,從而能夠同步生成相互交織的模態(tài),例如將視頻和音頻的時(shí)間對(duì)齊。

5、百川智能推出130億參數(shù)通用大語(yǔ)言模型

今日,百川智能推出參數(shù)量130億的通用大語(yǔ)言模型Baichuan-13B-Base、對(duì)話模型Baichuan-13B-Chat及其INT4/INT8兩個(gè)量化版本。

這是百川智能發(fā)布的第二款通用大語(yǔ)言模型,而在前不久的6月15日,百川智能就已經(jīng)推出了首款70億參數(shù)量的中英文語(yǔ)言模型Baichuan-7B。相比此前發(fā)布的Baichuan-7B,Baichuan-13B在1.4萬(wàn)億token數(shù)據(jù)集上訓(xùn)練,超過(guò)LLaMA-13B40%,是當(dāng)前開(kāi)源13B尺寸下訓(xùn)練數(shù)據(jù)量最大的模型。

Baichuan-13B上下文窗口長(zhǎng)度為4096,不同于Baichuan-7B的RoPE編碼方式,Baichuan-13B使用了ALiBi位置編碼技術(shù),能夠處理長(zhǎng)上下文窗口,甚至可以推斷超出訓(xùn)練期間讀取數(shù)據(jù)的上下文長(zhǎng)度,從而能夠更好的捕捉文本中上下文的相關(guān)性,做出更準(zhǔn)確的預(yù)測(cè)或生成。

開(kāi)源地址:

Hugging Face:

預(yù)訓(xùn)練模型:

https://huggingface.co/baichuan-inc/Baichuan-13B-Base

對(duì)話模型:

https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

Github:

https://github.com/baichuan-inc/Baichuan-13B

Model Scope:

預(yù)訓(xùn)練模型:

https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/

對(duì)話模型:

https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/

6、北京將發(fā)4000萬(wàn)元算力券 支持大模型企業(yè)

據(jù)《科創(chuàng)板日?qǐng)?bào)》報(bào)道,北京市經(jīng)濟(jì)和信息化局黨組書(shū)記、局長(zhǎng)姜廣智在近日接受《科創(chuàng)板日?qǐng)?bào)》記者專訪時(shí)宣布,北京將以場(chǎng)景為牽引、應(yīng)用為導(dǎo)向,開(kāi)放更多典型場(chǎng)景,促進(jìn)大模型產(chǎn)業(yè)化應(yīng)用,按季度迭代推出大模型應(yīng)用成果,形成一批人工智能與經(jīng)濟(jì)社會(huì)發(fā)展深度融合的典型案例。

此外,該局正籌劃通過(guò)算力券等形式支持模型伙伴和模型觀察員,降低企業(yè)的訓(xùn)練成本、提高算力對(duì)接效率。首期預(yù)計(jì)支持不低于4000萬(wàn)元的算力券,補(bǔ)貼到模型伙伴企業(yè)。

7、用戶吐槽必應(yīng)聊天失去創(chuàng)造力

Reddit社區(qū)用戶近日發(fā)帖稱微軟對(duì)必應(yīng)聊天(Bing Chat)的限制過(guò)于嚴(yán)格,使必應(yīng)的回答變得沒(méi)有創(chuàng)造力,只剩下“作為AI語(yǔ)言模型,我不……”等無(wú)聊的廢話,因此他將棄用該平臺(tái)。這個(gè)帖子引發(fā)了眾多網(wǎng)友的共鳴,現(xiàn)有259條評(píng)論。

8、星火大模型帶動(dòng)訊飛開(kāi)發(fā)者增85萬(wàn)

7月10日晚間,科大訊飛披露半年度業(yè)績(jī)預(yù)告。根據(jù)預(yù)告,科大訊飛公司上半年預(yù)計(jì)實(shí)現(xiàn)營(yíng)業(yè)收入78億元,同比減少2.5%;公司上半年歸母凈利潤(rùn)預(yù)計(jì)為5500~8000萬(wàn)元,同比下降71%-80%。截至2023年6月30日,訊飛開(kāi)放平臺(tái)開(kāi)發(fā)者數(shù)為497.4萬(wàn)(去年同期343萬(wàn)),近一年增長(zhǎng)45%。其中,訊飛星火認(rèn)知大模型發(fā)布后,開(kāi)發(fā)者數(shù)量在兩個(gè)月內(nèi)增加了85萬(wàn)家。

9、電商平臺(tái)引入AI后解雇90%員工

印度電商平臺(tái)Dukaan創(chuàng)始人兼首席執(zhí)行官本周一發(fā)推特稱,在引入AI聊天機(jī)器人來(lái)回答客戶問(wèn)題后,公司90%的員工已被解雇。他解釋說(shuō),在引入AI助手后,解決問(wèn)題時(shí)間從之前的2小時(shí)13分鐘縮短到了3分12秒。他說(shuō):“鑒于經(jīng)濟(jì)狀況,初創(chuàng)公司優(yōu)先應(yīng)該考慮的是‘盈利能力’?!?/p>

10、騰訊絕藝AI登頂日本麻將平臺(tái)

騰訊今日宣布其自研棋牌類AI“絕藝LuckyJ”在國(guó)際知名麻將平臺(tái)“天鳳”上達(dá)到十段水平,刷新了AI在麻將領(lǐng)域的最好成績(jī)。日本在線麻將競(jìng)技平臺(tái)“天鳳”創(chuàng)建于2006年,擁有體系化的競(jìng)技規(guī)則和專業(yè)段位規(guī)則,受到職業(yè)麻將界的廣泛認(rèn)可。截至目前,天鳳平臺(tái)活躍人數(shù)23.8萬(wàn),而能達(dá)到十段的僅27人(含AI),不到萬(wàn)分之一。

根據(jù)騰訊提供的數(shù)據(jù),相比其他麻將AI和人類玩家,“絕藝LuckyJ”不僅穩(wěn)定段位更高,從零開(kāi)始達(dá)到十段所需的對(duì)戰(zhàn)局?jǐn)?shù)也明顯更少,僅需要1321局。這些數(shù)據(jù)的排名皆位于之前最強(qiáng)的兩個(gè)日本麻將AI之上。

11、達(dá)闥機(jī)器人推出機(jī)器人大模型RobotGPT

據(jù)中國(guó)新聞網(wǎng)報(bào)道,在2023 WAIC期間,云端機(jī)器人企業(yè)達(dá)闥機(jī)器人宣布推出業(yè)界首個(gè)機(jī)器人多模態(tài)大模型RobotGPT,包含RobotGPT 1.0服務(wù)平臺(tái)和RobotGPT 1.0一體機(jī)產(chǎn)品。

據(jù)悉,RobotGPT以多模態(tài)Transformer為基礎(chǔ),具備多模態(tài)(文本、語(yǔ)音、圖片、視覺(jué)、運(yùn)動(dòng)、點(diǎn)云等)融合感知、認(rèn)知、決策和行為生成能力,并基于人工反饋的強(qiáng)化學(xué)習(xí)完成并快速智能進(jìn)化;RobotGPT與機(jī)器人的具身智能相結(jié)合,實(shí)現(xiàn)機(jī)器人理解人類語(yǔ)言,自動(dòng)分解、規(guī)劃和執(zhí)行任務(wù),進(jìn)行實(shí)時(shí)交互,完成復(fù)雜的場(chǎng)景應(yīng)用,推動(dòng)具身智能的自主進(jìn)化,讓云端機(jī)器人成為通用人工智能的最佳載體。此外,RobotGPT還可以賦能數(shù)字人應(yīng)用,實(shí)現(xiàn)虛實(shí)融合。

12、美國(guó)立法者正在考慮圍繞AI立法

據(jù)外媒報(bào)道,美國(guó)參議院將在本周二首次召開(kāi)關(guān)于AI的機(jī)密簡(jiǎn)報(bào)會(huì),政府將在會(huì)議中向參議員介紹AI的機(jī)密情況。據(jù)悉,參議院民主黨領(lǐng)袖Chuck Schumer在一封信中告訴參議員:“簡(jiǎn)報(bào)將展示美國(guó)政府如何利用和投資人工智能來(lái)保護(hù)我們的國(guó)家安全,并了解我們的對(duì)手在人工智能方面所做的事情……我們作為立法者的工作是傾聽(tīng)專家的意見(jiàn),我們盡可能多地學(xué)習(xí),以便將這些想法轉(zhuǎn)化為立法行動(dòng)?!?/p>

13、AI優(yōu)化器助大模型訓(xùn)練成本減半

據(jù)量子位報(bào)道,近日,新加坡國(guó)立大學(xué)團(tuán)隊(duì)打造的CAME優(yōu)化器在ACL會(huì)議上獲得了杰出論文獎(jiǎng)。優(yōu)化器在大語(yǔ)言模型的訓(xùn)練中占據(jù)了大量?jī)?nèi)存資源,而該團(tuán)隊(duì)提出的優(yōu)化器能夠在性能保持不變的情況下將內(nèi)存消耗降低了一半,進(jìn)而把大模型訓(xùn)練成本降低近一半,據(jù)稱目前已經(jīng)投入了實(shí)際應(yīng)用。

論文地址:

https://arxiv.org/abs/2307.02047

GitHub項(xiàng)目頁(yè):

https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME