1、馬斯克:特斯拉一年前就可生成真實世界視頻

2、馬斯克連續(xù)發(fā)文施壓OpenAI

3、楊立昆開噴Sora:不理解物理世界

4、謝賽寧否認系Sora發(fā)明者

5、李志飛稱Sora是世界模擬器 歸功于三大要素

6、AI配音版Sora視頻上線

7、英偉達高級研究科學家回應Sora視頻“有聲”

8、傳月之暗面融資10億美元,美團、阿里參投

9、266家企業(yè)通過網(wǎng)信辦第四批深度合成算法備案

10、信通院可信AI汽車大模型啟動首批驗證

11、虹軟大模型引擎上線視頻生成功能

12、傅盛稱AGI和Sora沒有大關(guān)聯(lián)

13、UC伯克利大世界模型登GitHub熱榜第一

14、硅谷芯片大神懟阿爾特曼7萬億美元AI芯片計劃

1、馬斯克:特斯拉一年前就可生成真實世界視頻

今天,馬斯克在社交平臺X上回復網(wǎng)友稱,一年以前,特斯拉就已經(jīng)能以精確的物理生成真實世界的視頻,但由于訓練數(shù)據(jù)來自汽車,所以生成的視頻并不有趣,因此即便具有動態(tài)生成的內(nèi)容也看起來像來自特斯拉的視頻。他稱特斯拉缺乏FSD的訓練算力,因此沒有用其他視頻進行訓練,今年晚些時候,當特斯拉有閑置算力時,他們會進行訓練。馬斯克轉(zhuǎn)發(fā)了2023年特斯拉自動駕駛總監(jiān)Ashok Elluswamy介紹特斯拉如何用AI模擬真實世界駕駛的相關(guān)視頻,其中AI生成了7個不同角度視頻以實現(xiàn)演示。

2、馬斯克連續(xù)發(fā)文施壓OpenAI

今天,馬斯克在社交平臺X上連發(fā)多條推文施壓OpenAI,他轉(zhuǎn)發(fā)了2016年8月,OpenAI第一次收到英偉達捐贈DGX-1 AI超級計算機的推文,并說“現(xiàn)在看看發(fā)生了什么:(”。同時他還轉(zhuǎn)發(fā)了同天發(fā)布的OpenAI公司入口處照片,并@OpenAI稱,這是OpenAI“最初創(chuàng)建的原因”。馬斯克炮轟OpenAI背離初心,言外之意是對AI技術(shù)過快的發(fā)展表示擔憂。

3、楊立昆開噴Sora:不理解物理世界

今天,Meta首席AI科學家楊立昆在社交平臺X上發(fā)文評價Sora,一個“創(chuàng)造東西”的工具作為創(chuàng)造性的輔助工具是非常棒的。“但作為幫助人們采取行動的心理模型,它完全很糟糕?!辈⑶裔槍penAI Sora生成的“螞蟻穿梭蟻巢特寫”視頻中,螞蟻只有4條腿,楊立昆發(fā)文喊話Sora團隊負責人Aditya Ramesh:“螞蟻有六條腿,不是嗎?”楊立昆稱,Aditya在紐約大學讀本科時就在他的實驗室工作過,之后在OpenAI實習并留下任職。2月17日,楊立昆曾發(fā)文稱:“根據(jù)提示生成看起來最真實的視頻并不表明系統(tǒng)能理解物理世界,生成與世界模型的因果預測有很大不同。”

4、謝賽寧否認系Sora發(fā)明者

今天,據(jù)新浪科技報道,紐約大學助理教授謝賽寧發(fā)朋友圈辟謠自媒體稱其是Sora發(fā)明者之一。謝賽寧稱,Sora跟他的關(guān)系“只能說是一點關(guān)系都沒有”。對于Sora這樣的復雜系統(tǒng),人才第一,數(shù)據(jù)第二,算力第三,其他都沒有什么是不可替代的。他還談道:“在問Sora為什么沒出現(xiàn)在中國的同時,可能也得問問假設(shè)真的出現(xiàn)了(可能很快),我們有沒有準備好?”

5、李志飛稱Sora是世界模擬器 歸功于三大要素

今天,AI科技公司出門問問CEO李志飛在公眾號“飛哥說AI”發(fā)文,分析了“為什么說Sora是世界的模擬器?”他提到,ChatGPT通過“語言”這一思維的載體,其可以多方面模擬虛擬世界中的各種場景和角色(合理絲滑的故事線),成為虛擬世界的“模擬器”。而作為“物理世界的模擬器”,需要能夠在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實,為用戶提供一個逼真且不違反「物理規(guī)律」的數(shù)字世界。他們認為,Sora之所以有潛力成為下一代物理世界模擬器的翹楚,主要歸功于其基于多模態(tài)大模型的設(shè)計理念及其實現(xiàn)中巨大算力和工程能力。不過,他也提到,Sora并不是成為世界模擬器的唯一解法,另外一種可能是ChatGPT+物理渲染引擎UE。

6、AI配音版Sora視頻上線

昨天,AI音頻生成創(chuàng)企ElevenLabs在社交平臺X上,發(fā)布了為Sora生成的視頻添加音效后的視頻,如汽車行駛的引擎聲、公共交通行駛聲音、走路聲、海浪聲等。并且該公司還預告AI音效生成的相關(guān)功能即將上線。

傳月之暗面融資10億美元;馬斯克稱已掌握Sora類似技術(shù);楊立昆開噴Sora丨AIGC大事日報

7、英偉達高級研究科學家回應Sora視頻“有聲”

今天,英偉達高級研究科學家范麟熙(Jim Fan)發(fā)文回應AI音頻生成創(chuàng)企ElevenLabs為OpenAI Sora生成的視頻添加了音頻。范麟熙認為,目前這一音頻是由文本提示的,但正確的調(diào)節(jié)應該針對文本和視頻像素,既要學習準確的視頻,音頻映射還需要對潛在空間中的一些“隱式”物理進行建模。

想要正確模擬視頻的聲音需要做到:

(1)識別每個對象的類別、材料和空間位置;

(2)識別物體之間的高階相互作用,棍子是否擊中木質(zhì)、金屬或鼓表面?以什么速度;

(3)識別環(huán)境:餐館、空間站等;

(4)從模型的內(nèi)存中檢索物體和周圍環(huán)境的典型聲音模式;

(5)“軟”運行,學習物理規(guī)則來拼湊和調(diào)整聲音模式的參數(shù),甚至即時合成全新的聲音模式,有點像游戲引擎中的“程序音頻”;

(6)如果場景繁忙,模型需要根據(jù)空間位置疊加多個音軌。

以上這些都將通過大量視頻、音頻組合的梯度下降來學習,這些組合在大多數(shù)互聯(lián)網(wǎng)視頻中自然是時間對齊的。注意力層將在其權(quán)重中實現(xiàn)這些算法以滿足擴散目標。不過,目前還沒有如此高質(zhì)量的AI音頻引擎,他分享了一篇5年前名為“像素之聲”的論文。

論文地址:http: //sound-of-pixels.csail.mit.edu

8、傳月之暗面融資10億美元,美團、阿里參投

據(jù)36氪報道,國內(nèi)大模型獨角獸月之暗面近期已完成新一輪超10億美元融資,投資方包括紅杉中國、小紅書、美團、阿里,老股東跟投。本輪融資后,月之暗面估值已達約25億美元。據(jù)了解,月之暗面當前也已經(jīng)在秘密研發(fā)通用多模態(tài)模型,預計今年內(nèi)將推出。目前,月之暗面已經(jīng)完成千億參數(shù)規(guī)模的自研通用大模型,面向消費者的“kimi智能助手”。

9、266家企業(yè)通過網(wǎng)信辦第四批深度合成算法備案

2月18日,根據(jù)《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》,國家互聯(lián)網(wǎng)信息辦公室公開發(fā)布第四批境內(nèi)深度合成服務算法備案信息,包括獵戶星空大模型算法、愛詩科技視頻生成算法、TCL智能問答內(nèi)容生成算法 、vivo藍心大模型算法、智譜多模態(tài)通用文生圖算法、聆心CharacterChat生成算法等266家企業(yè)。

詳細備案清單地址:http://www.cac.gov.cn/2024-02/18/c_1709925427424332.htm

10、信通院可信AI汽車大模型啟動首批驗證

今天,依托于中國信息通信研究院開展的第三方評估測試平臺“可信AI評測”宣布,中國信通院可信AI汽車大模型首批標準符合性驗證正式啟動。此前,中國信息通信研究院聯(lián)合業(yè)內(nèi)30余家單位共同編制了《面向行業(yè)的大規(guī)模預訓練模型技術(shù)和應用評估方法 第4部分:汽車大模型》標準,此次驗證工作主要面向汽車大模型相關(guān)解決方案的應用單位和技術(shù)提供單位。應用方可評估汽車大模型的應用效能,對已應用或擬采用的汽車大模型產(chǎn)品進行評估。同時,技術(shù)方可對產(chǎn)品能力進行摸底。

11、虹軟大模型引擎上線視頻生成功能

今天,虹軟核心大模型技術(shù)引擎虹軟ArcMuse升級,將支持面向商拍的商業(yè)視頻自動生成。虹軟ArcMuse大模型視頻生成基于diffusion-transformer技術(shù)架構(gòu),通過圖像,ArcMuse大模型能夠捕捉到商品的細節(jié)特征、質(zhì)感、色彩等方面的精確信息,生成更能展示商品真實面貌的動態(tài)商拍視頻。在產(chǎn)品功能落地上,虹軟的ArcMuse引擎實現(xiàn)了兩大核心功能:一是商品展示視頻的自動生成,二是服裝模特視頻的自動生成。未來,PhotoStudio AI將成為能夠助力商家依靠產(chǎn)品圖片生成展示視頻的AIGC視頻創(chuàng)作工具。

體驗地址:https://photostudio.arcsoft.com.cn/

12、傅盛稱AGI和Sora沒有大關(guān)聯(lián)

今天,在央視財經(jīng)前沿科技訪談節(jié)目《光華錄》中,獵豹移動董事長兼CEO、獵戶星空董事長傅盛表示,OpenAI正式推出Sora是一個里程碑級別的事件;Sora的出現(xiàn)是更好的工程化、更大的算力的結(jié)果。他談道,Sora相當于打開了一扇門,很快很多人都會涌入這個領(lǐng)域。OpenAI把Transformer引進到了視頻的時間軸里面,真正地實現(xiàn)了對更多數(shù)據(jù)量的理解。傅盛還提到,通用人工智能的出現(xiàn)和Sora并無很大的關(guān)聯(lián)。

13、UC伯克利大世界模型登GitHub熱榜第一

今天,UC伯克利大學研究人員提出的大世界模型(Large World Model,LWM)登上GitHub榜首,目前已經(jīng)攬獲3.2K星標。為了應對內(nèi)存限制、計算復雜性和數(shù)據(jù)集有限等挑戰(zhàn),研究人員從數(shù)百萬個視頻和語言序列的標記中學習,整理了一個包含各種視頻和書籍的大型數(shù)據(jù)集,利用RingAttention技術(shù)對長序列進行可擴展訓練,并逐漸將上下文大小從4000 tokens增加到100萬tokens,并完全開源一系列7B參數(shù)模型。論文中提到,LWM可以回答超過1小時的YouTube視頻中的相關(guān)問題,還能在100萬tokens的上下文窗口內(nèi)實現(xiàn)高精度檢索,并且性能優(yōu)于GPT-4V和Gemini Pro。

論文地址:https://largeworldmodel.github.io/

項目地址:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file

14、硅谷芯片大神懟阿爾特曼7萬億美元AI芯片計劃

今天,硅谷芯片大神吉姆?凱勒(Jim Keller)在社交平臺X上回復OpenAI CEO薩姆·阿爾特曼(Sam Altman)籌集5-7萬億美元制造AI芯片的計劃,吉姆?凱勒稱,他可以用不到1萬億美元做到這一點。