1、Meta開源實(shí)時翻譯系列模型Seamless

2、Meta推出音頻生成模型Audiobox

3、Meta發(fā)布多模態(tài)數(shù)據(jù)集Ego-Exo4D

4、阿里云通義千問開源720億參數(shù)大模型

5、阿里云舉辦首屆通義千問AI挑戰(zhàn)賽

6、阿里國際發(fā)布3款A(yù)I設(shè)計(jì)生態(tài)工具

7、阿里推出AI動畫生成框架 從靜態(tài)圖像生成動畫

8、昆侖萬維發(fā)布Agent開發(fā)平臺天工SkyAgents

9、出門問問奇妙元推出奇妙助手功能

10、騰訊牽頭制定全球首個金融風(fēng)控大模型國際標(biāo)準(zhǔn)

11、山東:瞄準(zhǔn)AI等七大未來產(chǎn)業(yè) 大力推進(jìn)AI+

12、Adobe等推出DMD方法 生圖速度提升30倍

13、Stable Audio新增支持上傳音頻生成音樂

14、基于大學(xué)知識的多模態(tài)LLM測評基準(zhǔn)MMMU發(fā)布

15、微軟未來三年向英國AI基礎(chǔ)設(shè)施投資225億元

1、Meta開源實(shí)時翻譯系列模型Seamless

今日,Meta推出實(shí)時翻譯系統(tǒng)Seamless。為了構(gòu)建Seamless,Meta開發(fā)了一種用于保留語音到語音翻譯中表達(dá)能力的模型SeamlessExpressive,以及一個流式翻譯模型SeamlessStreaming,可以以幾乎不到兩秒的延遲提供最先進(jìn)的結(jié)果。所有模型均基于Meta在8月發(fā)布的基礎(chǔ)模型SeamlessM4T v2構(gòu)建。據(jù)介紹,與之前在表達(dá)性語音研究方面的努力相比,SeamlessExpressive解決了韻律中某些尚未開發(fā)的方面,例如語速和節(jié)奏停頓,同時還保留了情感和風(fēng)格。該模型目前在英語、西班牙語、德語、法語、意大利語和中文之間的語音到語音翻譯中保留了這些元素。SeamlessStreaming支持近100種輸入和輸出語言的自動語音識別和語音到文本翻譯,以及近100種輸入語言和36種輸出語言的語音到語音翻譯。Meta開源了全部四種模型,以便研究人員在此基礎(chǔ)上進(jìn)一步研究。

開源地址:

github.com/facebookresearch/seamless_communication

Demo地址:

seamless.metademolab.com/expressive

2、Meta推出音頻生成模型Audiobox

今日,Meta推出音頻生成模型Audiobox,該模型可以結(jié)合使用語音輸入和自然語言文本提示來生成語音和音效,從而可以輕松地為各種用例創(chuàng)建自定義音頻。Meta稱,據(jù)其所知,Audiobox是第一個支持語音和文本雙輸入以進(jìn)行自由語音重新設(shè)計(jì)的模型。Meta將在接下來的幾周內(nèi)開放基于Audiobox的應(yīng)用程序,以及展示Audiobox功能的交互式演示。

3、Meta發(fā)布多模態(tài)數(shù)據(jù)集Ego-Exo4D

今日,Meta推出一個基礎(chǔ)數(shù)據(jù)集和基準(zhǔn)套件Ego-Exo4D,用于支持視頻學(xué)習(xí)和多模態(tài)感知的研究。據(jù)介紹,Ego-Exo4D是Meta的FAIR(基礎(chǔ)人工智能研究)、Aria項(xiàng)目和15所大學(xué)合作伙伴歷時兩年的研究成果。Ego-Exo4D的核心是同時捕捉參與者佩戴攝像頭的第一人稱(自我中心)視角和周圍攝像頭的多個第三人稱(非自我中心)視角。兩個視角相互補(bǔ)充,自我中心的視角揭示了參與者的視聽感知,而非自我中心的視角則揭示了周圍場景和上下文。研究者將在本月開源數(shù)據(jù)(包括超過1400小時的視頻)和用于新基準(zhǔn)測試任務(wù)的注釋。

論文地址:

ego-exo4d-data.org/paper/ego-exo4d.pdf

項(xiàng)目主頁:

ego-exo4d-data.org

4、阿里云通義千問開源720億參數(shù)大模型

今日,阿里云在京舉辦通義千問發(fā)布會,開源通義千問720億參數(shù)模型Qwen-72B。據(jù)介紹,Qwen-72B在10個權(quán)威基準(zhǔn)測評創(chuàng)下開源模型最優(yōu)成績,性能超越開源標(biāo)桿Llama 2-70B和大部分商用閉源模型,可適配企業(yè)級、科研級的高性能應(yīng)用。通義千問當(dāng)天還開源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio,在業(yè)界率先實(shí)現(xiàn)“全尺寸、全模態(tài)”開源。

5、阿里云舉辦首屆通義千問AI挑戰(zhàn)賽

今日,在通義千問發(fā)布會上,阿里云宣布首屆“通義千問AI挑戰(zhàn)賽”開賽,參賽者可免費(fèi)使用通義開源模型家族,包括剛剛發(fā)布的720億參數(shù)模型Qwen-72B。賽事分為算法和Agent兩大賽道,前者針對通義千問大模型的微調(diào)訓(xùn)練,希望通過高質(zhì)量的數(shù)據(jù)探索開源模型的代碼能力上限;后者針對基于通義千問大模型和魔搭社區(qū)的Agent-Builder框架開發(fā)新一代AI應(yīng)用,促進(jìn)大模型在各行各業(yè)的落地應(yīng)用。即日起,開發(fā)者可通過天池平臺報(bào)名參賽,主辦方將為參賽者提供價(jià)值50萬元的免費(fèi)云上算力和獎金。

6、阿里國際發(fā)布3款A(yù)I設(shè)計(jì)生態(tài)工具

據(jù)環(huán)球網(wǎng)報(bào)道,今日,在第六屆中國國際工業(yè)設(shè)計(jì)博覽會上,阿里國際數(shù)字商業(yè)集團(tuán)發(fā)布了3款設(shè)計(jì)生態(tài)工具:堆友、Pic Copilot、鹿班AI,覆蓋AI繪畫、AI模型創(chuàng)作、AI圖像和視頻處理等功能。據(jù)悉,這3款產(chǎn)品目前已經(jīng)服務(wù)數(shù)十萬商家、覆蓋50萬設(shè)計(jì)師。此外,工信部國際經(jīng)濟(jì)技術(shù)合作中心還與阿里國際設(shè)計(jì)簽署了框架協(xié)議,共同促進(jìn)數(shù)智設(shè)計(jì)的發(fā)展。

7、阿里推出AI動畫生成框架 從靜態(tài)圖像生成動畫

11月29日,來自阿里的研究團(tuán)隊(duì)發(fā)布論文,利用擴(kuò)散模型的能力,提出了一個專門針對角色動畫的新框架Animate Anyone,可從靜態(tài)圖像AI生成動態(tài)視頻,從而將任意角色動畫化。為了保持參考圖像中復(fù)雜外觀特征的一致性,作者改進(jìn)了ReferenceNet算法,通過空間注意力融合詳細(xì)特征。為了確??煽匦院瓦B貫性,作者引入了一個高效的姿勢指導(dǎo)器來指導(dǎo)角色的動作,并采用了一種有效的時間建模方法,確保視頻幀之間的平滑過渡。

論文地址:

arxiv.org/pdf/2311.17117

8、昆侖萬維發(fā)布Agent開發(fā)平臺天工SkyAgents

據(jù)昆侖萬維集團(tuán)微信公眾號發(fā)文,今日,昆侖萬維正式發(fā)布天工SkyAgents平臺。據(jù)介紹,天工SkyAgents是國內(nèi)領(lǐng)先的AI Agent開發(fā)平臺,基于昆侖萬維天工大模型打造,具備從感知到?jīng)Q策,從決策到執(zhí)行的自主學(xué)習(xí)和獨(dú)立思考能力。用戶可以通過自然語言構(gòu)建自己的單個或多個“私人助理”,并將不同任務(wù)模塊化,通過操作系統(tǒng)模塊的方式,實(shí)現(xiàn)執(zhí)行包括問題預(yù)設(shè)、指定回復(fù)、知識庫創(chuàng)建與檢索、意圖識別、文本提取、http請求等任務(wù)。對于企業(yè)用戶而言,天工SkyAgents則可以按需拼裝成企業(yè)IT、智能客服、企業(yè)培訓(xùn)、HR、法律顧問等眾多個性化的應(yīng)用,并支持一鍵服務(wù)部署,確保其在不同業(yè)務(wù)系統(tǒng)中的無縫接入。

內(nèi)測申請地址:agentspro.cn

9、出門問問奇妙元推出奇妙助手功能

據(jù)出門問問微信公眾號發(fā)文,昨日,出門問問旗下AI數(shù)字人視頻創(chuàng)作平臺奇妙元全面升級,推出奇妙助手功能。據(jù)介紹,奇妙助手能快速生成制作視頻所需要的素材,為短視頻生成高質(zhì)量圖片,內(nèi)置8種風(fēng)格、3種尺寸比例;基于大模型能力智能生成文本,內(nèi)置中英雙語和多種語言情緒;上傳PPT一鍵生成講解視頻,搭載智能解析,重點(diǎn)提煉;一站式生成數(shù)字人視頻,提供海量模板素材;一鍵提取視頻臺詞,支持在線視頻鏈接和本地視頻上傳,準(zhǔn)確率達(dá)99%;數(shù)字人商店上新33+形象,模板商店上新海量剪輯模板素材。

10、騰訊牽頭制定全球首個金融風(fēng)控大模型國際標(biāo)準(zhǔn)

據(jù)騰訊云智能微信公眾號發(fā)文,昨日,IEEE金融風(fēng)控大模型標(biāo)準(zhǔn)啟動會在深圳召開。該標(biāo)準(zhǔn)由騰訊主導(dǎo)發(fā)起,是全球范圍內(nèi)首個金融風(fēng)險(xiǎn)控制領(lǐng)域的大模型國際標(biāo)準(zhǔn),旨在為金融機(jī)構(gòu)風(fēng)控建模環(huán)節(jié)中應(yīng)用AI大模型技術(shù)提供參考和指引,使金融機(jī)構(gòu)能夠在日益復(fù)雜和數(shù)據(jù)驅(qū)動的金融環(huán)境中高效預(yù)測、衡量和管理業(yè)務(wù)風(fēng)險(xiǎn)。該標(biāo)準(zhǔn)適用于金融零售信貸場景的風(fēng)險(xiǎn)控制管理,幫助金融機(jī)構(gòu)在運(yùn)用AI技術(shù)生成金融風(fēng)控大模型的過程中提供參考,包括應(yīng)用場景、基本條件、模型創(chuàng)建以及迭代等環(huán)節(jié)。啟動會現(xiàn)場明確了標(biāo)準(zhǔn)的研制方案,并計(jì)劃于明年9月正式發(fā)布。

11、山東:瞄準(zhǔn)AI等七大未來產(chǎn)業(yè) 大力推進(jìn)AI+

據(jù)工信微報(bào)報(bào)道,昨日上午,山東省新型工業(yè)化推進(jìn)大會在濟(jì)南召開。山東省委書記林武強(qiáng)調(diào),要扎實(shí)做好新型工業(yè)化各項(xiàng)工作,全面加快新型工業(yè)化進(jìn)程。聚焦高端化發(fā)展,在布局未來產(chǎn)業(yè)上持續(xù)加力,重點(diǎn)瞄準(zhǔn)元宇宙、人工智能(AI)、生命科學(xué)、未來網(wǎng)絡(luò)、量子科技、人形機(jī)器人、深??仗炱叽笪磥懋a(chǎn)業(yè),加強(qiáng)前瞻性研究布局,建好未來產(chǎn)業(yè)先導(dǎo)區(qū)。聚焦智能化發(fā)展,著力推進(jìn)數(shù)實(shí)深度融合。要更大力度促進(jìn)AI應(yīng)用,統(tǒng)籌布局通用大模型和垂直大模型,豐富算力資源,培育一批高水平智能技術(shù)和產(chǎn)品,大力推進(jìn)“AI+”。

12、Adobe等推出DMD方法 生圖速度提升30倍

今日,Adobe和麻省理工學(xué)院的研究人員共同發(fā)布論文,介紹一種分布匹配蒸餾(Distribution Matching Distillation,DMD)方法,可在速度提升30倍的情況下生成與Stable Diffusion v1.5相當(dāng)?shù)膱D像質(zhì)量。論文的核心思想是訓(xùn)練兩個擴(kuò)散模型,不僅估計(jì)目標(biāo)真實(shí)分布的評分函數(shù),還估計(jì)偽造分布的評分函數(shù)。方法類似于生成對抗網(wǎng)絡(luò)(GANs),即通過同時訓(xùn)練評論家和生成器來最小化真實(shí)分布和偽造分布之間的差異,但不同之處在于訓(xùn)練不涉及可能導(dǎo)致不穩(wěn)定的對抗博弈,并且評論家模型可以充分利用預(yù)訓(xùn)練擴(kuò)散模型的權(quán)重。

項(xiàng)目地址:

tianweiy.github.io/dmd

論文地址:

tianweiy.github.io/dmd/dmd_highres.pdf

13、Stable Audio新增支持上傳音頻生成音樂

今日,AI獨(dú)角獸Stability AI旗下的音樂生成產(chǎn)品Stable Audio宣布推出一系列新功能,包括支持輸入音頻來指導(dǎo)生成音樂,增加更多參數(shù)來提升創(chuàng)作體驗(yàn),新增鏈接分享、視頻下載功能,內(nèi)置風(fēng)格提示庫等。

14、基于大學(xué)知識的多模態(tài)LLM測評基準(zhǔn)MMMU發(fā)布

11月29日,據(jù)論文作者、美國俄亥俄州立大學(xué)(OSU)博士岳翔于社交平臺X發(fā)文,其與來自7個機(jī)構(gòu)的20多名研究人員共同發(fā)表論文,推出了MMMU基準(zhǔn)測試。該測試收集了11.5K來自大學(xué)考試、測驗(yàn)和教科書的多模態(tài)問題,橫跨藝術(shù)設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文社科、技術(shù)與工程等30個科目和183個子領(lǐng)域,覆蓋圖表、圖表、地圖、表格、樂譜和化學(xué)結(jié)構(gòu)等30種異構(gòu)圖像類型,專注于利用特定領(lǐng)域知識進(jìn)行高級感知和推理。論文測試了14個開源大模型以及GPT-4V,測評顯示,即使是先進(jìn)的GPT-4V也只能達(dá)到56%的準(zhǔn)確率。論文對GPT-4V的150個錯誤案例進(jìn)行的錯誤分析表明,35%的錯誤是感性的,29%是由于缺乏知識,26%是由于推理過程中的缺陷。

論文地址:

arxiv.org/abs/2311.16502

項(xiàng)目主頁:

mmmu-benchmark.github.io

15、微軟未來三年向英國AI基礎(chǔ)設(shè)施投資225億元

據(jù)路透社今日報(bào)道,微軟計(jì)劃在未來三年內(nèi)向英國投資25億英鎊(約合人民幣225億元),以支持AI的增長,這是該公司迄今在英國的最大單筆投資。投資將用于使微軟在英國的數(shù)據(jù)中心面積增加一倍以上,為新的AI模型提供關(guān)鍵的基礎(chǔ)設(shè)施。