智東西(公眾號(hào):zhidxcom)
作者 | 江宇
編輯 | 云鵬

智東西1月29日?qǐng)?bào)道,今日凌晨,2024年諾貝爾化學(xué)獎(jiǎng)得主、谷歌DeepMind CEO Demis Hassabis帶領(lǐng)團(tuán)隊(duì)研發(fā)的AI基因組模型——AlphaGenome,登上了頂級(jí)期刊Nature(自然)最新一期封面。這是繼AlphaFold之后,DeepMind又一項(xiàng)重磅生命科學(xué)研究登上Nature。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

AlphaGenome旨在解決生物學(xué)中一個(gè)長期未解的難題:人類基因組中約98%的非編碼區(qū)域雖然不直接產(chǎn)生蛋白質(zhì),卻調(diào)控著基因的開啟、剪接與表達(dá),其變異常常與疾病風(fēng)險(xiǎn)密切相關(guān),但難以用傳統(tǒng)手段解析。

為此,DeepMind研究團(tuán)隊(duì)構(gòu)建了一個(gè)全新AI架構(gòu),可輸入百萬堿基長度的DNA序列,并以單堿基分辨率,預(yù)測RNA表達(dá)量、剪接結(jié)構(gòu)、染色質(zhì)可及性、轉(zhuǎn)錄因子結(jié)合位點(diǎn)乃至三維結(jié)構(gòu)等近6000項(xiàng)調(diào)控特征

該項(xiàng)目論文題為《Advancing regulatory variant effect prediction with AlphaGenome(借助AlphaGenome技術(shù)提升調(diào)控變異的效應(yīng)預(yù)測能力)》,也是次有AI模型實(shí)現(xiàn)了對(duì)人類基因調(diào)控“從序列到功能”的統(tǒng)一建模

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

過去40億年積淀的生命遺傳密碼,如今正被AI工具以“統(tǒng)一建模”的方式重新解碼。

DeepMind在2025年6月曾通過博客預(yù)告此項(xiàng)目,彼時(shí)AlphaGenome已向科研界開放預(yù)覽API,重點(diǎn)在于構(gòu)建一個(gè)更具解釋力和泛化能力的DNA序列模型,作為一種“通用型變異解讀引擎”投入研究使用。

此次正式發(fā)表在Nature的版本中,DeepMind團(tuán)隊(duì)不僅完成了全模態(tài)性能評(píng)估,更在多個(gè)疾病變異機(jī)制中展示了AlphaGenome的推理能力,包括如何準(zhǔn)確預(yù)測TAL1致癌突變的激活機(jī)制,全面驗(yàn)證了AlphaGenome在剪接、表達(dá)、染色質(zhì)狀態(tài)等關(guān)鍵通路上的預(yù)測能力。

研究者認(rèn)為,這一模型將為罕見病致因定位、新型治療靶點(diǎn)發(fā)掘、以及合成生物學(xué)設(shè)計(jì)等方向提供強(qiáng)有力的通用工具。

論文鏈接:https://www.nature.com/articles/s41586-025-10014-0

一、百萬級(jí)DNA輸入和堿基級(jí)預(yù)測,突破“長序列”與“高分辨率”難題

AlphaGenome的核心創(chuàng)新之一,是首次將輸入DNA序列長度提升至100萬堿基(1Mb),同時(shí)在輸出層保持了堿基級(jí)別的預(yù)測精度。

這打破了以往模型在“長序列”與“高分辨率”之間的權(quán)衡。例如,以往的SpliceAI等模型雖然具備高分辨率,但受限于只能處理1萬堿基以內(nèi)的短序列,難以捕捉遠(yuǎn)距離調(diào)控。

而Enformer等模型雖能處理20萬至50萬堿基的長序列,卻需犧牲精度,用128bp等為單位分箱預(yù)測,無法精準(zhǔn)描摹剪接位點(diǎn)、增強(qiáng)子與啟動(dòng)子的細(xì)粒度結(jié)構(gòu)。

在訓(xùn)練流程上,AlphaGenome采取了“預(yù)訓(xùn)練+蒸餾”的兩階段架構(gòu),通過多個(gè)TPU并行處理、序列平行化、U-Net結(jié)構(gòu)和Transformer結(jié)合,既保留了細(xì)節(jié),又?jǐn)U大了上下文范圍。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome模型架構(gòu)、訓(xùn)練方案和綜合評(píng)估性能

跨24項(xiàng)基因組軌跡任務(wù)中,AlphaGenome在22項(xiàng)上超越當(dāng)前最佳模型;在26項(xiàng)變異效應(yīng)預(yù)測中,有25項(xiàng)達(dá)到或超過當(dāng)前SOTA模型的表現(xiàn)。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲研究團(tuán)隊(duì)基因組軌道上的預(yù)測性能進(jìn)行了逐項(xiàng)評(píng)估

二、統(tǒng)一預(yù)測機(jī)制,變異影響“一鍵總覽”

與傳統(tǒng)模型需要分別針對(duì)不同任務(wù)(如剪接、表達(dá)、染色質(zhì)結(jié)構(gòu))訓(xùn)練不同網(wǎng)絡(luò)不同,AlphaGenome是第一個(gè)可在單次推理中同時(shí)輸出11類模態(tài)(modality)預(yù)測結(jié)果的統(tǒng)一模型。

它支持從一段DNA序列中,直接推斷出RNA表達(dá)水平、剪接位點(diǎn)及使用情況、染色質(zhì)可達(dá)性、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、組蛋白修飾模式、三維接觸圖譜等調(diào)控特征,且適用于人類與小鼠細(xì)胞在數(shù)千種不同細(xì)胞或組織類型中的表現(xiàn)。

這種“多模態(tài)聯(lián)合”結(jié)構(gòu)為突變解析帶來了全新視角。

研究人員可以對(duì)任意一個(gè)DNA變異,通過模型快速預(yù)測它在多個(gè)調(diào)控層級(jí)的影響,并比較參考與突變版本的差異,進(jìn)而推斷該變異是否會(huì)導(dǎo)致表達(dá)上調(diào)、剪接改變,或染色質(zhì)狀態(tài)變化。

論文中特別展示了模型如何成功預(yù)測致癌突變激活TAL1基因的路徑機(jī)制,驗(yàn)證了其在非編碼區(qū)變異解釋中的實(shí)際價(jià)值。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome對(duì)T-ALL中TAL1致癌突變的多模態(tài)預(yù)測示例

三、剪接預(yù)測能力升級(jí),有望推動(dòng)罕見病研究

RNA剪接異常是諸多罕見病(如脊髓性肌萎縮癥、囊性纖維化)的致病根源,但傳統(tǒng)AI模型往往只能識(shí)別剪接位點(diǎn)本身,而難以全面解析剪接使用率及剪接連接模式(splice junction)。

AlphaGenome首次在模型中引入了剪接連接點(diǎn)的直接預(yù)測能力(splice junction modeling),結(jié)合位點(diǎn)預(yù)測與使用率分析,構(gòu)建出更完整的剪接調(diào)控圖譜。

在GTEx等數(shù)據(jù)集中,該模型成功預(yù)測多個(gè)已知致病突變對(duì)剪接的影響,在ClinVar和MPRA等數(shù)據(jù)集上亦得當(dāng)前最優(yōu)的評(píng)估成績,在7個(gè)剪接效應(yīng)任務(wù)中,AlphaGenome在6個(gè)上表現(xiàn)最佳。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome在剪接變異效應(yīng)預(yù)測任務(wù)中達(dá)到SOTA水平

這項(xiàng)能力對(duì)于理解非編碼變異如何引發(fā)病理剪接、用于新型診斷方法開發(fā)具有重要推動(dòng)作用。

結(jié)語:繼AlphaFold之后,DeepMind用AI再解“生命之書”

AlphaGenome的出現(xiàn)不僅為DNA序列建模設(shè)立了一個(gè)全新技術(shù)基線,也為生命科學(xué)研究者打開了一扇觀察遺傳調(diào)控全貌的新窗口。

其覆蓋廣泛模態(tài)、支持長序列輸入、具備單堿基預(yù)測精度的能力,使其在解碼基因調(diào)控代碼、理解變異影響路徑、指導(dǎo)合成DNA設(shè)計(jì)等領(lǐng)域具備廣泛前景,下一代疾病機(jī)制研究、罕見病診斷及合成生物學(xué)提供了通用工具基礎(chǔ)。

隨著模型向?qū)W術(shù)界開放,AlphaGenome或?qū)⒊蔀椤盎虬鍭lphaFold”的有力繼任者。