DeepSeek通過軟硬件協(xié)同的的全棧優(yōu)化策略,在有限的硬件資源下實現(xiàn)了極致的性能提升。

比如利用FlashMLA技術(shù)針對多頭潛在注意力進行優(yōu)化,能夠充分釋放GPU算力。此外,DeepSeek還通過底層編程語言PTX直接對硬件資源進行調(diào)配,實現(xiàn)了寄存器分配、線程調(diào)度的細粒度優(yōu)化。在軟件層面,DeepSeek通過FP8混合精度訓練、KV Cache緩存優(yōu)化、并行計算等技術(shù),進一步提升了系統(tǒng)的整體效率。

DeepSeek的成功,充分證明了軟硬件協(xié)同優(yōu)化的巨大潛力,也為AI Infra的未來技術(shù)發(fā)展提供了新的思考方向和借鑒思路。

3月18日19點智猩猩「DeepSeek大解讀」系列公開課第5期將開講,由清華大學電子工程系博士后曾書霖主講,主題為《DeepSeek對軟硬件協(xié)同優(yōu)化的啟示與思考》。

曾書霖博士主要從事軟硬協(xié)同優(yōu)化研究和AI加速器設(shè)計,實現(xiàn)了全球首個多模態(tài)大模型推理LPU IP,并首次在單卡FPGA上實現(xiàn)7B大模型和文生視頻的端到端推理,獲得了FPGA 2025最佳論文。

本次公開課,曾書霖博士首先會分享DeepSeek在軟硬件協(xié)同優(yōu)化方面的創(chuàng)新和思考,之后會圍繞大語言模型推理 IP FlightLLM、視頻生成大模型推理 IP FlightVGM,闡述團隊基于FPGA的大模型軟硬件協(xié)同工作。最后,曾書霖博士還將深入講解面向智能終端的推理LPU IP設(shè)計。

從DeepSeek看軟硬件協(xié)同優(yōu)化,兼談推理LPU IP設(shè)計|清華大學博士后曾書霖主講預(yù)告

公開課內(nèi)容

主題:DeepSeek對軟硬件協(xié)同優(yōu)化的啟示與思考
提綱:
1、從DeepSeek看軟硬件協(xié)同優(yōu)化
2、基于FPGA的大模型軟硬件協(xié)同
3、面向智能終端的推理LPU IP設(shè)計

主講人

曾書霖,清華大學電子工程系博士、博士后,博士期間主要從事軟硬協(xié)同優(yōu)化研究和AI加速器設(shè)計,發(fā)表高水平國際會議/期刊論文20余篇。實現(xiàn)全球首個多模態(tài)大模型推理LPU IP,首次在單卡FPGA上實現(xiàn)7B大模型和文生視頻的端到端推理,獲FPGA 2025最佳論文。

直播時間

3月18日19:00-20:00