「自動駕駛新青年講座」由智猩猩企劃,致力于邀請全球知名高校、頂尖研究機構(gòu)以及優(yōu)秀企業(yè)的新青年,主講在環(huán)境感知、精準(zhǔn)定位、決策規(guī)劃、控制執(zhí)行等自動駕駛關(guān)鍵技術(shù)上的最新研究成果和開發(fā)實踐。
「自動駕駛新青年講座」目前已完結(jié)34講,有興趣分享的朋友,可以與智猩猩教研團隊進行郵件(class@zhidx.com)聯(lián)系
自動駕駛領(lǐng)域的算法研究和落地應(yīng)用已經(jīng)取得了諸多顯著進展,但這些近期的工作在遇到長尾事件和復(fù)雜城市駕駛場景時,仍存在一系列困難與挑戰(zhàn),甚至可能引發(fā)嚴(yán)重的駕駛事故。
更具體來說,以往的自動駕駛方法傾向于依賴有限格式的輸入(例如傳感器數(shù)據(jù)和導(dǎo)航點),限制了車輛理解語言信息和與人交互的能力。而大語言模型(LLM)相關(guān)的最新研究成果則展現(xiàn)出接近“通用人工智能”的能力,包含一系列令人印象深刻的知識理解和推理能力。因此,如何將二者有效結(jié)合就成為了一個值得探索的研究課題。
LMDrive 是香港中文大學(xué)、商湯科技,以及上海人工智能實驗室(OpenDILab 團隊)等機構(gòu)的研究者們提出的第一個利用大語言模型進行閉環(huán)端到端自動駕駛的工作,結(jié)合了自然語言指令和多模態(tài)傳感器數(shù)據(jù),實現(xiàn)了復(fù)雜駕駛場景中準(zhǔn)確且高效的導(dǎo)航和人機交互。

LMDrive 主要從以下四個方面進行了深入的探索和研究:
1、提出全新的自動駕駛框架 LMDrive:這是一個端到端、閉環(huán)、基于語言控制的自動駕駛框架,能夠通過多模態(tài)多視角傳感器數(shù)據(jù)和自然語言指令與動態(tài)環(huán)境進行交互。
2、構(gòu)建了約 64K 數(shù)據(jù)量的語言引導(dǎo)駕駛數(shù)據(jù)集:其中每個條目包含一條導(dǎo)航指令、幾條提示指令、一系列多模態(tài)多視角傳感器數(shù)據(jù)和車輛控制信號。每個數(shù)據(jù)片段的時長從 2 秒到 20 秒不等。
3、推出 LangAuto 基準(zhǔn)測試框架:用于評估以語言指令為導(dǎo)航輸入的自動駕駛Agent 性能,涵蓋誤導(dǎo)性/冗長指令和具有挑戰(zhàn)性的對抗性駕駛場景。
4、進行廣泛的閉環(huán)實驗:通過實驗驗證所提出框架的有效性,并分析 LMDrive 的不同組成部分,為沿此方向的研究提供分析。
1月22日晚7點,「自動駕駛新青年講座」第35講邀請到 LMDriver 一作、香港中文大學(xué) MMLab 在讀博士邵昊參與,主講《LMDrive:大語言模型加持的閉環(huán)端到端自動駕駛框架》。
講者
邵昊,香港中文大學(xué)MMLab在讀博士;師從李鴻升教授和王曉剛教授,研究方向為端到端自動駕駛,多模態(tài)大語言模型,視頻理解;曾在CVPR、CoRL、NeurIPS、RSS等頂級會議發(fā)表多篇論文;曾獲2022年度CARLA端到端自動駕駛挑戰(zhàn)賽冠軍(sensor track),2020年度ActivityNet挑戰(zhàn)賽冠軍等。
第35講
主 題
《LMDrive:大語言模型加持的閉環(huán)端到端自動駕駛框架》
提 綱
1、端到端閉環(huán)自動駕駛概述
2、基于語言控制的端到端閉環(huán)自動駕駛框架 LMDrive
3、64K 數(shù)據(jù)量的語言引導(dǎo)駕駛數(shù)據(jù)構(gòu)建
4、基于語言引導(dǎo)的自動駕駛 Agent 性能評估
5、廣泛的閉環(huán)實驗驗證及未來研究方向探討
直 播 信 息
直播時間:1月22日19:00
直播地點:智東西公開課知識店鋪
成果
論文標(biāo)題《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》
論文地址https://arxiv.org/abs/2312.07488
代碼鏈接https://github.com/opendilab/LMDrive