10月22日,由智猩猩聯(lián)合 NVIDIA 策劃推出的「智猩猩公開課 NVIDIA 自動(dòng)駕駛智能體專場」順利完結(jié)。NVIDIA Research 自動(dòng)駕駛方向研究科學(xué)家李柏依以《探索基于多模態(tài)LLM 的自動(dòng)駕駛智能體》為主題進(jìn)行了直播講解,共涉及 LLaDA、TOKEN 以及 Wolf 三篇論文成果。首先,李柏依博士通過視頻 demo 介紹了自動(dòng)駕駛智能體 LLaDA 如何為駕駛員和自動(dòng)駕駛汽車提供多語言和地區(qū)交通規(guī)則的實(shí)時(shí)指導(dǎo);之后通過對(duì)比GPT-Driver、人類駕駛員、LLaDA 的駕駛軌跡,分析了 LLaDA 如何幫助自動(dòng)駕駛汽車和人類駕駛員調(diào)整軌跡策略,使其可以在世界的任何地方駕駛。
而在復(fù)雜交通場景中,車輛之間存在過多交互,這會(huì)導(dǎo)致智能體在預(yù)測時(shí)產(chǎn)生幻覺,從而影響其規(guī)劃性能。為此,李柏依博士詳解了如何基于 TOKEN 分解復(fù)雜交通場景,進(jìn)而提升智能體在長尾事件的規(guī)劃能力。
最后,李柏依博士介紹了能夠提升智能體場景理解能力的自動(dòng)化視頻字幕生成模型 Wolf,并對(duì)比分析了 Wolf 與 GPT-4V、CogAgent、VILA-1.5-13b 等其他模型。目前,此次公開課的課件 PPT 已上傳至公眾號(hào)【智猩猩】,大家可以在后臺(tái)回復(fù)關(guān)鍵詞“自動(dòng)駕駛智能體”進(jìn)行獲取和學(xué)習(xí)。
完整回放
錯(cuò)過本次直播的朋友,可以觀看「智猩猩公開課 NVIDIA 自動(dòng)駕駛智能體專場」完整回放。
https://wqpoq.xetlk.com/sl/4p6Brv
精選PPT


相關(guān)資料
標(biāo)題:《LLaDA: Driving Everywhere with Large Language Model Policy Adaptation》
鏈接:
https://arxiv.org/abs/2402.05932
項(xiàng)目地址:
https://boyiliee.github.io/llada/
NVIDIA博客:
https://mp.weixin.qq.com/s/azJU4_OBzE_i8VvKnhDjww
標(biāo)題:
《Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving》鏈接:
https://arxiv.org/abs/2407.00959
標(biāo)題:《Wolf: Captioning Everything with a World Summarization Framework》
https://boyiliee.github.io/llada/
鏈接:
https://arxiv.org/abs/2407.18908
項(xiàng)目地址:
https://wolfv0.github.io/leaderboard.html