首頁(yè) 行業(yè) 活動(dòng) 項(xiàng)目 快訊 文娛 時(shí)尚 娛樂(lè) 科技 汽車(chē) 綜合 生活

OpenDILab幕后的「孤勇者」:AI研究員、電競(jìng)冠軍和他們的開(kāi)源夢(mèng)

2022-09-27 12:40:34 來(lái)源:壹點(diǎn)網(wǎng)

生物智能的產(chǎn)生,一直以來(lái)被定義為「奇跡」和「謎團(tuán)」。

從宇宙的一片塵埃開(kāi)始,人類(lèi)的演化花費(fèi)了數(shù)十億年的時(shí)間。很難想象,你我均起源于出現(xiàn)在地球上的單細(xì)胞生物。

時(shí)至今日,人類(lèi)憑借自身的智慧,創(chuàng)造了地球上最繁榮的文明。同時(shí),這一演化仍在繼續(xù),遠(yuǎn)沒(méi)有走到盡頭。

但演化的方向已經(jīng)悄然改變:下一代文明的方向,將由人類(lèi)親手創(chuàng)造的「智能體」來(lái)探索。

由此引出一個(gè)問(wèn)題:人類(lèi)智能與人工智能,誰(shuí)的上限將會(huì)更高?

過(guò)去數(shù)十年,研究者夙興夜寐,將無(wú)數(shù)人類(lèi)智慧灌注其中,不斷將「人工智能」的能力上限抬高。一個(gè)剛剛誕生的智能體,就像一個(gè)初來(lái)世間的嬰孩,即使懵懂,卻蘊(yùn)藏著無(wú)限潛力。在永不停歇的演變之后,人們普遍認(rèn)為,智能體終將超越人類(lèi)。

這種演化規(guī)律,在 OpenDILab 平臺(tái)的開(kāi)源歷程中體現(xiàn)得淋漓盡致。它的源起,是幾位算法研究員的一次跨界設(shè)想,是面向最復(fù)雜的競(jìng)技游戲的一場(chǎng)挑戰(zhàn)。僅僅過(guò)了兩年多時(shí)間,今天的 OpenDILab 已演化為覆蓋最全學(xué)術(shù)界算法和工業(yè)級(jí)規(guī)模的國(guó)產(chǎn)決策智能開(kāi)源平臺(tái)。它為整個(gè)決策智能領(lǐng)域開(kāi)辟了一個(gè)全新的開(kāi)源社區(qū),這個(gè)社區(qū)正在以驚人的速度生長(zhǎng)。

項(xiàng)目地址:https://github.com/opendilab

2022 年 6 月 12 日,《星際爭(zhēng)霸 II》前中國(guó)冠軍——IG 戰(zhàn)隊(duì)的 iA ,又一次登陸了斗魚(yú)直播間。這么久不見(jiàn),人們發(fā)現(xiàn),iA 竟然開(kāi)始講 PPT 了。

兩年之前,iA 低調(diào)退役。兩年之后,電競(jìng)少年歸來(lái),已是 AI 研究員,還帶來(lái)了目前已開(kāi)源項(xiàng)目中實(shí)力最強(qiáng)的《星際爭(zhēng)霸 II》 AI——DI-star。

1.png

直播錄像:https://www.bilibili.com/video/BV15T411G7xD?spm_id_from=333.999.0.0

一個(gè)多小時(shí)的直播里,iA 演示了多場(chǎng)對(duì)局。在所有演示中,DI-star 均表現(xiàn)出人類(lèi)最高段位——Grandmaster 分段的競(jìng)技水平。

驚喜的是,DI-star 的決策能力相當(dāng)靈活,屢次在復(fù)雜對(duì)局中快速找到最優(yōu)策略。比如與前世界冠軍 Scarlett 對(duì)戰(zhàn)時(shí),DI-star 使用了 「女王前壓」 這種不常見(jiàn)于人類(lèi)的戰(zhàn)術(shù),出奇制勝:

1664247781990911.gif

此時(shí),距離 DI-star 及其背后的決策智能平臺(tái) OpenDILab 開(kāi)源已經(jīng)有一年了。

2022 年 9 月,OpenDILab 正式升級(jí)為 1.0 版本,幕后團(tuán)隊(duì)兩年多來(lái)的心血,全部凝聚于此。

白手起家

所有的故事都從 2020 年的第一個(gè)月開(kāi)始。一群來(lái)自中國(guó)的算法研究員和工程師,在人臉識(shí)別的數(shù)據(jù)海中摸爬滾打多年之后,決定跳出舒適區(qū),做一點(diǎn)探索未來(lái)的事。

比如,從零開(kāi)始打造一個(gè)星際爭(zhēng)霸 AI。

在當(dāng)時(shí)的 AI 學(xué)界眼中,決策 AI 是不同于計(jì)算機(jī)視覺(jué)等感知型 AI 的另一道難關(guān),而《星際爭(zhēng)霸 II》一直被看作檢驗(yàn) AI 決策能力的絕佳舞臺(tái),也是 AI 爭(zhēng)相挑戰(zhàn)的「珠峰」。

星際爭(zhēng)霸系列游戲能保持 20 多年長(zhǎng)盛不衰,一部分原因就在于其豐富的多層次游戲機(jī)制?!缎请H爭(zhēng)霸 II》的空間復(fù)雜度高達(dá) 10 的 1685 次方,遠(yuǎn)超圍棋 10 的 170 次方復(fù)雜度。對(duì)于 AI 來(lái)說(shuō),這是一個(gè)非常接近現(xiàn)實(shí)世界的虛擬環(huán)境。

開(kāi)源社區(qū)是助力 AI 發(fā)展的重要因素之一,而在項(xiàng)目的開(kāi)始階段,DI-star 的開(kāi)發(fā)者們準(zhǔn)備好了充足的算力和資源,卻發(fā)現(xiàn)星際爭(zhēng)霸 AI 的開(kāi)源生態(tài)基本是一片空白,只能找到 DeepMind 公開(kāi)的原版論文,非常多的技術(shù)細(xì)節(jié)都有待考證。就好比老師教了你九九乘法表,卻突然讓你做一道微積分的作業(yè)題。

DI-star 的開(kāi)發(fā)者們首先調(diào)研了各種已有的強(qiáng)化學(xué)習(xí)開(kāi)源平臺(tái),但發(fā)現(xiàn)開(kāi)源的算法、工具等基本都是圍繞「小而精」的學(xué)術(shù)研究,壓根沒(méi)有星際爭(zhēng)霸這種大規(guī)模環(huán)境的開(kāi)源項(xiàng)目。

「沒(méi)有輪子,就立馬動(dòng)手造一個(gè),這才是極客精神!」

于是乎,DI-star 的開(kāi)發(fā)者們拿著之前自己在計(jì)算機(jī)視覺(jué)任務(wù)上積累的經(jīng)驗(yàn),想要一定程度的知識(shí)復(fù)用。但很快他們就發(fā)現(xiàn),這不只是個(gè)脫離舒適區(qū)的問(wèn)題,這簡(jiǎn)直是一腳踏入深水區(qū),每天都會(huì)誕生新的靈魂拷問(wèn):

原本規(guī)規(guī)整整的張量圖片,卻變成了高度結(jié)構(gòu)化且動(dòng)態(tài)變化的游戲信息;

原本直筒式簡(jiǎn)簡(jiǎn)單單搭積木的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),卻變成了復(fù)雜多樣的「毛線(xiàn)團(tuán)網(wǎng)絡(luò)」設(shè)計(jì)比賽;

原本輕易擴(kuò)展的分布式訓(xùn)練架構(gòu),卻變成了多種硬件和計(jì)算模式混合的大雜燴系統(tǒng)……

在不斷以「一日速成法」了解各類(lèi)游戲 AI 設(shè)計(jì)和分布式系統(tǒng)設(shè)計(jì)知識(shí)后,團(tuán)隊(duì)總算是搭出了第一版能正常運(yùn)行的分布式訓(xùn)練系統(tǒng),這也是之后 OpenDILab 的最初原型。

只不過(guò)還有一件事讓人犯愁:到底怎么讓 AI 學(xué)習(xí)打星際的技巧呢?這需要集深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、游戲 AI 三方面的技術(shù)和力量。

技術(shù)可以后天努力學(xué)習(xí),游戲天賦可真是命中注定,于是,他們找到了中國(guó)星際的傳奇人物:iA 周航。于是,幾個(gè)基本對(duì)決策 AI 零基礎(chǔ)的人,構(gòu)成了 DI-star 項(xiàng)目的最初班底。

「最初幾乎訓(xùn)練不出來(lái)任何哪怕有正常操作的 AI」。DI-star 團(tuán)隊(duì)一度很頭疼。沒(méi)辦法,前半年只能一點(diǎn)一點(diǎn)解 bug,慢慢地教。發(fā)現(xiàn)一個(gè)不合理的 AI 行為,就從游戲錄像中開(kāi)始分析,對(duì)應(yīng)到具體的游戲操作,解析游戲引擎內(nèi)存中的數(shù)據(jù)片段,再一步步追根溯源,最終分析到神經(jīng)網(wǎng)絡(luò)里具體某個(gè)神經(jīng)元的激活輸出,從而定位到代碼實(shí)現(xiàn)和算法設(shè)計(jì)的相關(guān)問(wèn)題。

「程序是不會(huì)騙你的,只要你用心去凝視它?!?/strong>像上面這樣一環(huán)扣一環(huán),非常需要高度集中心力的細(xì)節(jié)分析,在 DI-star 的前期階段,幾乎是天天都有。

終于,經(jīng)歷了半年的艱苦奮斗, 2020 年 6 月,DI-star 已經(jīng)能夠擊敗簡(jiǎn)單的電腦。2020 年 7 月,團(tuán)隊(duì)進(jìn)行了 DI-star 第一次人機(jī)內(nèi)測(cè),AI 戰(zhàn)勝了一位剛剛?cè)腴T(mén)《星際爭(zhēng)霸 II》的研究員。

步入正軌之后,就要去探索 AI 的上限究竟在哪里。DI-star 團(tuán)隊(duì)希望在整個(gè)系統(tǒng)的各個(gè)環(huán)節(jié)中都做到極致:不僅僅是復(fù)現(xiàn)最強(qiáng)的決策 AI 問(wèn)題,而是盡其所能去嘗試每種可能性。有人從神經(jīng)網(wǎng)絡(luò)角度,設(shè)計(jì)更穩(wěn)定的大批量樣本優(yōu)化技術(shù)和高效處理動(dòng)態(tài)決策空間的網(wǎng)絡(luò)層,有人從強(qiáng)化學(xué)習(xí)優(yōu)化方向,精心調(diào)控探索和利用的多方面平衡,有人從游戲 AI 領(lǐng)域,融合即時(shí)戰(zhàn)略類(lèi)游戲的百家之長(zhǎng),將 AI 的微操優(yōu)勢(shì)培養(yǎng)到新的境界,有人從系統(tǒng)效率出發(fā),做各種資源的權(quán)衡,存儲(chǔ) / 網(wǎng)絡(luò) / 計(jì)算,一切能想到的辦法都用來(lái)優(yōu)化訓(xùn)練效率。

在集合整個(gè)團(tuán)隊(duì)的技術(shù)積累之后,歷經(jīng)人類(lèi)錄像模仿學(xué)習(xí)和自我博弈強(qiáng)化學(xué)習(xí)兩個(gè)階段,總計(jì)一億局星際對(duì)局,五周的最終訓(xùn)練時(shí)間,2021 年 6 月,DI-star 終于戰(zhàn)勝了 DI-star 的創(chuàng)造者之一——周航本人。之后,周航又拉來(lái)一些職業(yè)電競(jìng)時(shí)期的老朋友跟 DI-star 打,包括 MMR6000 分的中國(guó)最強(qiáng)蟲(chóng)族選手 Rex。

好消息是,DI-star 都贏了,沒(méi)辜負(fù)一年多來(lái)的苦練。

從星際 AI 到開(kāi)源平臺(tái)

路行至此,接下來(lái)又該怎么走?

極客探索歸探索,但想把技術(shù)做長(zhǎng)久做出影響力,復(fù)盤(pán)是必不可少的。而在當(dāng)時(shí)的馬拉松復(fù)盤(pán)會(huì)中,研發(fā)團(tuán)隊(duì)一致的觀點(diǎn)是:必須積累足夠扎實(shí)的技術(shù)工具鏈。DI-star 中的小農(nóng)式精耕細(xì)作太難復(fù)制也太難推廣了,需要能有讓決策AI技術(shù)真正大放光彩的基建工作。那么自然的,做一個(gè)決策智能開(kāi)源平臺(tái)和生態(tài),就成了大家新的目標(biāo)。

更具體一點(diǎn),在算法方面,哪些技術(shù)適合在前期探索智能體策略的多樣性和潛力,哪些方法適合作為最終超大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的核心模塊;在系統(tǒng)方面,哪些系統(tǒng)設(shè)計(jì)既能提高采樣效率又能對(duì)大規(guī)模強(qiáng)化學(xué)習(xí)的優(yōu)化效率帶來(lái)幫助,什么樣的設(shè)計(jì)可以易用快速的算法迭代和想法驗(yàn)證。所有上述這些積累的經(jīng)驗(yàn)和知識(shí),都是有價(jià)值被沉淀下來(lái)的東西。

光是教會(huì)AI玩《星際爭(zhēng)霸 II》并不是最終目標(biāo),探索決策AI的能力邊界,學(xué)會(huì)面對(duì)更加復(fù)雜的真實(shí)世界,才是在青春年月值得去拼搏的事?;谶@樣的初心,后續(xù)成立的 OpenDILab 團(tuán)隊(duì)以 DI-star 為起點(diǎn),開(kāi)始進(jìn)一步探索如何做開(kāi)源。

當(dāng)時(shí)決策智能領(lǐng)域的開(kāi)源生態(tài),比起 CV、NLP 這些成熟的研究領(lǐng)域,的確差了不是一點(diǎn)半點(diǎn)。

不過(guò)對(duì)于整個(gè)決策智能領(lǐng)域來(lái)說(shuō),開(kāi)發(fā)者最需要的不只是某一套代碼,也不僅是某一個(gè)工具包。這個(gè)領(lǐng)域,正需要一個(gè)功能全面、便捷易用的開(kāi)源平臺(tái)。

但如何設(shè)計(jì)一個(gè)能滿(mǎn)足廣大研究者需求的平臺(tái),是需要認(rèn)真考慮的問(wèn)題。

這時(shí),更多學(xué)術(shù)界、產(chǎn)業(yè)界的決策智能研究痛點(diǎn)進(jìn)入了團(tuán)隊(duì)成員們的視野:

與感知智能不同,決策類(lèi)問(wèn)題通常涉及處理諸如圖像、語(yǔ)音、結(jié)構(gòu)化數(shù)據(jù)等多種復(fù)雜模態(tài)的數(shù)據(jù)類(lèi)型。此外,單機(jī)單卡與多機(jī)多卡甚至跨集群計(jì)算的決策 AI 計(jì)算邏輯也完全不同。不同任務(wù)間的最優(yōu)算法配置也差別較大。對(duì)于決策智能,這些問(wèn)題很難標(biāo)準(zhǔn)化。

還有一個(gè)客觀現(xiàn)象:關(guān)于決策智能的問(wèn)題定義和研究視角,學(xué)術(shù)界和工業(yè)界之間的差距是很大的。很多前沿的理論算法缺少環(huán)境和計(jì)算 pipeline 上的通用性,只能局限于 toy model 級(jí)別的實(shí)驗(yàn)環(huán)境,無(wú)法遷移到真正的工業(yè)場(chǎng)景中。

因此,團(tuán)隊(duì)最終對(duì)開(kāi)源平臺(tái)的期望是:既要在學(xué)術(shù)算法層面做到最全最廣的覆蓋和統(tǒng)一,又要將這些算法真正發(fā)揮到相應(yīng)的實(shí)際場(chǎng)景中去,解決各個(gè)其他領(lǐng)域的工業(yè)級(jí)應(yīng)用問(wèn)題。當(dāng)然,想要兼顧兩者是一件極為困難的事,系統(tǒng)和平臺(tái)設(shè)計(jì)本身就是在做各種各樣的權(quán)衡,而開(kāi)源社區(qū)正是幫助平臺(tái)成長(zhǎng)和不斷進(jìn)化的重要力量。

這將是一項(xiàng)產(chǎn)生長(zhǎng)期價(jià)值的工程,力求將技術(shù)的廣度和深度都推到極致,將成千上萬(wàn)開(kāi)發(fā)者的智慧與努力集合起來(lái),在各行各業(yè)中演化出無(wú)限可能。

人人可用的開(kāi)源決策智能平臺(tái)

2021 年 7 月,DI-star 及其衍生出的決策智能平臺(tái) OpenDILab 在 GitHub 正式開(kāi)源了。

在最初發(fā)布的 OpenDILab beta 版本中,自上而下覆蓋了應(yīng)用生態(tài)層、算法抽象層、分布式管理層和分布式執(zhí)行層,還支持從單機(jī)到上萬(wàn)級(jí)別 CPU/GPU 聯(lián)合訓(xùn)練的全尺度調(diào)度系統(tǒng)優(yōu)化,將 OpenDILab 團(tuán)隊(duì)自 DI-star 項(xiàng)目以來(lái)積累的各方面技術(shù)和知識(shí)完全開(kāi)源開(kāi)放出來(lái)。然而開(kāi)源社區(qū)的構(gòu)建是需要不斷打磨的,beta 版本在各種各樣的權(quán)衡中遺留了一些上手難度問(wèn)題,而在這一年多開(kāi)發(fā)者與開(kāi)源社區(qū)的共同努力下,OpenDILab 1.0版本在易用性、效率、多元化等方面都展現(xiàn)出了新的思考和理解。

3.png

項(xiàng)目地址:https://github.com/opendilab/

其中,OpenDILab 推出了一系列面向不同目標(biāo)的開(kāi)源庫(kù):

最底層的 DI-engine 及相關(guān)系統(tǒng)支持庫(kù)致力于解決決策AI在環(huán)境,算法,計(jì)算尺度三個(gè)方面的標(biāo)準(zhǔn)化問(wèn)題,它首先提供了在 40+ 不同類(lèi)型決策環(huán)境上的最佳實(shí)踐,可作為不同領(lǐng)域研究者應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)的最佳模板,還匯聚了 8 大研究子方向的 60+ 決策智能算法,將深度強(qiáng)化學(xué)習(xí),多智能體博弈,離線(xiàn)強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)等領(lǐng)域一網(wǎng)打盡,而上述這些環(huán)境和算法,都可以在統(tǒng)一的系統(tǒng)執(zhí)行設(shè)計(jì)下高效實(shí)現(xiàn),并根據(jù)任務(wù)特性自適應(yīng)地調(diào)整資源利用的最佳方案。

中層的算法與模型抽象層 DI-zoo 整合了 OpenDILab 在各個(gè)領(lǐng)域應(yīng)用決策AI算法的相關(guān)經(jīng)驗(yàn),將算法理論,代碼實(shí)現(xiàn),應(yīng)用領(lǐng)域知識(shí)一一對(duì)應(yīng)在一起,并在AutoML工具的支持下,幫助開(kāi)發(fā)者構(gòu)建統(tǒng)一且標(biāo)準(zhǔn)的基準(zhǔn)方案,也很大程度上降低了初學(xué)者的入門(mén)門(mén)檻。

在應(yīng)用生態(tài)層,既有 DI-star 這樣面向于虛擬世界即時(shí)戰(zhàn)略類(lèi)游戲的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練方案,包含完整的訓(xùn)練、測(cè)試和應(yīng)用原型代碼細(xì)節(jié),還開(kāi)源了包含感知決策全流程的自動(dòng)駕駛平臺(tái) DI-drive,朝著決策 AI 落地應(yīng)用的方向前進(jìn)。

自開(kāi)源以來(lái),OpenDILab 已經(jīng)收獲了 4500 多個(gè) GitHub star。DI-star 也被列入 Github Trending Python 語(yǔ)言?xún)?yōu)質(zhì)開(kāi)源項(xiàng)目。

多智能體決策智能領(lǐng)域的「ImageNet」

決策智能的落地通常會(huì)受到訓(xùn)練平臺(tái)、仿真環(huán)境兩方面的挑戰(zhàn)。OpenDILab 是好用的,但它暫時(shí)只解決了訓(xùn)練平臺(tái)層面的一部分問(wèn)題。

那么,仿真環(huán)境的問(wèn)題怎么解決呢?

為了讓更多人參與到?jīng)Q策智能的探索中來(lái),OpenDILab 搞了一場(chǎng) Go-Bigger 挑戰(zhàn)賽。通俗地講,這其實(shí)是一場(chǎng)決策 AI 版的「大球吃小球」挑戰(zhàn)賽。

在 Go-Bigger 挑戰(zhàn)賽里,每局時(shí)長(zhǎng)十分鐘,大球吃掉小球會(huì)獲得更大重量和體積,但同時(shí)需要避免被更大的球吃掉。球的類(lèi)型包括分身球、孢子球、食物球、荊棘球,這四種球的決策路徑是不同的。

1664247812415565.gif

每個(gè)隊(duì)伍都需和其他隊(duì)伍對(duì)抗,總重量更大的團(tuán)隊(duì)獲勝。

這個(gè)游戲環(huán)境看起來(lái)簡(jiǎn)單,但其實(shí)非??简?yàn)多智能體之間的配合和對(duì)抗,包括權(quán)衡同一團(tuán)隊(duì)中的個(gè)體行動(dòng)與合作行動(dòng)、不同團(tuán)隊(duì)間的合作與競(jìng)爭(zhēng)、表征和交換與其它智能體的環(huán)境信息等,體現(xiàn)了很高的決策復(fù)雜度。

有意思的是,Go-Bigger 游戲設(shè)計(jì)了球球?qū)箷r(shí)間、成長(zhǎng)加速度、分裂、消失、衰亡等約束條件,這種情況其實(shí)廣泛存在于現(xiàn)實(shí)世界,比如在人的生命周期中,我們都需要在不同的人生階段,在各種約束條件下進(jìn)行協(xié)作、對(duì)抗,做出最利于自身的決策。球球和人類(lèi)之間,由此產(chǎn)生了一種微妙的關(guān)聯(lián)。

在 AI 領(lǐng)域,很多研究問(wèn)題的真正被定義和解決,都經(jīng)歷了從「球球」到「真實(shí)世界」的模擬過(guò)程。

比如計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典之作 ImageNet。上海人工智能實(shí)驗(yàn)室青年科學(xué)家、商湯科技高級(jí)研究總監(jiān)、OpenDILab 項(xiàng)目發(fā)起人劉宇表示,在 ImageNet 比賽之前,數(shù)據(jù)集都非常小,學(xué)術(shù)界很難定義產(chǎn)業(yè)界真正需要的算法問(wèn)題。但 ImageNet 提出了全新的挑戰(zhàn),在海量數(shù)據(jù)上定義的研究問(wèn)題與真實(shí)世界中真正應(yīng)該被解決的問(wèn)題更加貼近了,加上算力條件的提升,成就了后來(lái)計(jì)算機(jī)視覺(jué)的蓬勃發(fā)展。

對(duì)于今天的多智能體決策智能領(lǐng)域來(lái)說(shuō),學(xué)術(shù)界和產(chǎn)業(yè)界都在等待著像「ImageNet」這樣具備「公認(rèn)的問(wèn)題定義能力」的項(xiàng)目出現(xiàn),而 OpenDILab 希望 Go-Bigger 能擔(dān)起這一重?fù)?dān)。

有人可能會(huì)問(wèn),既然開(kāi)源了 DI-star,為什么不直接辦一場(chǎng)星際爭(zhēng)霸 AI 挑戰(zhàn)賽?

這也是從現(xiàn)實(shí)因素出發(fā)來(lái)考慮的,畢竟訓(xùn)練一個(gè)星際爭(zhēng)霸 AI 需要太多的算力消耗,對(duì)于一般參賽者來(lái)說(shuō)實(shí)在不友好。

Go-Bigger 的定位是人人可以參加的中型游戲 AI 競(jìng)技環(huán)境。相比學(xué)術(shù)界常用的 Atari、MuJoCo、SMAC,Go-Bigger 的環(huán)境規(guī)模更大,但又可以在小型的實(shí)驗(yàn)室中完成,用一臺(tái)機(jī)器、一塊 GPU 就能訓(xùn)練起來(lái)。這樣一來(lái),參賽者就能把更多精力聚焦到探索多智能體協(xié)作能力的算法上。

即使如此,從零開(kāi)始實(shí)現(xiàn)比賽要用的算法和訓(xùn)練流程還是很復(fù)雜的,而 OpenDILab 平臺(tái)提供的決策 AI 框架 DI-engine 正好幫助開(kāi)發(fā)者簡(jiǎn)化了這一過(guò)程。

開(kāi)發(fā)者們基于DI-engine為Go-Bigger設(shè)計(jì)實(shí)現(xiàn)了多種類(lèi)型的基準(zhǔn)算法,包含多智能體協(xié)作,稀疏獎(jiǎng)勵(lì)引導(dǎo),記憶化探索和計(jì)算效率提升等多個(gè)方面。

走進(jìn)現(xiàn)實(shí)世界

在工業(yè)應(yīng)用這塊,OpenDILab 也沒(méi)松懈,推出了自動(dòng)駕駛領(lǐng)域內(nèi)第一個(gè)支持多種仿真器和多種決策智能算法的開(kāi)源研究平臺(tái)——DI-drive。

之所以選擇自動(dòng)駕駛領(lǐng)域做開(kāi)源,OpenDILab 有自己的思考:

第三次發(fā)展浪潮之后,AI 技術(shù)已經(jīng)進(jìn)入從感知智能到?jīng)Q策智能演變的關(guān)鍵節(jié)點(diǎn),決策 AI 技術(shù)的突破也到了在實(shí)際場(chǎng)景部署和應(yīng)用的階段。任何前沿的學(xué)術(shù)理論,都要走到現(xiàn)實(shí)世界當(dāng)中去,才能產(chǎn)生更多的價(jià)值。

可以說(shuō),決策 AI 技術(shù)應(yīng)用的成功與否,直接決定了這一技術(shù)在產(chǎn)業(yè)界的認(rèn)可程度,反過(guò)來(lái),應(yīng)用領(lǐng)域的難題也可以指導(dǎo)決策 AI 理論的演進(jìn)。

另一方面,生態(tài)構(gòu)建的成功與否體現(xiàn)了決策 AI 技術(shù)的應(yīng)用門(mén)檻、其通用能力和泛化能力以及對(duì)不同任務(wù)的適應(yīng)能力。應(yīng)用生態(tài)也可以更加廣泛地拓展決策 AI 的應(yīng)用領(lǐng)域,打通不同應(yīng)用領(lǐng)域所面臨的問(wèn)題和挑戰(zhàn)。

自動(dòng)駕駛是當(dāng)前人工智能的熱門(mén)研究方向。決策、規(guī)劃與控制是自動(dòng)駕駛?cè)蝿?wù)的大腦,一向被各大公司視作高度保密技術(shù)。如果是一位普通開(kāi)發(fā)者,就算想深入了解也難。

所以,OpenDILab 綜合了大量自動(dòng)駕駛決策 AI 的方法,抽象出基本涵蓋現(xiàn)有自動(dòng)駕駛方法的一套流程,做出了自動(dòng)駕駛領(lǐng)域第一個(gè)開(kāi)源的、人人可以參與的研究平臺(tái) DI-drive。

目前,DI-drive 已在自動(dòng)駕駛端到端仿真任務(wù)上取得若干算法突破。對(duì)于一系列核心技術(shù)突破,OpenDILab 不作保留,全部開(kāi)源。

比如自動(dòng)駕駛策略 InterFuser,該策略基于 Transformer 進(jìn)行多傳感器融合,并使用了可解釋性特征來(lái)增加自動(dòng)駕駛的安全性。

我們都知道,在高交通密度的場(chǎng)景中,會(huì)有大量的障礙物和動(dòng)態(tài)物體參與決策。在這些情況下,一些部署的自動(dòng)駕駛系統(tǒng)可能表現(xiàn)出不正確或意外的行為,導(dǎo)致災(zāi)難性的事故。

比如行人突然從路邊出現(xiàn)、通過(guò)路口時(shí)遭遇意外車(chē)流(闖紅燈等),這需要更好地理解多模態(tài)多視角傳感器輸入下的場(chǎng)景。另外,如何驗(yàn)證決策過(guò)程也是個(gè)問(wèn)題,換句話(huà)說(shuō),識(shí)別系統(tǒng)的功能 / 故障情況以及故障原因,這需要決策系統(tǒng)的可解釋性。

OpenDILab 模擬了大部分情況,基于自動(dòng)駕駛研究的開(kāi)源模擬器 CARLA 進(jìn)行了測(cè)評(píng),InterFuser 顯示出良好的問(wèn)題處理能力:

等紅燈

轉(zhuǎn)彎

在最新的 CARLA Leaderboard 排行榜中,OpenDILab 提出的自動(dòng)駕駛策略 InterFuser 取得了 Top 1 的成績(jī)。

7.png

InterFuser 在 CARLA Leaderboard 上的排名

InterFuser arXiv 論文地址: https://arxiv.org/abs/2207.14024

InterFuser Github 項(xiàng)目地址: https://github.com/opendilab/InterFuser

此外,OpenDILab 還針對(duì)自動(dòng)駕駛開(kāi)發(fā)了一套貼近真實(shí)的駕駛場(chǎng)景 Casezoo,所涉及的駕駛場(chǎng)景均由實(shí)車(chē)數(shù)據(jù)和路測(cè)案例轉(zhuǎn)化而來(lái)。他們?cè)诙喾N貼近真實(shí)的駕駛環(huán)境中訓(xùn)練和測(cè)試了決策模型,有效促進(jìn)自動(dòng)駕駛領(lǐng)域仿真研究在實(shí)車(chē)環(huán)境中的推廣和應(yīng)用。

圖注:Casezoo 為自動(dòng)駕駛模擬提供更接近真實(shí)的駕駛場(chǎng)景

與此同時(shí),OpenDILab 也在探索新的決策智能應(yīng)用領(lǐng)域和方法,如金融領(lǐng)域的反欺詐和交易,電網(wǎng)、港口等場(chǎng)景的資源調(diào)度和優(yōu)化,生物領(lǐng)域的合成搜索和預(yù)測(cè)等。一系列重磅成果,均在醞釀之中。

不斷進(jìn)化的 OpenDILab

一年時(shí)間過(guò)得很快。Beta 版本開(kāi)源之后,OpenDILab 團(tuán)隊(duì)一直在根據(jù)開(kāi)發(fā)者社區(qū)的反饋改進(jìn)。

經(jīng)過(guò)多次完善后,近日的 WAIC 2022 大會(huì)上,OpenDILab 1.0 版本正式問(wèn)世。

9.png

OpenDILab 框架圖

項(xiàng)目地址:https://github.com/opendilab

整體來(lái)看,OpenDILab 1.0 有三大升級(jí)特點(diǎn):

1. 易用高效的大規(guī)模決策智能訓(xùn)練系統(tǒng):具備插件化的擴(kuò)展能力和友好的分布式能力

2. 當(dāng)前世界上最全面的標(biāo)準(zhǔn)化決策 AI 平臺(tái):一個(gè)平臺(tái)整合所有 RL 研究領(lǐng)域,一套框架服務(wù)多種決策 AI 問(wèn)題,最全最強(qiáng)算法集(1 個(gè)架構(gòu),8 大研究方向,40 + 環(huán)境,60 + 算法,70 + 專(zhuān)利)

3. 到手即用的工業(yè)應(yīng)用生態(tài):決策 AI+X 的最佳實(shí)踐,助力各行各業(yè)實(shí)現(xiàn)關(guān)鍵的技術(shù)和應(yīng)用突破。

「在計(jì)算機(jī)視覺(jué)領(lǐng)域,標(biāo)準(zhǔn)化做得很好,比如所有數(shù)據(jù)模態(tài)都可以用非常規(guī)整的 Tensor 來(lái)表示,所有任務(wù)都可以在 batch 維度同步 forward 和 bp(Back Propagation)的神經(jīng)網(wǎng)絡(luò)來(lái)處理,比如 PyTorch 和 TensorFlow。而在數(shù)據(jù)模態(tài)高度結(jié)構(gòu)化,訓(xùn)練過(guò)程高度異步化的決策智能領(lǐng)域,我們希望做的也是這樣一件事?!箘⒂畋硎?。

硬核升級(jí)之外,OpenDILab 也更加注重易用性和便捷性,為社區(qū)內(nèi)的開(kāi)發(fā)者提供了更加詳盡的上手教程。值得一提的是,OpenDILab 將于今年 10 月推出從應(yīng)用場(chǎng)景出發(fā)的 「PPO x Famliy 入門(mén)公開(kāi)課」,課程內(nèi)容主要從一個(gè) PPO 解決絕大多數(shù)的常規(guī)決策問(wèn)題,根據(jù)算法原理,代碼實(shí)現(xiàn),實(shí)際應(yīng)用三者的一一對(duì)應(yīng)來(lái)設(shè)計(jì),即使你只是一枚想入門(mén)決策 AI 的萌新,或者只是一位想用決策 AI 技術(shù)解決某個(gè)實(shí)際問(wèn)題的非內(nèi)行工程師,都可以通過(guò)該課程和 OpenDILab 平臺(tái)獲得在算法、系統(tǒng)、工程等經(jīng)驗(yàn)和工具支持。

10.png

我們也了解到,同在 WAIC2022 發(fā)布的 SenseMAP 商湯多智能體平臺(tái),在搭建過(guò)程中也用到了 OpenDILab 開(kāi)源的多項(xiàng)前沿技術(shù)。

在 WAIC 2022 的企業(yè)論壇中,劉宇介紹:「我們利用 OpenDILab 作為基建之一構(gòu)建了商湯多智能體游戲 AI 平臺(tái) SenseMAP,同時(shí) OpenDILab 也支持了我們?cè)谟螒?、電力調(diào)度、自動(dòng)駕駛和貨運(yùn)調(diào)度等領(lǐng)域的業(yè)務(wù)應(yīng)用?!?/p>

劉宇認(rèn)為,只有一項(xiàng)技術(shù)的門(mén)檻明顯降低,更多人才有機(jī)會(huì)入局。

縱觀人類(lèi)技術(shù)發(fā)展歷史,真正帶動(dòng)整個(gè)社會(huì)往前走的機(jī)會(huì),未必出現(xiàn)在某種技術(shù)誕生的那一刻,更多是這項(xiàng)技術(shù)能夠得到普及之后。這正是 OpenDILab 的開(kāi)源初衷。

來(lái)源:轉(zhuǎn)載機(jī)器之心

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞:

上一篇:隔音門(mén)窗怎么選?創(chuàng)高門(mén)窗:把握三點(diǎn)要素,避開(kāi)選擇雷區(qū)!

下一篇:媄素妍@精致女人一起變美變富

責(zé)任編輯:

最近更新