【烽巢網(wǎng)-科技PRO】

谷歌旗下DeepMind開發(fā)的人工智能代理在《星際爭(zhēng)霸2》中擊敗了人類職業(yè)選手,這是人工智能領(lǐng)域的第一次。在YouTube和Twitch上的一系列比賽中,AI玩家連續(xù)10次擊敗人類。在最后一場(chǎng)比賽中,職業(yè)選手格里戈?duì)柶潯ぁ奥取薄た泼髌潪槿祟愙A得了一場(chǎng)勝利。
DeepMind的研究聯(lián)席負(fù)責(zé)人戴維?西爾弗(David Silver)在賽后表示:“人工智能的歷史被打上了許多重大的標(biāo)桿性勝利的印記。”“我希望——盡管顯然還有工作要做——未來(lái)的人們可能會(huì)回顧(今天),或許會(huì)認(rèn)為這是人工智能系統(tǒng)所能做的又向前邁進(jìn)了一步?!?/p>
在電子游戲方面打敗人類似乎是人工智能開發(fā)中的一個(gè)小插曲,但這是一個(gè)重大的研究挑戰(zhàn)。像星際爭(zhēng)霸2這樣的游戲比像國(guó)際象棋或圍棋這樣的棋盤游戲更難玩。在電子游戲中,人工智能代理無(wú)法通過(guò)觀察每一塊棋子的移動(dòng)來(lái)計(jì)算下一步棋,它們必須實(shí)時(shí)做出反應(yīng)。

這些因素似乎對(duì)DeepMind被稱為AlphaStar的人工智能系統(tǒng)并不構(gòu)成多大障礙。首先,它打敗了職業(yè)球員達(dá)里奧·溫什(Dario“TLO”Wunsch),然后開始恢復(fù)法力。奧運(yùn)會(huì)最初于去年12月在DeepMind的倫敦總部舉行,但今天與MaNa的最后一場(chǎng)比賽進(jìn)行了直播,為人類提供了唯一的勝利。
職業(yè)星際爭(zhēng)霸評(píng)論員形容AlphaStar的表現(xiàn)是“非凡的”和“超人的”。在《星際爭(zhēng)霸2》中,玩家在建立基地、訓(xùn)練軍隊(duì)和入侵?jǐn)橙祟I(lǐng)土之前,會(huì)從同一地圖的不同側(cè)面開始。AlphaStar尤其擅長(zhǎng)所謂的“微觀管理”,即在戰(zhàn)場(chǎng)上快速、果斷地控制部隊(duì)的能力。
盡管人類玩家有時(shí)能夠訓(xùn)練出更強(qiáng)大的單位,AlphaZero還是能夠在近距離內(nèi)智勝他們。在一場(chǎng)游戲中,AlphaStar用一個(gè)名為“跟蹤者”的快速移動(dòng)單位獲得了大量法力。評(píng)論員凱文·“鹿特丹”·范德庫(kù)伊(Kevin“RotterdaM”van der Kooi)將其描述為“非凡的單位控制,只是我們不太常見”。曼娜在賽后說(shuō):“如果我和任何人比賽,他們都不會(huì)對(duì)跟蹤者這么好。”
這與我們?cè)谄渌呒?jí)游戲AI中看到的行為相呼應(yīng)。當(dāng)OpenAI的經(jīng)紀(jì)人去年在Dota 2與人類職業(yè)選手比賽時(shí),他們最終被擊敗了。但專家們指出,這些特工再次以一種“清晰而精確”的方式進(jìn)行表演,這是一種“催眠”。毫不奇怪,快速做出沒有任何錯(cuò)誤的決定是機(jī)器的本分。
專家們已經(jīng)開始仔細(xì)分析這些比賽,并就AlphaStar是否擁有任何不公平優(yōu)勢(shì)展開辯論。這位人工智能特工在某些方面步履蹣跚。例如,它被限制在每分鐘執(zhí)行比人類更多的點(diǎn)擊。但與人類玩家不同的是,它能夠一次查看整個(gè)地圖,而不是手動(dòng)導(dǎo)航。
DeepMind的研究人員表示,這并沒有提供真正的優(yōu)勢(shì),因?yàn)樵摯碓谌魏螘r(shí)間只關(guān)注地圖的一個(gè)部分。但是,正如比賽所顯示的那樣,這并沒有阻止AlphaStar同時(shí)熟練地控制三個(gè)不同區(qū)域的單位——評(píng)論員們表示,這對(duì)人類來(lái)說(shuō)是不可能的。值得注意的是,當(dāng)MaNa在直播比賽中擊敗AlphaStar時(shí),AI使用的是受限的攝像機(jī)視角。
另一個(gè)潛在的痛處是,人類運(yùn)動(dòng)員雖然是專業(yè)運(yùn)動(dòng)員,但卻不是世界冠軍的標(biāo)準(zhǔn)。TLO還必須玩星際爭(zhēng)霸2中他不熟悉的三個(gè)種族中的一個(gè)。

撇開這個(gè)討論不談,專家們說(shuō)這場(chǎng)比賽是向前邁出的重要一步。Dave Churchill,一個(gè)長(zhǎng)期參與星際爭(zhēng)霸AI場(chǎng)景的AI研究人員,告訴the Verge:“我認(rèn)為代理的力量是一個(gè)重大的成就,至少比我在AI研究人員中聽到的最樂觀的猜測(cè)提前了一年?!?/p>
然而,邱吉爾補(bǔ)充說(shuō),由于DeepMind尚未發(fā)布任何關(guān)于這項(xiàng)工作的研究論文,因此很難說(shuō)它是否顯示出任何技術(shù)上的飛躍。邱吉爾說(shuō):“我還沒有讀過(guò)這篇博客文章,也沒有接觸過(guò)相關(guān)的論文或技術(shù)細(xì)節(jié)?!?/p>
喬治亞理工學(xué)院(Georgia Tech)人工智能副教授馬克?里德爾(Mark Riedl)表示,他對(duì)結(jié)果不那么驚訝,這場(chǎng)勝利只是“時(shí)間問題”。里德爾補(bǔ)充說(shuō),他不認(rèn)為這些游戲表明星際爭(zhēng)霸II已經(jīng)被徹底打敗。“在上一場(chǎng)直播的比賽中,把AlphaStar限制在窗口確實(shí)消除了它的一些人為優(yōu)勢(shì),”里德爾說(shuō)?!暗覀兛吹降母蟮膯栴}是……”他說(shuō):“人工智能的問題在于,(人工智能學(xué)到的)政策是脆弱的,當(dāng)一個(gè)人可以把它推出舒適區(qū)時(shí),它就會(huì)崩潰?!?/p>
最終,這類工作的最終目標(biāo)不是在視頻游戲上打敗人類,而是改進(jìn)人工智能訓(xùn)練方法,尤其是為了創(chuàng)建能夠在《星際爭(zhēng)霸》等復(fù)雜虛擬環(huán)境中運(yùn)行的系統(tǒng)。
為了訓(xùn)練AlphaStar, DeepMind的研究人員使用了一種被稱為強(qiáng)化學(xué)習(xí)的方法。經(jīng)紀(jì)人基本上是通過(guò)反復(fù)嘗試來(lái)達(dá)到某些目標(biāo),比如贏球或者僅僅是活著。它們首先通過(guò)模仿人類玩家來(lái)學(xué)習(xí),然后在類似競(jìng)技場(chǎng)的比賽中相互比賽。最強(qiáng)的藥劑存活下來(lái),最弱的被丟棄。DeepMind估計(jì),它的AlphaStar代理每一個(gè)都以這種方式積累了大約200年的游戲時(shí)間,游戲速度也在加快。
DeepMind很清楚自己開展這項(xiàng)工作的目標(biāo)?!笆紫?,也是最重要的是,DeepMind的任務(wù)是建立一個(gè)人工通用智能系統(tǒng),”AlphaStar項(xiàng)目的聯(lián)合負(fù)責(zé)人奧里爾·維尼亞斯(Oriol Vinyals)說(shuō)?!耙龅竭@一點(diǎn),重要的是對(duì)我們的代理在各種任務(wù)上的表現(xiàn)進(jìn)行基準(zhǔn)測(cè)試?!?/p>
請(qǐng)登錄以參與評(píng)論
現(xiàn)在登錄