阿爾法狗再進(jìn)化 阿爾法元碾壓老狗人工智能再引恐慌
阿爾法狗再進(jìn)化 阿爾法元碾壓老狗人工智能再引恐慌
四海網(wǎng):年谷歌研發(fā)的人工智能圍棋阿爾法狗大戰(zhàn)柯潔,以3:0取得壓倒性勝利,在圍棋界取得世界第一的段位,就在人們認(rèn)為這條人工智能狗已經(jīng)成神一樣不可戰(zhàn)勝后,谷歌團(tuán)隊(duì)研發(fā)出升級(jí)版阿法爾元,以100:0吊打阿爾法狗,引發(fā)網(wǎng)友們對(duì)人工智能的恐慌,人工智能真的會(huì)代替不完美的人類嗎?
美國(guó)當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在期刊《Nature》上發(fā)表論文,宣布一款新版的AlphaGo Zero計(jì)算機(jī)程序可以在不需要任何人類輸入的條件下,迅速自學(xué)圍棋,并以100比0的戰(zhàn)績(jī)擊敗上一代AlphaGo。這是AI歷史上又一里程碑式的重大消息。
新版“阿爾法圍棋”從零開始 四十天成王者
谷歌旗下的人工智能“阿爾法圍棋”在幾次世界矚目的人機(jī)大戰(zhàn)后站在了圍棋之巔——2016年,谷歌旗下的DeepMind團(tuán)隊(duì)發(fā)布AlphaGo,并以4:1的戰(zhàn)績(jī)擊敗了世界圍棋冠軍、韓國(guó)棋手李世石,震撼世界。此后,AlphaGo又進(jìn)化出了AlphaGo Master版本,并以3:0戰(zhàn)勝了當(dāng)今世界圍棋第一人、中國(guó)棋手柯潔。功成名就后,DeepMind團(tuán)隊(duì)宣布AlphaGo退役。
現(xiàn)在它又以一種新的方式超越了自己:閉關(guān)一年后,DeepMind推出了最新版本的AlphaGo Zero,它在沒(méi)有任何人類指導(dǎo)的情況下,“從零開始”學(xué)習(xí)圍棋,僅用3天時(shí)間自學(xué)和訓(xùn)練,就擊敗了此前的AlphaGo,比分是100比0。值得注意的是,之前的版本都參考學(xué)習(xí)了大量人類專業(yè)棋手的圍棋經(jīng)驗(yàn),而新版的AlphaGo Zero則是自我對(duì)弈,即通過(guò)跟不同版本的自己下棋來(lái)學(xué)習(xí)。
英國(guó)“深度思維”公司開發(fā)出了“阿爾法圍棋”,該公司團(tuán)隊(duì)在新一期英國(guó)《自然》雜志上發(fā)表論文,介紹了最新版的“阿爾法圍棋-零”。 該公司之前開發(fā)的電腦在開始學(xué)習(xí)圍棋時(shí),舊版Alpha Go需要先學(xué)習(xí)數(shù)百萬(wàn)份人類棋譜,還要經(jīng)過(guò)幾個(gè)月的密集訓(xùn)練,從而進(jìn)行自我訓(xùn)練,實(shí)現(xiàn)超越。
第四個(gè)版本,即最新的“阿爾法圍棋-零”擺脫了這個(gè)限制,完全“從零開始”,自己與自己對(duì)弈,通過(guò)更為優(yōu)秀的算法,取得飛速進(jìn)步。
Zero的學(xué)習(xí)原理是這樣的:研究團(tuán)隊(duì)事先沒(méi)有給Zero學(xué)習(xí)任何人類棋譜,只告訴它圍棋的規(guī)則,就讓它自己在棋盤上下棋,與自己進(jìn)行對(duì)弈,從一次次試驗(yàn)和失敗中吸取經(jīng)驗(yàn)教訓(xùn),摸索規(guī)律,在實(shí)戰(zhàn)中提高棋藝。
除了學(xué)習(xí)原理外,另一點(diǎn)與“舊狗”不同的是,Zero使用了單一的神經(jīng)網(wǎng)絡(luò)。
此前版本的AlphaGo都是用了兩種神經(jīng)網(wǎng)絡(luò),一種用來(lái)預(yù)測(cè)下一步棋最好的走法,另一種用來(lái)計(jì)算,根據(jù)這些走法,誰(shuí)更有可能獲勝。
而Zero把這兩種網(wǎng)絡(luò)合二為一,只讓神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)獲勝者,從而能夠得到更高效的訓(xùn)練和評(píng)估,就好像讓一個(gè)圍棋高手來(lái)預(yù)測(cè)比賽結(jié)果一樣。
此外,Zero也不再使用快速而隨機(jī)的走子方法。“舊狗”會(huì)通過(guò)快速走子來(lái)預(yù)測(cè)哪個(gè)棋手會(huì)從當(dāng)前局面中獲勝,而Zero則通過(guò)高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估棋局。
如此看來(lái),“舊狗”像是走一步看三步、步步為營(yíng)的棋手,而Zero更像是縱觀全局、成竹在胸的圍棋大師。
開始學(xué)習(xí)圍棋3天后,“阿爾法圍棋-零”就以100比0的成績(jī)戰(zhàn)勝了“阿爾法圍棋-李”;40天后,它又戰(zhàn)勝了在所有人類高手看來(lái)已不可企及的“阿爾法圍棋-大師”。研究人員認(rèn)為,這一進(jìn)步標(biāo)志著人工智能的巨大突破,意味著人工智能可以更好地進(jìn)入對(duì)它來(lái)說(shuō)本是一片空白的領(lǐng)域。
根據(jù)DeepMind團(tuán)隊(duì)發(fā)表在《Nature》上的論文,最新版的AlphaGo Zero最大的突破在于實(shí)現(xiàn)了“白板理論”。白板理論認(rèn)為,嬰兒是一塊白板,可以通過(guò)后天學(xué)習(xí)和訓(xùn)練來(lái)提高智力。人工智能(AI)的先驅(qū)圖靈認(rèn)為,只要能用機(jī)器制造一個(gè)類似于小孩的AI,然后加以訓(xùn)練,就能得到一個(gè)近似成人智力,甚至超越人類智力的AI。而自學(xué)成才的AlphaGo Zero正是實(shí)現(xiàn)了這一理論。
Zero更厲害的一點(diǎn)在于,隨著訓(xùn)練的深入,它不僅棋藝獲得極大提升,而且不再受到人類認(rèn)知的局限,能夠發(fā)現(xiàn)新知識(shí),獨(dú)立發(fā)現(xiàn)游戲規(guī)則,并且發(fā)展新策略,而這些具有創(chuàng)造性的圍棋招式,模仿并完全超越了AlphaGo在與李世石和柯潔對(duì)弈時(shí)所使用的新技巧。
“深度思維”公司首席執(zhí)行官哈薩比斯表示,希望人工智能的這種進(jìn)步能夠被用于分析蛋白質(zhì)結(jié)構(gòu)、設(shè)計(jì)新材料等領(lǐng)域,為人們的生活帶來(lái)積極有益的影響。
根據(jù)英國(guó)《衛(wèi)報(bào)》報(bào)道,AlphaGo的首席研究員大衛(wèi)·席爾瓦(David Silver)稱:“它比以前的算法更強(qiáng)大,因?yàn)樗皇褂萌魏稳祟悢?shù)據(jù)或人類經(jīng)驗(yàn),我們已經(jīng)消除了人類知識(shí)的限制,它可以自己創(chuàng)造知識(shí)。”