一場“人機大戰”,將人工智能的話題推到公眾面前,李世石連輸兩陣,更讓人對科技的發展瞠目結舌,甚至聯想到《星球大戰》是否真的會發生、人類會否被機器統治等問題。此時,我們不妨用科學的視角,理性而客觀地看待人工智能的現狀和未來。中新網(微信號:cns2012)記者特別采訪了長期從事人工智能和智能科學研究、來自中國科學院計算技術研究所的史忠植研究員,解讀“阿爾法圍棋”和人工智能的問題。
“人機大戰”為什么選擇圍棋? 171位數“嚇死你”
“人機大戰”的興起,最早是1997年,IBM超級計算機“深藍(Deep Blue)” 擊敗了國際象棋大師加里-卡斯帕羅夫。科學界認為,圍棋“人機大戰”可以看成是人工智能發展具有標志性的進展。曾經“深藍”的勝利鼓舞了人工智能研究的士氣,吸引了投資者對人工智能的興趣。
至于為什么選擇圍棋,史忠植教授解讀稱:“圍棋之所以很難被人工智能攻破,戰勝人類高手,就是其可能的組合數異常龐大。至于多么異常,2016年1月,普林斯頓的研究人員給出了最新研究結果:對于一個19x19的圍棋棋盤而言,一共有361個位置,而每個位置可以單獨放置黑棋、白棋或者留空,理論上所有的可能組合是3361種。但根據圍棋規則,不是所有位置都可合法落子,例如在圍棋術語中沒有氣的位置就不能落子。”
“那么,排除掉這些不合法的棋局后總共還剩多少種呢?普林斯頓的研究人員給出的19x19格圍棋的精確合法棋局數:‘208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935。’”
“171位數!”這個數字比我們地球所有的沙粒數量還要多!比人類已知宇宙的所有星球數量還要多!對比來講,谷歌學習的近萬盤人類棋局是5位數,谷歌自行對戰的3000萬盤是8位數,而圍棋所有可能的棋局盤數是171位數。如果規避還有可能的重復變化,把大頭去掉,那也是70位數的棋局變化。
“人機大戰”說明人工智能達到了何種水平?
2013年10月29日,史忠植在在創新驅動發展大數據時代的人工智能高峰論壇上,提出了智能科學(人工智能)發展的“路線圖”,并在著作《心智計算》一書中有詳細的闡述。
其中提到,2020年,人工智能將實現初級類腦計算,即Elementary Brain Computing。在這個階段,我們將實現的目標是計算機可以完成精準的聽、說、讀、寫;到2035年,我們將進入高級類腦計算階段,即Advanced Brain like Computing,那時,計算機不但具備“智商”,還將擁有“情商”;到2050年,智能科學(人工智能)有望發展出神經形態計算機,實現超腦計算,即Super-brain Computing。到那個時候,計算機的高性能與人的高智能完美結合。
史忠植認為:“按照這個標準,這次圍棋“人機大戰”中,若谷歌圍棋AI程序‘AlphaGo’最終戰勝世界冠軍李世石,將說明人工智能達到了初級類腦計算的水平。”
“AlphaGo”如何工作?
史忠植介紹,“阿爾法圍棋”下棋過程中主要通過四步完成工作,分別是:快速判斷、深度模仿、自學成才和全局分析。
其中,快速判斷,指用于快速的觀察圍棋的盤面,類似于人觀察盤面獲得的第一反應。深度模仿,指“AlphaGo”學習近萬盤人類歷史高手的棋局來進行模仿學習,用得到的經驗進行判斷。這個深度模仿能夠根據盤面產生類似人類棋手的走法。
自學成長,指“AlphaGo”不斷與“自己”對戰,下了3000萬盤棋局,總結出經驗作為棋局中的評估依據。全局分析,指利用第三步學習結果對整個盤面的贏面判斷,實現從全局分析整個棋局。
現實中有人工智能嗎?中國能造出類似的人工智能嗎?
人工智能經過60年的風風雨雨,取得了長足的進展,目前已在各行各業得到應用。史忠植的《人工智能》一書中,將其歸納為8個方面:專家系統、數據挖掘、自然語言處理、智能機器人、模式識別、分布式人工智能、互聯網智能和博弈。
看到了“阿爾法圍棋”,人們自然聯想到中國的同類科技,目前能否達到甚至、超越這一水平。史忠植介紹說:“在國家自然科學基金、973、863和廣大企業等的支持下,在廣大科研人員和應用單位的努力下,我國人工智能幾乎與世界同步發展,特別在機器翻譯、語音識別、人臉識別、農業專家系統、數據挖掘、深水機器人等方面是非常有特色的,也有能力創造出戰勝世界頂級棋手的人工智能系統。”
人工智能會否有朝一日能戰勝所有人類棋手?如果可以,大概需要多久?
李世石接連落敗,柯潔甚至成為拯救人類圍棋智慧“尊嚴”的最后稻草。史忠植認為,經過學習和積累,在未來3-5年人工智能系統能夠戰勝所有的人類棋手。
為何這臺人工智能如此厲害,不妨深究其內涵:“AlphaGo”的核心是兩種不同的深度神經網絡:“策略網絡”(policy network)和“值網絡”(value network)。它們的任務在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里。
其中,“值網絡”負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;而“策略網絡”負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。
然后,將這些信息放入一個概率函數,AI就不用給每一步以同樣的重視程度,而可以重點分析那些有戲的棋招。“AlphaGo”利用這兩個工具來分析局面,判斷每種下子策略的優劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。這樣,“AlphaGo”分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。
另據媒體報道,阿爾法圍棋采用機器學習方法,主要是深度卷積神經網絡和強化學習。研發團隊收集了圍棋職業高手大量的棋譜,并用這些棋譜對“深度卷積神經網絡”進行了3000萬步的訓練,使其判斷職業選手下一步走法的正確率達到了57%,之前的紀錄是44%。記者王牧青 |