阿法狗是如何工作的?卡內基梅隆大學博士用54頁PP
原標題:阿法狗是如何工作的?卡內基梅隆大學博士用54頁PP
商業周刊中文版授權轉載
編譯:梁悅
摘自:商業周刊中文版(微信號:businessweek)
原文鏈接:Shane Moon的Slideshare主頁
大數據文摘後臺,回復“人工智能”,一並下載本文全版PPT(54頁)及其他
最絢爛的火花,永遠產生於森然秩序被打破,天才超然於規律之外的那一瞬間
卡內基梅隆大學博士生用54頁PPT解密阿法狗的工作原理
在剛剛結束的“AlphaGo”與韓國圍棋高手李世石之間的人機大戰第五局中,李世石執黑負,無緣兩連勝。至此,人機大戰五番棋全部結束,李世石1-4輸掉對決,無緣100萬美元贏棋獎金。
為瞭讓大傢從另外一面瞭解AlphaGo,Computer Science排名第一的卡內基梅隆大學的博士研究生 Shane Moon(個人主頁:http://shanemoon.com/)做瞭一次演講,他就讀於卡內基梅隆大學著名的語言技術研究所,純幹貨講稿PPT奉上。
AlphaGo是如何工作的
演講人:Shane Moon
2015年10月,AlphaGo與歐洲圍棋冠軍樊麾二段對弈
2016年3月9日-15日,AlphaGo與世界冠軍李世乭九段展開對弈
電腦圍棋人工智能
電腦圍棋人工智能:定義
我們可以把棋盤想象成一個矩陣
當給出s,電腦圍棋運算出最優移動a,得到s'
電腦圍棋人工智能:一個可行的概念?
假設它模擬所有可能的棋盤落子位置呢?
進行這樣的模擬直到遊戲結束,然後報告輸贏結果
這是不可能的,據說所有可能的棋盤排佈種類總數超過瞭宇宙中原子的數量
關鍵在於:縮減搜索空間
縮減搜索空間的第美國商標查詢美國商標申請費用一種方法:減少可選擇的著法(橫向縮減)
從搜索出的著法候選中把這些提前剔除
縮減搜索空間的第二種方法:提前評估落子位置(縱向縮減)
假設這裡有一個函數可以計算V,即s的盤面形勢評估
縮減搜索空間的兩種方式:減少可選擇的著法(橫向),提前評估落子位置(縱向)
減少可選擇的著法
得到P(下一次落子|現在的位置)
減少可選擇的著法:模仿專業高手的著法(在指導下學習)
建立棋盤的預測模型
將預測模型模擬為矩陣進行運算
這個深度學習過程要經過13層“CNN”
CNN即卷積神經網絡,是一種強大的圖像識別任務處理模型,它將輸入的圖像通過卷積層抽象化
它們利用卷積神經網絡模型去評估對局形勢
圍棋:勝利的關鍵在於抽象能力
卷積神經網絡:抽象是其特長
模仿專業高手著法的模型
減少可選擇的著法:通過自我對弈來提高(鞏固學習)
兩個專業高手著法模仿模型進行對弈
輸贏兩種結局
更新模型,不斷進行新舊模型之間的對弈,最後一個版本的模型和初始版本對弈已經有瞭八成贏面
盤面形勢評估
使用兩個模型:上文最新版本的模仿模型與價值預測模型(復盤)
縮減搜索空間:橫向上減少可選擇的著法(策略網絡),縱向上進行盤面形勢評估(價值網絡)
前瞻:蒙特卡洛樹形研究模型
美國商標登記台中
結果:AlphaGo不同成分的組合所呈現的表現
李世乭九段與AlphaGo的能量功耗對比
據估測,AlphaGo的水準在業餘五段左右
將CPU/GPU資源運用到極致?
AlphaGo每天都學習數以百萬計的對局
如果AlphaGo學習瞭李世乭的策略會怎樣?谷歌表示他們不會將李世乭的比賽數據用於AlphaGo的訓練數據,即使它真的學習瞭,僅僅與李世乭對弈幾盤就修改在海量數據下訓練過的模型也是很難的
AlphaGo的弱點是什麼?留待研究
往期精彩文章推薦,點擊圖片可閱讀
微軟Hololens,正在顛覆醫學領域
重磅:如何不花錢就成為數據科學傢?
[譯]天龍八步:8步讓你變成數據科學傢
返回搜狐,查看更多
責任編輯:
聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。
閱讀 ()
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表