2017年10月19日 星期四

AlphaGo Zero的啟示


本文亦同步發表於關鍵評論網

AlphaGo打敗世界棋王李世石,從此罕逢敵手。然而Google的AI實驗室DeepMind的最新開發成果,已經可以擊敗曾站上圍棋高峰的AlphaGo。他是AlphaGo Zero,號稱是AlphaGo的弟弟,有著比哥哥更卓越的下棋功力,而且學習的過程也與眾不同。

AlphaGo是透過以人類經驗為基礎的學習,訓練出更強大的能力。弟弟AlphaGo Zero則是透過自主學習,不需要餵養資料給他,透過與自己對打,將勝場輸入系統,以此學習到弈棋能力。他在三天的時間用4個TPU,和自己對打490萬場棋,最後以100比0擊敗了他的哥哥AlphaGo;但AlphaGo用48個TPU,花了數個月時間學習3000萬場棋局,才打敗人類。

│局部與有限的樣本經驗

記載這個研究結果的論文是《Mastering the game of Go without human knowledge》,第一通訊作者David Silver認為「AlphaGo Zero更加強大,原因是他不再受到人類經驗的限制﹝no longer constrained by human knowledge﹞,自由發展的新知和策略。」這告訴我們一個重要的思考面向:人類的經驗所發展出來的認知甚至策略,其實是有限的。

人類的經驗受制於有限的樣本,只有在「局部」的情況下某些判斷或定理才能被滿足。我們所能觀察的、記載的、施展出的以及歸納而來的方法或定理,其實都是極其有限的﹝進行推斷的樣本有限﹞;只在特定條件下,才能成立。局部是相對於「一般」或「整體」的概念,假如我們所說的真相或事實是一個整體,大家可能都會看到其中的一個面向,那就是局部。由於個體所能觸及的資訊是有限的,所以人也只能做出局部的理解與判斷。

為了方便理解,我們可以思考,有個人一生都沒看過黑天鵝,只看過白天鵝,他能夠做出世上沒有黑天鵝的判斷嗎?我們或許可以否決他,因為我們看過黑天鵝,世上有黑天鵝,只不過他所居住的地方沒有黑天鵝,所以他不知道。如果他看過的樣本數量夠多,例如他有特權看盡世上所有天鵝,他才能做出精確完整判斷。我們從這裡看出,人的認知、判斷甚至是衍伸出來的策略,都受到經驗﹝樣本﹞足夠與否的影響。

在我們視為是定理的理論也是,尤其是社會科學有些人對於理論是「局部」這個事實,並不是很清楚。有的人喜愛用單一經濟理論來解釋經濟現象。聽的人甚至還聽得津津有味。像是未來台北房價會跌,因為沒有人住,價格就會下跌。這個供需理論用的熟稔,房子確實也是商品,可是影響房價的變數不只是房子供需數量,像是利率也很重要。如果市場流通貨幣過多導致利率下降,像房子這類相對較能保值或相對高報酬的資產仍受青睞,價格會如何被需求影響還不好說。當然,如果仔細看一下教科書,就會發現經濟理論很多的「假定XXX條件不變的情況下」,這就是「局部」的概念﹝局部均衡﹞。

而我們對人類局部有限的認知,我們可以呼應到AlphaGo Zero技術評價上。杜克大學的陳怡然教授說:「這證明了人類經驗由於樣本空間大小的限制,往往都收斂於局部最優而不自知(或無法發現),而機器學習可以突破這個限制......。實際更優或者最優的下法與人類的下法存在一些本質的不同,人類實際誤導了AlphaGo。

│框架、錨定與選擇困難

人類的認知不只有限,而且還相當容易受到操作。心理學的研究認為我們的認知受到「框架」的影響。因為我們的思考,深受相對參考點的影響,心理學家稱這效應為定錨有次在山頭上被朋友亂帶路走不回去,我回憶到一個有趣的實驗,問居民走到那要多久,提示對方,是30分鐘嗎?對方會回答快25分鐘;再問另一個路人同樣問題,定錨為20分鐘,而他回答15分鐘就可以了。得到了兩組被亂引導的答案,那一次,我花約20分鐘就走到了。定的錨越高,所回答的基準也越高,反之亦然。

我們也認為人們能夠比較商品對他們的價值,進而做出選擇。但是心理學家在實驗上也發現,當選擇只有3到5個時,人們還可以做出選擇;但當選擇超過7個或以上,人就無法做出選擇。因為對損失太過於敏感,選了一個,似乎就意味著放棄其他6個的價值總和。我們似乎不是靠著機會成本的觀念在做選擇。

然而傳統經濟學告訴我們,人能清楚知道自己的偏好,清楚地做出自己想要的選擇。然而我們從上面例子可以看到,人的認知是受到外在框架而變化的,且有時人們可能根本不清楚自己要什麼,以及他所要的東西到底多有價值。我們所透過有限經驗歸納出來的結論,某種程度上框限我們的創造力;定錨、框架和選擇的困難,也大大影響我們對現實的理性判斷和經驗累積。

說人類經驗是錯的那就太過武斷了,只是AI在自己摸索屬於自己的套路有更豐富的樣本支持,更理性了些,走出了不一樣的路。兩位美國的棋手觀看AI兄弟檔對決時做出評論:AlphaGo Zero在開局和收官並沒有差異,但相對的,在中盤的時候下的比較怪異。

│結尾

至此,AI的發展又邁進一步,有人充滿信心,但也有人換了另一個面向來看,認為他們雖然補足人類的不足,但會不會反過來取代或壓制人類。

專家對這項發展也有些回應,密西根大學AI實驗室主任 Satinder Singh認為AI與人和動物相比,所知所能還非常有限﹝extremely limited﹞。當然。北卡羅萊納大學的洪韜教授認為這股熱潮燃燒多久,還得看神經網絡能解決多少問題,新的工具未必能經得起長時間的考驗。

當然,工具也取決於人的價值觀和使用,事態如何發展無法定論,但有些命題已經慢慢顯現,大略整理了幾個方向:我們究竟怎麼在AI面前看待處處缺漏的人類認知?聽從AI在各方面給我們的裁決和建議,我們能過上更想要的生活嗎?我們道德觀念和法律規範要如何因應調整?智能和意識,誰比較重要?

而我想的是,環境變得讓我們某些特質不太有助於生存,因此找到並強化我們與群體適合生存的特質,也是不可忽視的。

另外,我們也可以得到重要的概念:我們對於「事實」,永遠要保持謙虛敬畏。基於僅有的工具和經驗,只掌握有限的變數,也不清楚是否會有隨機變數產生(隨機變數可否被預測此不討論),所以無法得出通用、普遍又能準確應用的原則,突破了局部,也可能只是通往更大的局部。