134. 给你们来一个七定王
相对于计算机在国际象棋中的胜利,华国象棋的智能程序进展一直落后。
这倒不是华国象棋要比国际象棋难之类的原因,而是因为棋类智能对于大公司来说毕竟只是一种公关手段,没有实际上的营收价值。
“深蓝”取得国际象棋的胜利之后,许多人都认为计算机下棋这事已经差不多到头了,
继续去搞难度差不多的华国象棋费力不讨好,IBM也解散了“深蓝”团队。
唯有围棋确实难度上要高很多,并且很具有挑战性。
一般人们都认为,计算机要在围棋中取胜比在国际象棋等游戏中取胜要困难得多,因为围棋的棋盘太大,下棋点极多,分支因子远多于其他游戏。
并且每次落子对情势的好坏飘忽不定,天堂地狱就在一瞬之间,技术很成熟之后,人们经常可以观察到那种一手棋下掉AI系统百分之六七十胜率的情况。
可以说是“一着不慎满盘皆输”的最好演绎了。
诸如暴力搜索法、Alpha-beta剪枝、启发式搜索的传统人工智能方法在围棋中很难奏效。
不过围棋在西方没什么受众,主要热度还是在东亚三国,因此很长一段时间内没有太多人愿意花时间在这件事情上,这十几年的发展速度中规中矩。
DeepMind投入在这件事情上,很大程度也是机缘巧合。
一方面许多高层都热爱棋类,另一方面可能更加关键,DeepMind的核心成员,两位首席科学家之一的黄士杰在围棋智能上有着很深的积淀和情怀。
黄士杰的硕士论文是《计算机围棋的打劫策略》,博士论文是《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。
相比孟繁岐这种毕业了连本科专业知识都全忘了的人,黄博士可以说专业是非常对口了。
“其实现在的围棋智能已经有了一定的竞争力。”黄博士为孟繁岐介绍了一下现阶段围棋智能的棋力:“差不多最高才在业余五段左右的水平,如果不让子的话,和真正的职业选手对弈,毫无胜算。”
基本的围棋棋力划分孟繁岐还是大概清楚的,业余六段大约可以与职业初段水平相比拟。
黄士杰博士本人就是宝岛业余六段,算得上是职业水准守门员了。
倘若自己造出的智能程式能够稳定占据上风,自己完全下不过的话,基本上象征着围棋智能来到了真的职业水准。
而不是只能通过受让-子这样的方式击败职业棋手。
并且,如果造出来的智能下不过自己,这件事情属实没什么意思。
“你们目前的想法和策略大概是什么样的。”大概聊了一些情况之后,孟繁岐将话题切入了具体的算法部分。
从理论上来说,围棋问题的输入和孟繁岐非常擅长的图像类其实很像。
彩色图片在计算机中的形式就是多通道矩阵,通常为通道,代表三原色。
比如,一张分辨率为x的图片,就是以三个[,]矩阵的形式进行存储。
一般来说,每个位置的取值在~之间。
对于围棋这个情况来说,它的输入就像是一个x的单通道图片。
x表示棋盘上所有的落子地点,而每个地点的取值就只有三种状态,黑,白,无子。
可以用[-,,]三個数字来指代。
而围棋智能的目标,所谓的下棋。
如果不考虑其中原理的话,它的外在反馈其实就是给定这样一个[,]的棋盘,希望程序可以在上面仅改变一个无子的数字到给定的棋子类型(数字-或者),同时使得该方获胜的概率尽可能地变大。() ()
“棋盘就是一副黑白的单通道分辨率为的图像。”这个事情在普通人看来比较不会想到。
不过对于比较熟悉图像技术和深度神经网络的孟繁岐来说,是很自然的事情和概念。
“我们从深度神经网络的突破中获得了灵感,在年底的AlNet之前,疯狂石头这款围棋智能提供的准确率是最高的,达到%左右。
目前主要是在研究,如何使用深度神经网络使得围棋智能的判断更加精准。
Al和你引领的深度神经网络在分类问题上有了惊人的突破,这是我们今年启动这个项目的一大原因。
我们在尝试收集大量的专业对弈棋谱,目前已经有了十多万场比赛的内容。而从这十万多场比赛当中,又可以抽离出上百万个单次落子。
通过这个数据,我们现阶段在确立合适的网络结构,在这个方面,我想你是专家中的专家。”
“我大概了解了。”孟繁岐听完之后基本明白了DeepMind现阶段的想法和进展情况。
虽然此前黄博士在围棋AI项目上有过很多研究,但阿尔法围棋项目毕竟才刚刚开始,同时也是基于全新的深度网络技术。
目前为止,他们还没有形成一整套的学习以及对抗的思路,那一套策略网络-评估网络-强化学习-蒙特卡洛搜索的总体结构还没有成型。
还停留在比较早期的阶段,甚至还没有最后决定到底使用怎样的网络结构比较好,此时正在对模型本身的结构进行测试和设计。
“这方面确实是我比较擅长的方向,尤其最近,我在CPU和小模型的设计上有一些想法,这些内容应该会对你们有一定的帮助。”
要说各种设备和各种类型的任务,网络用什么算子比较好,速度和性能怎么取舍,即便再往后五年,孟繁岐都是当之无愧的第一人。
因为他熟知的那些取舍和结论,都是后来谷歌这样的大平台NAS(网络结构搜索)的实验结果。
所谓NAS,其实就是一种穷举对比的方式。
在特定的数据集上,把所有想得到想不到的算子组合用穷举的形式全都特么的测试一遍。
最后得出的网络结构,当然会比人类自己设计的要好要快,不过换一个差距很大的数据未必好用。
获取这个答案的代价是相当惊人的,随着搜索空间的增大,显然需要非常恐怖的计算资源去支撑。
好在孟繁岐已经将几个大公司上万张显卡,数年时间测试出来的主要结论全都白嫖了。
这个知识的价格成本,恐怕不止十数亿美金。
“那实在太好了。”见孟繁岐一口答应在阿尔法狗的网络设计上提供帮助,黄博士喜笑颜开,“我们现阶段除了需要快速迭代对比确定网络结构之外,没有什么特别大的困难。”
“如果非要说的话,就是缺少一个职业守门员级别的人类棋手。”黄博士想了想,补充道。
他自己业余六段,其实可以担当此任。
可他毕竟太过了解围棋AI,起到的测试效果可能不够真实,并且他也很忙,不可能一直负责对弈测试。
同时,欧美那边围棋的热度也并不高,樊麾二段就曾经多次夺得欧美围棋冠军,职业守门员级别测试员不是那么好找。
“这个没关系,我二月份会去一次英国,跟你们确认一下效果和后续的思路。”孟繁岐闻言笑了笑:“到时候给你们找一个守门员中的守门员。”
要说职业守门员水平的棋手,想必没有谁比已经连续定段了七年,今年正在第八次对职业棋手这个身份发起冲击的七定王战鹰,更加适合的了吧?
这门都守了第八回了。
这倒不是华国象棋要比国际象棋难之类的原因,而是因为棋类智能对于大公司来说毕竟只是一种公关手段,没有实际上的营收价值。
“深蓝”取得国际象棋的胜利之后,许多人都认为计算机下棋这事已经差不多到头了,
继续去搞难度差不多的华国象棋费力不讨好,IBM也解散了“深蓝”团队。
唯有围棋确实难度上要高很多,并且很具有挑战性。
一般人们都认为,计算机要在围棋中取胜比在国际象棋等游戏中取胜要困难得多,因为围棋的棋盘太大,下棋点极多,分支因子远多于其他游戏。
并且每次落子对情势的好坏飘忽不定,天堂地狱就在一瞬之间,技术很成熟之后,人们经常可以观察到那种一手棋下掉AI系统百分之六七十胜率的情况。
可以说是“一着不慎满盘皆输”的最好演绎了。
诸如暴力搜索法、Alpha-beta剪枝、启发式搜索的传统人工智能方法在围棋中很难奏效。
不过围棋在西方没什么受众,主要热度还是在东亚三国,因此很长一段时间内没有太多人愿意花时间在这件事情上,这十几年的发展速度中规中矩。
DeepMind投入在这件事情上,很大程度也是机缘巧合。
一方面许多高层都热爱棋类,另一方面可能更加关键,DeepMind的核心成员,两位首席科学家之一的黄士杰在围棋智能上有着很深的积淀和情怀。
黄士杰的硕士论文是《计算机围棋的打劫策略》,博士论文是《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。
相比孟繁岐这种毕业了连本科专业知识都全忘了的人,黄博士可以说专业是非常对口了。
“其实现在的围棋智能已经有了一定的竞争力。”黄博士为孟繁岐介绍了一下现阶段围棋智能的棋力:“差不多最高才在业余五段左右的水平,如果不让子的话,和真正的职业选手对弈,毫无胜算。”
基本的围棋棋力划分孟繁岐还是大概清楚的,业余六段大约可以与职业初段水平相比拟。
黄士杰博士本人就是宝岛业余六段,算得上是职业水准守门员了。
倘若自己造出的智能程式能够稳定占据上风,自己完全下不过的话,基本上象征着围棋智能来到了真的职业水准。
而不是只能通过受让-子这样的方式击败职业棋手。
并且,如果造出来的智能下不过自己,这件事情属实没什么意思。
“你们目前的想法和策略大概是什么样的。”大概聊了一些情况之后,孟繁岐将话题切入了具体的算法部分。
从理论上来说,围棋问题的输入和孟繁岐非常擅长的图像类其实很像。
彩色图片在计算机中的形式就是多通道矩阵,通常为通道,代表三原色。
比如,一张分辨率为x的图片,就是以三个[,]矩阵的形式进行存储。
一般来说,每个位置的取值在~之间。
对于围棋这个情况来说,它的输入就像是一个x的单通道图片。
x表示棋盘上所有的落子地点,而每个地点的取值就只有三种状态,黑,白,无子。
可以用[-,,]三個数字来指代。
而围棋智能的目标,所谓的下棋。
如果不考虑其中原理的话,它的外在反馈其实就是给定这样一个[,]的棋盘,希望程序可以在上面仅改变一个无子的数字到给定的棋子类型(数字-或者),同时使得该方获胜的概率尽可能地变大。() ()
“棋盘就是一副黑白的单通道分辨率为的图像。”这个事情在普通人看来比较不会想到。
不过对于比较熟悉图像技术和深度神经网络的孟繁岐来说,是很自然的事情和概念。
“我们从深度神经网络的突破中获得了灵感,在年底的AlNet之前,疯狂石头这款围棋智能提供的准确率是最高的,达到%左右。
目前主要是在研究,如何使用深度神经网络使得围棋智能的判断更加精准。
Al和你引领的深度神经网络在分类问题上有了惊人的突破,这是我们今年启动这个项目的一大原因。
我们在尝试收集大量的专业对弈棋谱,目前已经有了十多万场比赛的内容。而从这十万多场比赛当中,又可以抽离出上百万个单次落子。
通过这个数据,我们现阶段在确立合适的网络结构,在这个方面,我想你是专家中的专家。”
“我大概了解了。”孟繁岐听完之后基本明白了DeepMind现阶段的想法和进展情况。
虽然此前黄博士在围棋AI项目上有过很多研究,但阿尔法围棋项目毕竟才刚刚开始,同时也是基于全新的深度网络技术。
目前为止,他们还没有形成一整套的学习以及对抗的思路,那一套策略网络-评估网络-强化学习-蒙特卡洛搜索的总体结构还没有成型。
还停留在比较早期的阶段,甚至还没有最后决定到底使用怎样的网络结构比较好,此时正在对模型本身的结构进行测试和设计。
“这方面确实是我比较擅长的方向,尤其最近,我在CPU和小模型的设计上有一些想法,这些内容应该会对你们有一定的帮助。”
要说各种设备和各种类型的任务,网络用什么算子比较好,速度和性能怎么取舍,即便再往后五年,孟繁岐都是当之无愧的第一人。
因为他熟知的那些取舍和结论,都是后来谷歌这样的大平台NAS(网络结构搜索)的实验结果。
所谓NAS,其实就是一种穷举对比的方式。
在特定的数据集上,把所有想得到想不到的算子组合用穷举的形式全都特么的测试一遍。
最后得出的网络结构,当然会比人类自己设计的要好要快,不过换一个差距很大的数据未必好用。
获取这个答案的代价是相当惊人的,随着搜索空间的增大,显然需要非常恐怖的计算资源去支撑。
好在孟繁岐已经将几个大公司上万张显卡,数年时间测试出来的主要结论全都白嫖了。
这个知识的价格成本,恐怕不止十数亿美金。
“那实在太好了。”见孟繁岐一口答应在阿尔法狗的网络设计上提供帮助,黄博士喜笑颜开,“我们现阶段除了需要快速迭代对比确定网络结构之外,没有什么特别大的困难。”
“如果非要说的话,就是缺少一个职业守门员级别的人类棋手。”黄博士想了想,补充道。
他自己业余六段,其实可以担当此任。
可他毕竟太过了解围棋AI,起到的测试效果可能不够真实,并且他也很忙,不可能一直负责对弈测试。
同时,欧美那边围棋的热度也并不高,樊麾二段就曾经多次夺得欧美围棋冠军,职业守门员级别测试员不是那么好找。
“这个没关系,我二月份会去一次英国,跟你们确认一下效果和后续的思路。”孟繁岐闻言笑了笑:“到时候给你们找一个守门员中的守门员。”
要说职业守门员水平的棋手,想必没有谁比已经连续定段了七年,今年正在第八次对职业棋手这个身份发起冲击的七定王战鹰,更加适合的了吧?
这门都守了第八回了。