特稿 >

行业洞察 >

冷扑大师的“不败战略”:从博弈算法到人类未来

冷扑大师的“不败战略”:从博弈算法到人类未来

Xtecher原创 丨 行业洞察

29096
2122

2017-04-11

郭宝婷

Xtecher特稿作者

关注

冷扑大师战胜人类拿走200万奖金。其策略一言蔽之,“以我之不败战人类之可胜


作者|郭宝婷

编辑|甲小姐

网址|www.xtecher.com

微信公众号ID|Xtecher


在4月10日于海南结束的“冷扑大师V.S.中国龙之队—人机扑克巅峰表演赛”中,冷扑大师以792,327总记分牌的战绩获胜,获得此次表演赛的200万人民币奖金。


640.jpeg

640-1.jpeg


为时5天的表演赛,不仅为全球观众展现了人机德扑的巅峰对决,在赛后的访谈和论坛中,冷扑大师发明者Sandholm教授、创新工场董事长兼CEO李开复博士,还有众多科技界领军人物云集一堂,从冷扑大师算法聊起,碰撞出对于AI的商业路线和未来的思考。


640-2.jpeg

640-3.jpeg


Xtecher作为战略合作媒体,全程深度参与采访报道。此外,Xtecher CEO戚宗超也参与名人体验赛,在体验人机对战一百手牌过程中战胜冷扑大师。


Tuomas Sandholm:

冷扑大师用的是“不败战略”


640-4.jpeg


Tuomas Sandholm教授以及他的博士生Noam Brown是Libratus和冷扑大师的发明者。他们专门为Xtecher讲解了冷扑大师背后的技术原理。


德州扑克AI背后的原理核心是博弈论,其中最重要的理念是纳什均衡(Nash equilibrium)。纳什均衡,是电影《美丽心灵》的原型数学家约翰·纳什于1950年发表的一个非常重要的博弈论概念:在多人非合作赛局里,玩家理性的情况下,存在一个最佳策略以达到利益平衡。


0.jpeg


纳什均衡意味着,博弈游戏中有个不败战略,不管对手用什么样的策略都不可胜。Sandholm教授和Brown博士需要计算出德州扑克牌局里的纳什均衡,问题是游戏的可能性空间太大了。在德州扑克一对一对决中,可能性数量比宇宙的原子还多,需要找个办法去模拟接近它,这就是AI发挥作用的地方。


“博弈论会告诉我们这个游戏的最佳策略是什么,然后从策略出发,变成优化的问题。我们把博弈论和AI算法结合在一起,通过计算找到最佳策略。”Sandholm教授说。这就是Brown博士一直在做的事,去找到一个最接近纳什均衡的方式,根据现实状况来寻找这个策略,实现平衡。


最终,德扑AI算法的设计,分为几个模块:


第一个模块,是在比赛前算出纳什均衡。2016年,在CMU校园所在地匹兹堡的超级计算中心,开发团队算出了几个不同的纳什均衡,最后使用的是Brown博士一个比较有名的算法:虚拟遗憾最小化(counterfactual regret minimization)。先从随机开始,经过一系列训练后找到最优的策略。


640-5.jpeg


第二个模块,是残局解算(end-game solver)。例如象棋里也有解残局的算法,但德州扑克的情况不太一样,因为它是有随机性的游戏。有时第一步骤里的最优策略是不够的,残局解算会学习目前场面上的信息,来判断第一步中计算出的纳什均衡是否对目前场面最优。


第三个模块,是自我强化学习。德州扑克是一个寻找对手的短板来制定策略的游戏。顶级德扑选手强大之处在于,他们可以找出对手的漏洞,如果试图攻破他的短板,他会很快改变策略,反过来找到你新暴露出来的点。因此前两个模块还不够,要强化进步。每天晚上,德扑AI会找出自己表现最差的对局,重新用第一部分的算法重新计算寻找策略。如果人类的选手找到了电脑的短板,就会故意针对这个短板,那么就要针对这个短板再训练一次。


640-6.jpeg


Sandholm教授询问过国内外德扑选手,与带有自我强化模块的AI对战的体验如何。选手表示,会出现一些错觉,仿佛对AI来说随机性不存在。


有意思的是,中国选手表示,感觉AI会针对不同的对手定不同的策略,每打十手牌AI就会变一个策略,试图把十手牌打的很奇怪,像骗小孩一样。而其实Libratus和冷扑大师并没有针对某个选手优化策略,虽然每天进行强化学习,但并没有改进任何算法。


改变算法是没必要且有风险的,目前的算法已经打得很好了。选手感觉到的其实只是错觉,冷扑大师对每个选手每天的策略其实是一模一样的。“它并不针对任何一个选手,指出短板在哪然后有所作为。策略是通用的,它只是调到了更高的纳什均衡。”


640-7.jpeg


中国龙之队中不乏精通计算机与AI的牌手,其中,具有IT、金融跨界背景的选手杜悦就分析,从选手的角度来讲,冷扑大师策略的特点是基于纳什均衡的最优化战略,这个策略就是不败。长远来说,只能打平,不可能打输,这是理论上最精确的解读。


人类选手很难保证一直打最优级战略。表现在打法上,冷扑大师的特点就是在它该赢的地方一定想方设法多赢,该输的地方会由它输。人类选手赢的时候是小赢,输的时候是多输。


中国龙之队虽然连续输,但实力也不容小觑,输的额度是在缩小的。客观而言,人类选手很难战胜AI,冷扑大师计算出的最优策略,任何其他的策略都打不过,最多只能是打平,这是在数学上可以证明的。所以简单来讲,冷扑大师的策略,就是“以我之不败战人类之可胜”。


CMU开发团队最早预测AI每百手牌会赢20到25大盲注,最终结果与预测非常接近。Sandholm教授认为,人类选手也打得非常好,本次比赛非常精彩。


0.gif


李开复:人工智能会取代经济学家


640-8.jpeg


冷扑大师不仅可以在牌局中赢过对手,还可以优化德州扑克环境。


比如现在网上有很多赚钱的机器人,很多人不想跟机器人玩,冷扑大师可以分辨出哪些是机器人,帮助平台把帐号封掉。另外,像国际象棋等国际项目都有绝对的排名和分数系统,但德州扑克一直缺少打分系统,而冷扑大师可以通过与人类打牌给出对他实力的打分,进而可以把实力相似的玩家匹配到一起,促进更公平、更有挑战性的游戏体验。


然而冷扑大师的突破远不止于此。不像围棋、象棋等信息都是公开的游戏模式,德州扑克中,选手互相之间不知道对方的手牌,存在不完美信息(imperfect information),即隐藏的信息。现实世界中很多问题难点其实都是对不完美信息的处理,冷扑大师的成功,意味着人工智能将能用“情商”策略取得更大的应用前景。


Sandholm教授谈了策略博弈AI在金融上的两种应用。第一是量化交易,金融界以时间划分领域,交易里拼的是速度,战略性的玩法变得越来越重要。第二是策略制定,目前很多传统的量化把股票市场看成一个自然世界,它可能是一个环境,所有的其他交易者都是这个环境里的随机因素。但是,在一个游戏里,玩家数量比较少的时候,战略就变得尤其重要,不可以把其他玩家当成环境NPC。


冷扑大师是一个计算策略的成功范例。当银行大笔交易股票的时候,战略很重要,比如有人想把100亿美金的股票卖掉,如果这个消息走漏了,交易费用就会变大,所以交易过程中其实有很多隐藏信息。Sandholm教授说他们成立了一家主打战略计算的公司,也想看看能否与金融界达成合作,解决经济学上一些计算战略的问题。


640-9.jpeg


李开复谈到AI应用成功的三个条件:“一是数据量特别大,二是要有精确的标注,三是单一领域”。而满足这三个条件的,毫无疑问就是金融。保险订单、信贷、征信,金融领域本来就是人类创造的虚拟游戏,没有任何制造成本,不像做无人驾驶车辆,比如滴滴手中的行车数据并没有多少是他们可以用的。而且,金融的算法进去以后钱就掉出来了,没有任何领域离钱这么近。


640-10.jpeg


传统的量化策略是比快,现在在国内,高频交易在法律上是有风险的。基于李开复老师的观察,需要人工智能量化的数据大都是基金经理在做的,包括买期货和股票,这些基金经理告诉大家,都是靠人工管钱。但是当算法普及、信息不对称的时候,一定是给机器人钱。李开复自己也表示,“已经两年半没有找个人理财做基金管理了,这两年只买了一只股票,除此之外我不碰股票,挣的钱都给机器管理。”


创新工场的人工智能集团做小额贷款已有18个月,光上个月就贷出120万,用的是AI来决定贷不贷款给客户。通过APP,8秒钟,钱就打到用户的微信帐号里了。在手机上提交信息8秒钟之内钱就打过来,这已经不是什么AI取代人的问题,这是人做不到的,没有一个人8秒钟可以决定借钱给别人。就算可以在8秒内看穿一个人,精度也无法比拟AI。在安防领域,它识别脸的效率是人类的20倍。AI的发展不是简单的小小的进步取代一个人,而是数量级的差别。


640-11.jpeg


Sandholm教授讲的两种金融领域的应用,不但不矛盾,而且互补。它会取代人类所做的零售金融业,取代私人银行的基金经理、股票分析师。买股票时几家博弈然后选择所用到的策略型AI,会把从低端到高端的金融机构全部取代。


李开复提到,在美国有一家公司,做的就是对问题的预测。比如你可以问它,如果明天印尼地震了经济会是什么走势、糖和石油的价格会发生什么样的变化,或者可以问叙利亚局势与化学武器对这个国家和临国经济有什么影响。这些问题都可以由AI来解答。


将来,大数据的价值是预测未来,人类漫长历史,不可能靠傻傻地全背下来,比如新发生一个危机哪些与二战有关系、哪些地方与朝鲜战争有关系、哪些与亚洲经济危机有关系,经济学家脑子里的知识不可能比AI多。


李开复还举了一个例子,比如买房,卖家卖700万,但出价说800万,那么我是该从600万往上谈价还是一分都不加,还是用一些赠送精装修的策略——这个谈判的过程与冷扑大师原理是一样的。其他的商业洽谈,甚至外交的各种博弈其实也是一样。冷扑大师未来的可扩张性很乐观。


李开复再次强调,必须是单一领域,数据多元化是可以的,但单一领域就是预测宏观经济的走向。我们心目中仰慕的工作最后都会被取代,就像在医疗领域,将来AI判断癌症几乎可以打败所有医生。经济领域也是,无论是微观还是宏观,也许今天还有一些天才经济学家可以给出很多观点,但越来越多的经济学家、做图片判断的医生,终有一天会失业。


从冷扑大师看AI创业市场的竞争


640-12.jpeg


创新工场促成冷扑大师与中国龙之队表演赛的目的,也出于促进中美技术交流、开拓国内人工智能应用,以及普及人工智能的长远眼光。


Sandholm作为CMU的教授,认为大学里的人才要认识世界、在一个领域有突破,就要愿意落实到真实世界的问题上面。之前科研人员的成果,也是在真实世界的问题寻找突破点,企业不是因为大学里的人更聪明才来合作。


公司与学校合作,在美国是有一些法律限制的,企业不能给学校500万美金全权委托全部科研工作。法律限制让大学在攻守之间保持着自己真正的使命,产生了一些很好的合作方式,比如像CMU就分出了一些创业公司或一些合资公司。还有很多方式使产学结合,比如谷歌就在CMU有个研究院,还有一些公司直接在学校里或者在学校旁边办公,无人车研究院更是如此,CMU校园里已经有无人车在运行,可以说已经“活”在了未来世界里面。


在中国,有例如清华的实验室在人工智能上做的不错,可以达到世界水平,但整体还是与美国有很大差距。创新工场也在思考怎样做一个跨中美的机构,李开复希望扮演促进交流的角色,把外国最前沿的教授和技术带回中国来。这次Tuomas Sandholm到访是一个案例,但来几天是不够的,希望未来有10个到20个Tuomas Sandholm来,不只是三天而是一两个月,还有他们的学生,不是访问一两个月,而是一两年。


640-13.jpeg


有些中国的高校试着在拉人,但是只是挂几个美国大佬的名字做几个讲座是不够的,要深度思考怎么做贡献。走过微软笼罩的黑暗时代,李开复希望能用开源打开AI的井喷势头,靠极客的力量、程序员的力量,靠着有理想的人的力量,让开放战胜封闭。


基于开放的态度,创新工场关注AI创业公司与科技人才。帮助创业公司与成熟公司竞争,是创新工场努力的目标。李开复说,世界有七大黑洞,谷歌、脸书等等,把最有价值的数据吸进去,使其成为闭环的数据。“黑洞”把人才也吸进去,“比如市面上有7000个人才,会有5000个人进入他们那里,我们只有2000人的人才,这很糟糕。”


微软的垄断之下,曾经的主机系统产业很凄惨,别的公司做的产品最后都被微软杀死,因为它有平台价值,最后不得不去微软。李开复觉得世界需要超过七个黑洞的选择,创业者需要更多的帮助达成他们创业的梦想。创新工场想在开源数据和开源代码方面做一些贡献,并提供人才培训支持。


对于成功的AI创业,李开复认为要注重全才,学会结合不同领域。比如现在大热的深度学习,冷扑大师并没有用到,因为游戏的场合中使用博弈论比较合适。深度学习对处理大量数据,还有对图片、视频、语音等特别有效,每种算法都有优势和劣势。AI的领域未来绝对不止于深度学习,还有许多别的算法可以拿来补充和结合。一个好的AI工程师绝不能说掌握深度学习就打遍天下无敌手,好的AI工程全才,是掌握各种技术,并把它合理化结合。李开复说,“就像金庸小说里面只会一招的是不行的,创业做AI,要把各种招数结合起来。”


AI的哲学与人类的未来


人工智能的时代即将来临,这次表演赛的主办方创新工场也非常关注每一个普及人工智能的机会,关注孩子的教育、社会的发展、人类未来的种种趋势,甚至生命的意义这些哲学问题。


640-14.jpeg


在论坛上,最后谈到了AI的本质与哲学问题。


李开复说, “AI的本质,是一定程度帮人类把所有可以轻度思考重复性的劳作快速的取代,让人类寻找自己真正生存的价值。”


Sandholm教授认同这种看法,并认为除了解放我们的时间和重复劳动之外,AI也可以做到人做不到的事情,来让世界变得更好。比如,2005年,教授参与制作了一套器官移植的智能匹配系统,与全美国三分之二的换肾中心一起合作,用AI算法算出来优先级最高的移植手术。在组合性过多的情况下,人类可能无法算出最好的组合,要把决策交给AI。人工智能有各种优点:在公平性和透明度上,AI胜过了人类的感情和私欲;它还是一个新的部门,创造了新的工作,拯救着生命,因为有了这个系统,每年可以多救好几百人让世界变得更好。


李开复继续说到维持公平性的AI征税问题。AI将会给我们带来巨大的经济价值,对于吃不饱住不暖的人,每个国家都应该从特别能赚钱的AI公司征税,给全民一个基本工资。“让特别挣钱的公司纳税,这是大企业必须要做的。”


640-15.jpeg


人工智能对人类最直接的威胁,就是或许会让一半的人失业。人不只是为温饱而活着,而是觉得自己做的事有价值,在于对精神的追求和实现。当机器做的事情比我们做得好、人工智能让人类感到无法实现自我,人类就可能会丧智、自暴自弃,甚至导致社会不稳定。


AI不能做的,是艺术、服务业、慈善。人生而为人,心灵交流与爱意是机器没有的。怎样能通过对美和爱的追求做出机器做不出的东西,让人与人之间的关系更紧密,即使没有工作也让能够实现自我价值,是人类要思考的当务之急。而其他事情,比如控制AI成长速度,是没有办法做到的。人类对科技进步的追求是无法阻挡的。


李开复提到,谷歌成立了人工智能道德委员会,大家都开始意识到这个问题,尝试去做。对他来说,当务之急就是要面对这类问题,怎样去引导将被人工智能抢走饭碗的人,怎样教育我们的下一代。


“人一定要做两件事,一是重视人与人之间的交流,二是人与机器的结合”。说到人与机器的关系,李开复强调不能是“配合”,而是“结合”。人与机器,如果是1+1等于3,人类的价值就没有办法实现。按照现在人类的能力和AI发展的速度,是1+1=1.1的事件,而李开复的事业就是助力AI成为那0.1。


Sandholm教授认为,人机结合一定是个趋势,人将会通过硬件或AI强化自己。他不确定会不会是芯片放到大脑里面,都是有可能的。像冷扑大师这种战略性的AI,就可以帮助改进人类。比如很多人的谈判技巧很差,在生活中会吃亏,大家都有个AI谈判助理的话,就都在同一个水平上,可以公平、没有代沟地沟通。这是一个AI让世界更公平的例子。


640-16.jpeg


这又回到了AI是什么、可以给人类世界带来什么的提问——“三个可能的答案,一是让人类找到生命的意义,二是让世界变得更美好,三是消除世界的贫困”。听了Sandholm教授的发言,李开复这样回答道。


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机