您当前的位置:主页 > 博彩公司网址大全 > 正文

地平线大牛讲堂有幸邀请到 UEC 曾经的打入决赛的队伍

2017-03-27 15:14  作者:admin 点击:次 

    为了彻底揭开人机大战的奥秘,地平线大牛讲堂有幸邀请到 UEC 曾经的打入决赛的队伍 —— Facebook 围棋 AI 程序 DarkForest 的首席工程师及第一作者田渊栋博士为我们一探究竟,本文由奕欣和亚萌整理,并由田老师做了审核和编辑,特此感谢。
 
    “无限注”就是你每次下注的时候不一定是之前的整数倍,可以是任意数。那么有限注德扑就是每次下注的时候,是成倍数地下,“有限 注”的问题已经在两三年以前就解决了,当时是发了一篇Science文章。那篇文章其实本应该会跟AlphaGO一样受到很大瞩目,但是不知道为什么,当 时并没有。
 
    CMU Poker bot没有用深度学习。他们用到了End-game solver,因为德扑一局时间比较短,可能就几个回合就结束了,所以你可以从下往上构建游戏树。这样的好处是,最下面节点游戏树的状态是比较容易算出来 的,用这个反过来指导设计上面的游戏树。另外他也用了蒙特卡罗方法,标准的CFR在每次迭代的时候,要把整个游戏树都搜一遍,这个对于稍微复杂一点的游戏 来说是不可接受的,因为是指数级的复杂度,所以用蒙特卡罗方法,每次选一些节点去更新它上面的策略。还有一点就是,一般来说我们在做游戏的时候往往会想到 怎么去利用对方的弱点,但其实不是这样的。更好的方法是,我尽量让别人发现我的弱点,然后据此我可以去改进它,变得越来越强。用术语来讲,就是去算一下对 手的最优应对(Best response),让对手来利用你的弱点,然后用这个反过来提高自己的水平。有两个很牛的扑克AI,这两个都是用的同样的框架,叫作Counterfactual Regret Minimization(CFR),简言之是把游戏中遇到的可观测状态(叫作信息集Information Set)都罗列出来,然后对于每个可观测状态,通过最小化最大悔恨值的办法,找到对应的策略。然后反复迭代。
 
    一个是CMU的Libratus,它打了20天的比赛,赢了4个最牛的扑克玩家。(AI科技评论网按:在2017年1月,Libratus玩了12万手一对一不限注的德州扑克。到比赛结束时,人工智能领先人类选手共约177万美元的筹码。)
 
    另外一个叫DeepStack(AI科技评论按:加拿大阿尔伯塔大学、捷克布拉格查理大学和捷克理工大学训练的AI系统与11位职业扑克手进行了3000场无限注德州扑克比赛,胜率高达10/11),他们在网上也打过一些大型职业比赛。