云顶集团登录-4008com云顶集团
做最好的网站

李开复《人工智能》: 最Top的德扑大师也会被AI蒙

科技世界网     发布时间:2017-08-12    经过清明三天小长假的发酵,笔者的朋友圈几乎被雄安新区刷屏了,不光是沾边的股票都涨停,还带动了当地房价大涨。但是与此同时,清明假期IT业界也发生了一件大事,一样让人工智能股票也涨停了。 究其原因,原来阿里腾讯百度三家的大佬在深圳IT领袖峰会上再次“华山论剑”,激烈地讨论着人工智能。 而就在今天开始(4月6日-4月10日),由创新工场CEO李开复发起,冷扑大师VS中国龙之队,一场长达45小时的“德州扑克人机大战”将在海南生态软件园开战。 说起李开复老师,这人不得了。譬如,1988年他于母校卡内基梅隆大学开发了人机系统“奥赛罗”,然后打败了世界围棋冠军。所以,据李开复团队预测,人类选手战胜“冷扑大师”的几率不足10%,“冷扑大师”为何这么厉害,我们先对它进行简单地了解一下。 德扑AI“冷扑大师”是李开复母校研发的德扑人工智能系统,今年1月曾在美国匹兹堡人机扑克赛中大胜人类顶尖牌手,它将四位职业选手斩落马下,赢走了将近总数的筹码,可谓劲敌。 当然,人类这边实力也不容小觑!六位选手也大有来头:杜悦、许朝军(人人网前CEO 点点网CEO)、张淮(IT公司CTO 清华大学校友)、童舟、朱亚希和王天建(长江商学院、中扑网CEO),都是顶尖德扑玩家,且屡获冠军。 不过,聊到这里,笔者回想起去年Alpha大战李世石的场景,依然还是为今年这六位华人即将参与的人机大战捏一把汗。毕竟,李开复说整个人工智能的爆发点即将来临。言外之意很明显,他个人比较看好这一领域。 然而,作为大家熟知的马云先生则在深圳IT领袖峰会上表达了自己的观点: “去年在IT领袖峰会大家把Alpha说得天花乱坠,我个人觉得So TM What,下围棋的乐趣就在于对方下了一步臭棋,我们搞他一下,可现在连臭棋都不下了,还有什么意思呢?” 若单从这几句话中,或许有不少人不知道其背后的真正含义。笔者琢磨了下,认为马云先生所要阐述的意思即是机器不能太“机器”,如果它能做到人类做不到的事儿,那或许就有意思儿了。 同时,关于人工智能方面,马云先生也有着和大家不同的看法,原话这里不再赘述,大致是告诫人们或者目前已经在从事该项研究的公司不仅仅要为“人工智能”而“人工智能”,重要的是可以让具备人工智能的机器学会思考,人类未来该如何好好运用。 随后,马云先生的观点得到了百度李彦宏先生的认可和支持。毫无疑问,两位业界的先行者既如此一致,不难想象出无论是机器算法,还是跟机器算法有关系的人工智能,目前还处于不成熟的时间节点。 进一步来讲,即便中国已成全球AI的风暴中心之一,但由于数据环境封闭、人才紧张、硬件技术等短板,或成为拦在中国AI路上的三座“大山”。而中国未来AI要想驶入快速发展“通道”,势必得翻过这三座所谓的“大山”。

AI风暴再次来袭:扑克人机大战在海南开战

相对于大部分投资人,李开复对AI有种特殊的情结。

AI风暴再次来袭。6日开始,卡内基梅隆大学知名扑克机器人Libratus将化身“冷扑大师”,与中国“龙之队”在海南展开为期5天、长达45小时的扑克人机大战。主办方在5日的赛前发布会上宣布,获胜一方将获得200万元表演赛奖励。

在这一波的人工智能创业浪潮中,李开复扮演的角色,近乎于摇旗呐喊的行业代言人,希望吸引更多创业者投身其中。

“冷扑大师”是卡内基梅隆大学开发的无限德州扑克人工智能系统。今年1月,它击败了人类顶尖玩家。在这次比赛中,每当这些玩家发出一个动作,它就会被传送到卡内基梅隆大学的计算机服务器上。

在卡内基梅隆大学攻读计算机学博士期间,他的研究领域也与AI相关。任职微软时期,李开复在自然交互式软件及服务部门,研究语音、自然语言、搜索等前沿技术。

中国“龙之队”华人顶尖牌手由2016年世界扑克大赛金手链冠军得主杜悦领军。杜悦估计,虽然“冷扑大师”是目前扑克界最强的人工智能,但人类顶尖牌手仍有10%的胜率。

毕业20年多年后,他邀请母校卡耐基梅隆大学AI扑克Libratus发明者Tuomas Sandholm,携扑克AI“冷扑大师”与中国德扑高手展开较量。这场赛事在4月6日至4月10日期间举办。“冷扑大师”士气正盛,今年1月,它刚取得了匹兹堡一场人机扑克对战的胜利。

创新工场CEO暨人工智能工程院院长李开复之所以发起这场扑克人机对战,和他1988年在母校卡内基梅隆大学开发“奥赛罗”的经历息息相关,后者成为第一个击败黑白棋世界冠军的人机对弈系统。

另外,李开复和创新工场AI工程院副院长王咏刚合著的新书《人工智能》,已开始预售(预订链接在文末)。他们如何看待人工智能与人类棋牌大师的较量?

“德州扑克是创投圈人士爱玩的一项活动,AI更是创投圈近年来关注的重点,这次活动对AI的宣传和推动将起到重要作用。”赛事协办方春光里运营总监董冬则告诉科技日报记者。“我当然希望人类能赢,但‘冷扑大师’毕竟曾打败过美国顶尖的德扑选手。”董冬说。

36氪独家获取了书中关于围棋及德扑人机大战内容的节选:

人工智能专家一直将这些游戏作为开发和测试的工具,在此之前,计算机已经在国际象棋、西洋双陆棋中击败了人类,去年的AlphaGo更是名声大噪。“扑克则有些不同,因为你不知道你的对手拿的是什么牌。”作为德州扑克爱好者,董冬分析。

图片 1

谈到与围棋比赛、AlphaGo的不同,李开复表示,德州扑克更接近人性,因为信息是有隐藏的,牌手可以诚实或欺骗地表达。这些种种的推敲,更像是人与人之间的商业、外交博弈,“冷扑大师”的技术都与这些因素相关。

创新工场李开复和王咏刚合著新书《人工智能》,预售链接在文末

通过对手的动作表情判断对手牌的强弱,是德州扑克相当重要的一种游戏技巧,而“冷扑大师”作为一个冷冰冰的人工智能系统,如何应对人类棋手复杂的心理战呢?

棋牌人机大战:人工智能挑战人类智力

对此,李开复表示,对于“冷扑大师”来说,心理战其实是基于一个优化结果最大化的一个计算,它计算该怎样去做才能得到最多的积分牌。他说,扑克机器人的研发基于博弈论,并且结合了大量的数学和概率理论,扑克程序在赛前不曾研拟历史牌谱,直接在比赛同时动态优化胜率最高的数学模型,利用战略推理揭露玩家底牌的隐藏信息,从而建构出智能化的AI谈判策略套路。在技术研发的背后,其实电脑并不对人类玩家的心理战术进行任何模拟或分析,反倒以博弈论加上大量数学打败了顶尖牌手。

AlphaGo带给人类的启示

卡内基梅隆大学计算机学院院长安得烈·穆尔教授则认为,“冷扑大师”表面呈现的是扑克,背后实际是一个大型的谈判算法。扑克AI并没有用到神经网络和机器学习这两种技术,而是用了比较古典的线性规划。

2016年3月,新浪体育等媒体现场直播了李世石与AlphaGo的第五盘棋赛。绝大多数围棋界人士和人工智能界的科研人员都没想到,围棋程序会在如此短的时间内取得质的突破--计算机在两年内做到了可能需要20年才能做到的事,这样的速度真的让人震撼。

李开复认为,现今这套人工智能扑克程序背后的模型,将适用于需要用到战略推理和多方谈判的场景。从企业谈判、商务谈判、外交谈判、甚至到生活方面的房屋买卖谈判,10年内都将会部分或全面被人工智能所取代。

AlphaGo横空出世之前,围棋界的观点也大致相同。因为国际象棋与围棋的复杂度相差甚远,1997年IBM深蓝在国际象棋棋盘上战胜人类棋王的故事并不足以让围棋高手信服。而且,这么多年来,围棋AI程序的研发一直举步维艰。早期基于规则的围棋程序,比如中山大学陈志行教授1990年代研发的“手谈”,基本上只能和围棋初学者过招。

(科技日报北京4月5日电)

直到2006年后,随着蒙特卡洛搜索算法在围棋对弈软件中的应用,MoGo、Zen、CrazyStone等程序的棋力才得到了突飞猛进的提高,在国际对弈平台KGS上,2006到2012年间,主流围棋对弈软件的棋力从业余2级猛升到业余5段甚至业余6段,但也就此停滞不前。

AlphaGo出现前,围棋界专家对围棋对弈软件棋力的评估基本比较一致,大多认为最好的计算机程序已可以和业余高手过招,但和职业选手之间,还是有着本质的差别。

在今天的围棋界,业余高手和职业高手之间存在2子以上的明显差距,通常,这个差距是职业选手从童年开始,用10年以上的时间刻苦训练得来的,业余选手极难弥补。

图片 2

图片来自网络

另一方面,在计算机科学界,懂得蒙特卡洛搜索算法原理的人都知道,这种算法主要是利用抽样统计来提高搜索效率,单用此算法确实难有提高空间。这是AlphaGo出现前,围棋界和计算机科学界两方面都不敢奢望人机大战即将到来的根本原因。

深度学习改变了一切。使用深度学习并结合蒙特卡洛搜索的AlphaGo已注定被写入历史。AlphaGo问世的第一年内,其实进入大家视野的是三个版本:5:0击败樊麾的内测版本,4:1击败李世石的版本,以“Master(大师)”网名60:0快棋挑落中日韩高手的版本。

三个版本演进脉络明显,每次迭代都有重大升级。最后这个网名为“Master(大师)”的版本也基本是2017年AlphaGo挑战柯洁的一个“预览版”。

从围棋角度说,AlphaGo最震撼的是计算机在人类传统认为极其玄妙的、电脑无法掌握的“大局观”上突飞猛进,远远将人类选手甩在身后。电脑计算“大局观”的方式,和人类培养“大局观”的思路,有根本的差别。人类没可能在这方面赶上电脑。和樊麾对局的棋谱基本上还看不出AlphaGo的大局观有多强,和李世石对局就下出了聂卫平赞不绝口的五路肩冲,到了Master的60局,大局观体现在两个地方:

第一,从始至终对局势的把握,比如第60局古力用AlphaGo的思路对付AlphaGo,把中央撑得很满,但AlphaGo不紧不慢,总是恰到好处地保持胜势。第二,AlphaGo已经深刻影响人类对布局的思考,大飞守角之类的变化迅速被人类棋手模仿,这和当年深蓝问世后,国际象棋的布局革命是一样的。

基于AlphaGo的思路,其他围棋软件的水平也突飞猛进。仅2017年初就有日本研发的DeepZenGo和腾讯人工智能实验室开发的“绝艺”达到了人类九段或以上的水平。腾讯“绝艺”不仅面对人类高手保持了绝对优势,还战胜了AlphaGo以外的各路围棋软件,取得了2017年UEC杯计算机围棋大赛的冠军。

以后AI和AI之间的竞赛,应该会不断促进AI提高。人类虽望尘莫及,但可以不断从AI中学习新的思想。

从人工智能技术的角度说,AlphaGo用的是AI领域应用非常普遍的算法:深度学习、蒙特卡洛算法、增强学习等。可以说,机器视觉相关的深度学习技术,包含环境-决策-反馈的智能系统,里面都有AlphaGo的影子。当然,直接的代码实现层面,肯定没有复制、粘贴这样直接借用的关系,因为AlphaGo的深度学习模型毕竟是围绕围棋的特征建立的。

那么,当人机大战烟尘散尽,当公众的热情回归理性,AlphaGo究竟为我们人类带来了什么?AlphaGo带来的,仅仅是棋盘上的一张张棋谱,还是公众对人工智能的重新认知,或是人类与机器命运的关键转折点?

其实,AlphaGo带给人类的,更多是一种对未来的警示:如果计算机可以在两年内实现大多数人此前预测要花20年或更长时间才能完成的进步,那么,还有哪些突破会以远超常人预期的速度来临?这些突破会不会超出我们对人工智能的想象,颠覆人类预想中的未来?我们已为这些即将到来的技术突破做好准备了吗?

无论是专业人士还是普通公众,AlphaGo的出现给每个人提供了一个最好的理由,让我们有机会重新思考:到底什么是人工智能?人工智能之于人类的意义是什么?人工智能与未来人类的关系到底会怎样?人工智能真的会在未来挑战人类吗?

德州扑克:开启新世界的大门

围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就非常不同,讲究的是在多人博弈中,避免人性贪婪、恋栈等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢?

在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息。比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。

图片 3

图片来自网络

显然,对于实现人工智能算法而言,不完整信息的博弈游戏在技术难度上要大得多。卡内基梅隆大学的研究者就选择了德州扑克作为他们攻克此类问题的出发点。

来自卡内基梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。

Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方法。

Claudico从2015年4月到5月,在匹兹堡的河流赌场与人类选手同台竞技,在无限制投注的一对一比赛中,轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是重复牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。这次比赛,AI似乎还很稚嫩。比赛进行过半,人类就领先Claudico大约46万个筹码。最终,人类选手以大约73万个筹码的优势赢得了比赛。

Claudico在2015年初出茅庐的这次比赛以失利告终。这个剧情,有些像1996年IBM深蓝输给卡斯帕罗夫的那一次。与Claudico交过手的道格·波尔克说,Claudico 与人类的打牌方式非常不同,“人类选手的下注数量可能是彩池的一半或四分之三,而Claudico有时只吝啬地以彩池的十分之一来下注,有时则以彩池的十余倍来下注。人类可不会用19000美元的下注去博取区区700美元的彩池。”[1]

2015年的失利并没有让托马斯·桑德霍姆教授灰心。2017年1月,教授带着一个名为Libratus的新版本德州扑克程序卷土重来,再战匹兹堡的河流赌场。像上次一样,新版本程序的名字Libratus也是一个拉丁文单词,对应于程序使用的均衡(balanced)策略——这一策略源自数学家纳什定义的一种完美博弈的模型。

托马斯·桑德霍姆教授解释说,“在存在两名玩家的零和游戏中,如果有一人不遵从纳什均衡的策略,那么两名玩家获得的收益都将受损,但我们的系统不会这样。在此类游戏中,以纳什均衡的方式思考是最安全的。遵从规律的玩家将合理地获得受益,同时在任何地方都不会被对手利用。”[2]

这一次,比赛规则和2015年那次基本一致,比赛时间从13天延长到20天,仍基于无限制投注的规则,Libratus轮流与人类高手一对一比赛。人类团队计算总分,与Libratus的总得分比较胜负关系。不同的是,升级后的Libratus程序就像围棋棋盘上威风八面的AlphaGo一样,一上来就对四名人类高手形成了全面压制。AI从比赛第一天就一路领先,第6天领先优势虽一度缩小,但从第7天后,人类就再也没有机会弥补巨大的差距了。最终,Libratus领先的筹码数量达到惊人的176.6万美元!在德州扑克领域的人机大战中,人工智能完美胜出!

连续参加了2015年和2017年两次人机大战的人类德州扑克高手Dong Kim说,他在这次比赛全程充满挫败感——其实他已经是四位人类高手里面,对战成绩最好的那个了。两年前曾经击败计算机的Dong Kim在2017年的比赛刚刚过半时就直言:“人类已经没有真正获胜的机会。”[3]

那么,从Libratus大败人类高手的德州扑克对局中,我们能看到哪些人工智能的发展规律呢?

图片 4

冷扑大师V.S.中国龙之队人机扑克巅峰表演赛比赛中

Libratus所使用的技术策略非常成功。AI利用增强学习技术,从自我对局中学习最优的扑克玩法,而避免从人类的既定模式中学习经验,这是非常重要的一点。当然,目前Libratus的算法还只适用于无限制投注的一对一比赛。如果将比赛扩展到更常见的多人制比赛,Libratus面对的挑战会更大一些,还需要进行策略上的升级与调整。

计算机在德州扑克领域取得的成功,令人工智能研究者都非常振奋,这主要是因为以下两个原因:

和围棋不同,在德州扑克的牌桌上,人工智能与人类选手一样,都只能看到部分信息。这种情况下,没有所谓的唯一的、最佳的打法。 Libratus基本是从零开始学习德州扑克策略,且主要依靠自我对局来学习。这对利用人工智能解决更为广泛的现实问题意义重大。

那些担心人工智能威胁的悲观主义者可能会从Libratus的胜利中看到更为现实的风险。比如,机器曾在比赛中用大赌注和新策略吓退、蒙骗过最精明的人类牌手,这些方法也许会被精明的商人用于人类的商业谈判。一旦这些人工智能算法被犯罪组织利用,是否会出现灾难性的后果?担心出现超人工智能的人还会进一步追问,一旦机器有了自我意识,机器是否会像德州扑克牌桌上的AI算法一样,用各种策略诱骗、恐吓人类呢?

乐观主义者则更多地看到Libratus的算法本身对于人工智能帮助人类解决实际问题的巨大价值。如果机器能够在自我学习中不断完善对于一种特定策略的掌握程度,能够在不熟悉或缺乏全部信息的环境中不断试错并积累经验,那么,机器显然可以胜任更多的人类工作。

比如,机器可以帮助人类制定更为复杂的医疗计划,可以在人类感到难以决策的领域,比如商业活动、城市规划、经济调控甚至战争指挥等,充当人类的“参谋”。也许,未来每个人都可以依靠强大的计算机和人工智能程序,成为运筹帷幄、决胜千里的战略家。

本文由云顶集团发布于生命科学,转载请注明出处:李开复《人工智能》: 最Top的德扑大师也会被AI蒙