文| AI财经社 王鸿宇
编|杨舒芳
10月19日,谷歌旗下的DeepMind团队公布了进化后的最强版“阿尔法狗” ,代号AlphaGo Zero。DeepMind联合创始人兼CEO 、阿尔法狗之父戴密斯·哈萨比斯称,“升级后的阿尔法狗更为强大,可以一争史上最强围棋手。”
阿尔法狗上一次出现在公众视野中,还是今年5月在浙江乌镇围棋峰会的现场。阿尔法狗直落三盘战胜世界排名第一的中国棋手柯洁,这位年仅20岁的天才少年曾被认为是狙击阿尔法狗的唯一可能。
“我输得没什么脾气。”在赛后新闻发布会上,柯洁说,“AlphaGo跟去年比完全是两个‘人’,第一次时很接近人,现在越来越像上帝了。”
就连戴密斯·哈萨比斯都没有想到阿法尔狗能达到这样的高度,“写出围棋的评估函数是一件不可能的事情”。因为更多时候,围棋与棋手的一些类似于“直觉”的东西有关,“围棋游戏更像是艺术,而非科学”。
不少网友嘲笑柯洁,因为他曾经此前说过“阿尔法狗能赢下李世石,但是未必能赢我”,“和阿尔法狗下棋,我的胜率在六成”类似的话语。但在与阿尔法狗战败后,柯洁豪取22连胜,大家才意识到不是柯洁说大话,而是阿尔法狗太强了。
第一次升级后,就未尝败绩
正如柯洁所言,阿尔法狗的确换了一个“人”——系统升级后,AlphaGoLee变成了AlphaGoMaster。
在野狐围棋网横扫中日韩多位人类围棋高手后,它取得了60胜0负1平的恐怖战绩。其中的1平,还是因为在与陈耀烨的快棋赛中,陈耀烨意外掉线,系统自动判和。
2016年3月,AlphaGoLee以4:1的比分了战胜韩国名将李世石九段,引发了围棋圈的震惊。此前,阿尔法狗的成名战是5:0战胜欧洲冠军、法国国家队主教练樊麾,但当时,樊麾和外界都认为阿尔法狗并没有那么强,至少他是有机会拿下一盘的。
“围棋有很多不确定的因素,机器的局限性是很多的,在下棋过程中也会出现漏洞,因此之前观看阿尔法狗跟樊麾的比赛,让我以为计算机达不到围棋选手的最高水平。结果大家都知道,我输了。”惨败让李世石改变了他对阿尔法狗的看法。
《南方周末》的报道中提到:阿尔法狗对阵樊麾时,“吃过”的棋谱是3000万个,但到了挑战世界棋坛16冠王李世石的时候,嚼进肚子里的棋谱已经达到1亿。
“吃棋谱”正是AlphaGo的主要训练模式之一,开发者能做的就是尽可能多地把棋谱塞给程序。
此外,Deep Mind团队在AlphaGo程序中加入了“策略网络”和“值网络”的技术。所谓策略网络,是指程序在吃下过亿棋谱后,能够分析出下一步棋在不同下法时得出的不同胜率。值网络则是对盘面优势的判断机制,以便及时止损和改变下法。
学习3天打之前版本,比分高达100比0
在输给阿尔法狗后,柯洁豪取22场连胜,拿下全运会围棋比赛冠军。但再次升级的阿法尔狗,已经不需要柯洁的棋谱了。
根据《自然》杂志的最新介绍,Alpha Zero的设计理念和系统配置和Lee/Master完全不同。
此前,Lee/Master都是用上千盘人类业余和专业棋手的棋谱进行训练,而升级后的阿尔法狗不依托于人类的先验成果,不靠“吃棋谱”进步,完全靠自我对弈学习下棋。
AlphaGo Zero之所以能当自己的老师,是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜率。
仅仅经过3天的训练,这套系统已经可以击败AlphaGoLee,也就是去年击败韩国顶尖棋手李世石的那套系统,而且比分高达100比0。
40天训练后,AlphaGo Zero总计运行了大约2900万次自我对弈,使得AlphaGoZero得以击败AlphaGoMaster,比分为89比11。
在系统配置方面,AlphaGoZero也比前几代系统更加节能,AlphaGoLee需要使用几台机器和48个谷歌TPU机器学习加速芯片,AlphaGoZero只需要使用一台配有4个TPU的机器即可。
阿尔法狗赢了李世石后,哈萨比斯说,“阿尔法狗从来都不是我们的唯一,甚至不是我们最重要的研发,我们希望将此应用于更大的真实世界的问题。”升级过后融入了Deep Mind最新技术的新阿尔法狗,目标已经不再只是打败人类棋手,而是将目光转向了实际应用方面。
【想看更多,请移步“AI财经社(ID:aicjnews)”微信公众号】
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved