强化学习走出研究实验室,微软如何落地新型AI解决方案?

强化学习走出研究实验室,微软如何落地新型AI解决方案?

首页枪战射击尖峰战队更新时间:2024-04-29

强化学习此前主要用于研究实验室。但现在,这项技术正在进入更多微软的产品和服务中。从开发人员可以插入应用程序和网站的Azure认知服务,到工程师可以用来完善制造流程的自主系统,等等。
由于强化学习模型可以从即时反馈中学习,快速适应不断变化或不可预测的环境。目前已经可以应用于小型杂货铺的在线商品推荐、机器人抓手、游戏代理等场景,同时还将在工业、制造业和金融服务等领域大放异彩。

编译 | 机器之能

现在有无数公司使用在线推荐引擎向用户推荐匹配兴趣的产品和体验。当中有我们最熟知的机器学习模型,通常基于过去的经验数据预测人们可能会喜欢什么。可是,一旦数据被重新规划,机器并非能够快速猜出你的喜好。
微软的个性化推荐技术(Personalizer)是Azure AI平台内Azure 认知服务的一部分,它使用一种更先进的机器学习方法(称为强化学习),在这种方法中,AI可以实时地从其环境中进行交互和学习。
该技术此前主要用于研究实验室。但现在,这项技术正在进入更多微软的产品和服务中,从开发人员可以插入应用程序和网站的Azure认知服务,到工程师可以用来完善制造流程的自主系统。Azure机器学习还在为数据科学家和机器学习专业人士预览基于云的强化学习产品。
「过去两年来,我们在微软内部进行了大量概念验证项目,并与几个客户一起进行部署,已经取得了很大的进步。」微软研究院纽约实验室高级主管拉法·霍斯恩(Rafah Hosn)表示:「现在,我们的打包和压缩技术确实取得了长足进步,并指向了一系列特殊问题。」
百威英博(Anheuser-Busch InBev)的技术中心Z-Tech正在使用Personalizer在网上市场提供定制的推荐,以便更好地为墨西哥各地的小型杂货店提供服务。微软的其他客户和合作伙伴正在使用强化学习技术来检测生产异常,因为该模型能够从环境线索、专家反馈或客户行为中学习,所以依据此可以开发出能够适应不可预测的现实环境的机器人。
微软在其主页上使用Personalizer来根据上下文对每个访问者展示的产品进行个性化处理后,发现Personalizer所选择的产品的参与度增加了19倍。微软还在内部使用Personalizer在Windows、Edge浏览器和Xbox上选择合适的优惠、产品和内容。这些方案在每个月数十亿次的个性化定制中,给参与度带来了高达60%的提升。
团队还使用了强化学习为视频会议找到最佳的抖动缓冲,以牺牲毫秒级的信息延迟来提供更好的连接连续性。现在Azure还在探索基于强化学习的优化,以帮助确定何时重启或修复虚拟机。
由于强化学习模型可以从即时反馈中学习,因此它们可以快速适应不断变化或不可预测的环境。微软Personalizer首席项目经理Jeff Mendenhall表示,「疫情爆发后,人们的购买行为一夜之间发生了变化,很多公司不知道如何应对。」
「他们所有的历史模型和专业知识都被抛到了脑后,」Jeff Mendenhall说。「但通过强化学习,Personalizer可以在需要时每分钟更新模型,以学习和响应现在的实际用户行为。」
在强化学习中,AI代理通过试错来学习。它在真实或模拟的世界中测试不同的行为,当行为达到预期的结果时,它就会获得奖励。不管是顾客按下按钮预订度假,还是机器人成功地卸下一袋笨重的硬币。
Hosn说,通过强化学习来训练人工智能代理,类似于教小狗玩把戏。当它做出的决定产生了预期的结果,并学会重复那些能得到最多奖励的行为时,它就会得到奖励。但在复杂的现实世界场景中,探索庞大的潜在行动宇宙,并找到最佳的决策序列,可能要复杂得多。
在本周举行的第34届神经信息处理系统会议(NeurIPS 2020)上,微软研究人员提交了17篇研究论文,这些论文在解决该领域一些最大挑战方面取得了重大进展。微软表示,通过在其微软研究实验室网络上投资强化学习团队,该公司正在开发一系列解决不同问题的方法,并探索实现潜在突破的多种途径。
研究人员表示,微软团队专注于发展对强化学习的基本要素的牢固理解,并为客户创建实用的解决方案,而不仅是只有噱头的演示。
微软纽约研究实验室的研究经理John Langford表示,他们已经花了很多时间来找出强化学习最适合解决的情况,同时也在探索技术基础,以了解为什么某件事情会成功以及如何重复。
「现在,在一次性应用之间有很大的差距,在那里你可以让博士们非常努力地磨练,并找出一种方法来使它工作,而不是开发一个常规有用的系统,可以重复使用。」Langford说。
「我们在微软所有的强化学习研究实际上分为两大部分:我们如何解决客户给我们带来的挑战,以及我们可以利用什么基础来建立可复制、可靠的解决方案?」他说。

一 强化学习与其他的机器学习方法有何不同?

强化学习使用的方法与监督学习有着本质上的不同,监督学习是一种比较常见的机器学习技术,在这种技术中,模型学习从已提供的训练示例中进行预测。
举例来说,「如果一个人想学习法语,让自己接触法语文本、语法规则和词汇更接近于监督学习的方法。」微软研究英国剑桥实验室的软件工程师Raluca Georgescu表示。
「而通过强化学习的方法,他们将前往法国,并通过与人交谈来学习。如果他们说错了话,自己就会困惑,如果他们说对了,就会得到奖励。」
强化学习从与环境的互动中学习,无论是在现实世界中还是在模拟环境中,它都可以安全地探索不同的选择。它会根据已经建立的奖励系统,采取行动,看它会产生积极还是消极的结果。一旦收到该反馈,模型就会知道这个决定是好是坏,并相应地更新自己。
Langford说,这是一种非常简单的学习形式,在自然界很普遍。
「即使是蠕虫也可以进行强化学习,它们可以根据一些反馈学会走向或避开事物。」Langford说,「这种从环境中进行非常基本的学习能力对我们来说,是很自然的东西,但在机器学习中,它比监督学习更加棘手和细腻,需要更多的思考。」
本周在NeurIPS上发表的新论文在三个关键研究领域提供了重要贡献:批量强化学习、给定丰富观测值的策略探索和表征学习。研究人员表示,综合来看,这些突破旨在提升模型的效率,并扩大强化学习可以解决问题的范围。

二 走出研究实验室,微软如何落地产品?

Personalizer是第一个建立在强化学习基础上的Azure认知服务,微软研究人员和Azure产品专家密切合作,希望帮助开发人员在无需对机器学习有深入了解的情况下,在适当的时间轻松地向适当的用户提供适当的内容。
Metrics Advisor是一个新的Azure认知服务,现在已经可以在公开预览版中使用,它还使用强化学习来结合反馈,使模型更适应客户的数据集,这有助于检测传感器、生产流程或业务指标中更微妙的异常。
Personalizer会自动选择向正在看网站的人展示什么,或者聊天机器人接下来应该问什么问题,以推动实现所需的业务或体验结果。这可能是让一个人致力于更健康的饮食习惯,或者尝试新的游戏体验。代理通过试错学习哪些内容对不同类型的用户最有帮助或说服力。
例如,在尝试进行视频推荐时,某人更喜欢看的内容可能会受到一天中什么时间、是坐在家里还是四处走动,或者他们的设备还剩多少电池的影响。Personalizer从具有类似特征的客户所做的选择或行动中学习。
跨国饮料酿造公司百威英博(AB InBev)的技术中心Z-Tech今年秋天开始使用Personalizer软件,为墨西哥通过MiMercado在线市场下单的杂货店提供定制推荐。个性化产品的点击率提升了近100%,订单转化率也提高了67%。
「当我们在了解Azure平台的功能时,Personalizer出现了,这是一个非常领先、非常创新的东西,满足了我们的需求。」Z-Tech的全球首席技术官Luiz Gondim说,该公司旨在为中小企业带来数据驱动的解决方案。
在过去,MiMercado的特色产品对所有客户都是一样的。Z-Tech对利用人工智能为一家街角小店提供个性化的、更有用的推荐很感兴趣,这家小店出售的商品从啤酒、烘焙用品到薯片和宠物食品无所不有。
Personalizer有两个差异化的优势,Z-Tech的数据科学和分析全球总监Richard Sheng说。
「强化学习模型就其本质而言,需要的数据比较少,因为它们使用上下文来生成推荐,并通过用户反馈进行学习,」他说。「模型已经开发并包装到API中,这样我们就可以以即插即用的方式使用,非常有帮助。」
微软自主系统研究人员与来自全球金融服务和技术公司的Sber的科学家和工程师合作,后者经营着俄罗斯、中东欧最大的银行和全球领先的金融机构之一的SberBank,他们使用强化学习来开发机器人技术,从移动推车上卸下沉重的硬币收集袋,以便对它们进行计数和重新包装。

图:来自微软和Sber的研究人员利用强化学习开发了一种机器人技术,可以从移动推车上卸下笨重的硬币袋。

在最近发表的描述这些结果的论文中,研究人员详细介绍了如何使用不断变化的重心来操纵不稳定的硬币袋,这比抓握固体物体更难。SberBank负责研究和创新的副总裁Albert Efimov表示,这种情况在物理世界司空见惯,但依靠传统控制系统或神经网络的机器人却难以掌握。
「我们看到了一个真正推动科学发展的机会,使用强化学习来教机器执行一个非常困难的过程,」Efimov说。「袋子的形状不可预测且无定形,即使是人类也要思考一分钟如何处理它。机器人能做到这一点是一件大事。」
Sber和微软团队使用深度强化学习和机器教学技术,首先在模拟环境中训练人工智能代理,让它探索不同的策略,了解哪种策略最有效。一旦部署到真实的工作环境中,机器人系统在95%的情况下能够在第一次尝试中成功卸载硬币袋。

图:来自微软剑桥-英国实验室和Ninja Theory的研究人员正在探索强化学习如何帮助开发能够在视频游戏中与人类玩家合作的AI代理。注:图片不代表最终的游戏玩法或视觉效果。
在Project Paidia项目中,微软研究院英国剑桥实验室的研究人员正在与Xbox游戏工作室Ninja Theory合作。目标是推动最先进的强化学习研究,以实现在现代视频游戏中的新应用,并开发可以学习与人类玩家合作的AI代理。
微软研究公司剑桥英国实验室的首席研究员Katja Hofmann表示,使用强化学习的特工有可能更好地预测行为并对细微差别做出反应,从而能够与富有创造力,不可预测且具有不同游戏风格的人类玩家进行有效地协作。他领导着微软研究院剑桥-英国实验室的一个团队,专注于游戏和其他应用领域的深度强化学习。采用当前技术开发的机器人很难适应这些复杂的环境,而且它们的反应方式与人类不太一样。
像忍者理论开发的《尖峰战队》这样的电子游戏,需要具有不同个性和超能力的角色组队得分并击败对手,这为开发人工智能代理提供了一个有益的测试平台,代理可以使用强化学习来协调行动,并通过一系列奖励对新情况做出适当的反应。
「拥有一个可以与人类玩家真正合作的机器人,在当前传统游戏AI技术中被认为是不可能的,这为我们创造了一个非常好的空间。」Hofmann说。
此外,Project Paidia研究团队和整个微软的其他团队帮助Azure机器学习了解强化学习的重度用户在基础设施和计算能力方面的实际需求。
他们已经开发了一些工具,让人们用强化学习代理玩一个简单的游戏,看看它是如何反应的,还有Azure机器学习样例笔记本,以让人们可以创建一个可以在Minecraft(我的世界)中畅游熔岩迷宫的代理。
微软首席项目经理Keiji Kanazawa表示,在工业、制造业和金融服务领域,雇佣有强化学习专业知识的数据科学家的大公司正在使用强化学习产品,以有效地提升和管理云中的培训流程。
「对于那些正在进行大规模试错的客户来说,云的价值在于他们可以大规模地进行操作,」他说。「我们的工具可以让客户专注于他们要做的强化学习和他们的目标以及奖励的结构,所有的计算都在后端进行。」

参考链接:https://blogs.microsoft.com/ai/reinforcement-learning/

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved