迁移学习：教AI提取抽象知识（终极老虎模拟器）

昂贵、罕见、难驾驭、有破坏性，人生哪有一帆风顺，人工智能的“一生”也会遇到很多难以进行“训练”的场景，也就是靠大量常规数据无法训练的场景。

就好像拍电影，要拍《少年派的奇幻漂流》，需要一只老虎做演员，怎么办？买好多只这种珍稀动物，让驯兽师教它演戏，到最后还任凭它因剧情需要而死去？

这肯定不行。于是李安让特技团队“造”出一只相似度99%的虚拟虎，昂贵、罕见、难驾驭、有破坏性的难题迎刃而解，而以此为代表作品的虚拟场景构建技术也成为迁移学习的一种方法。

日前，有媒体转载《日本经济新闻》报道，日本在人工智能“迁移学习”研究方面取得进步。日本东北大学将迁移学习应用在模仿语气的对话系统上，松下公司将其应用在了判定特定人群病情的软件上，被视作加速人工智能应用落地的研究进展。

AI的学习为什么要迁移，又如何迁移？它如何让AI更智慧？科技日报记者1月3日专访了北京语言大学教授荀恩东、智能一点公司CTO莫瑜等行业专家，听听他们的解读。

举一反三：用一般数据解决特殊问题

“有些模型的识别率已经超过了人的识别率。”荀恩东说，人们越来越擅长训练深度神经网络，但是高准确率是建立在现实情况与训练情况相吻合的基础上，即实战与演习相一致。

如果是预设之外，就很难达到预期的识别准确率。“机器有机器的预设之外。”荀恩东以声音识别为例告诉记者：比如太浓的口音、太大的背景噪音等，这些和人的“困难场景”一致，但是机器还会受到远场噪音的影响，“例如太空旷的地方，会有回音，影响识别”。

那是不是每遇到一个特殊场景，都要重新建模，输入大量的样本让机器重新学习一次呢？答案当然是否定的。

因为我们首先要考虑成本因素，这就是文章开头提到的“昂贵、有破坏性”特点。其次就是“难驾驭”的问题了——即使我们能不惜成本地反复建模、学习新样本，但有些特殊场景的样本很罕见，或者无法控制其能产生的成本，也就无法达到组成训练集的要求。比如《日本经济新闻》报道的，有些罕见病的诊断分析案例只有几十件，这种情况下，如何让人工智能拥有判断的能力？

“现实世界真混乱啊”，当AI从模型训练来到“尘世”，它可能会有这样的慨叹，大量的全新场景涌过来，“生搬硬套”根本使不上。

成功的模型目前仍然极度依赖数据，但能够获得大量可用数据的情况却因领域不同，而分布极度不均。资料显示，目前少数数据是公开的，还有不少数据是有专利的，或者购买起来很昂贵，剩下更多领域的数据是无法获得或者没有积累的。也就是说，AI的“训练题库”完全无法覆盖“考试题库”。

为了解决新的任务，“迁移学习”成为人们希望人工智能拥有的能力。“要能用一般的数据解决特殊的问题，用易获得的数据解决难收集数据的问题。”北京语言大学教授荀恩东说，它能拓展人工智能的实际应用范围。

“就是举一反三的能力，”莫瑜解释，比如，要让机器在识别猫之后很容易识别狗，就需要构建一个识别猫的模型，包含一些特征，例如尾巴、腿、胡须等，这些特征在识别狗的时候可以被机器利用上。

说起来很简单，但这意味着神经网络有能力存储并提取“概念性”的东西，也就是存储和提取抽象的知识，而“不局限于给数据、出结果这种端对端的输入输出”，荀恩东说。

眼花缭乱：不同领域需要不同策略

“数据层面、特征层面、模型层面的内容都可以进行迁移。”荀恩东说，迁移学习并不是某个固定的算法或者具体的技术，更多地是一种解决问题的策略。

迁移学习之前被称为自适应学习。它的初衷是节约人工标注样本的时间，让模型可以通过已有的标签数据向未标签数据迁移。“某个特定模型里的标签数据是机器能够识别的，机器根据标签来捕捉识别特点，如果成功将模型迁移至未标签数据，那么这些数据不用重新建模就可以使用。”荀恩东说。

迁移学习具体怎么做呢？

“迁移学习就是开发一系列如何迁移的算法。”莫瑜解释，怎么让在一个领域工作的算法在少量新数据的情况下可以应用到新的领域？例如，可能存在一种算法，不需要改造，在听懂普通话的AI开发出来之后，直接就能听懂广东话。“一般机器学习算法研究如何解决问题，而迁移学习要创造迁移算法，实现从一个领域的问题解决方案迁移到另一个相似领域。”据称，在过去20年中，科学家积累了上百种迁移学习的算法。

随着研究的深入，迁移学习的策略越来越多，也取得了不小的进展。第四范式首席科学家杨强曾在一次演讲中介绍，将机器学习的目标问题“打散”，即把问题的结构和内容分离开，会发现不同问题之间的共性。一篇发表在《科学》杂志上的文章显示，将手写字体识别上的结构和手写方式区分开之后，结构的学习采用单个数据就能训练。此外，层次化的系统更容易帮助构建机器学习的迁移；分阶段地从已训练领域到新领域的多步传导式迁移也被证明是适用的策略。

可见，“迁移大法”的原则是在实现由A领域向B领域的迁移时，尽量“平滑”地推动——两个域的表征要尽可能相似，或者通过一些操作增加两个域表征的相似性，甚至创建出“通用”的表征。例如ImageNet花费了多年，用数千个小时来创建，“基于ImageNet数据集的图像识别深度神经网络模型，经常被用来作为图像特征抽取，应用到其他图像任务。”莫瑜说。一篇名为《基于深度学习和迁移学习的识花实践》的文章进行了类似“百度经验”的分享，就是基于ImageNet数据集，示范如何将一个原来只能识别花的图像的深度卷积网络，迁移到识别花朵类型、具体品种的新任务上。通过“抽取图像特征”“准备训练集，验证集和测试集”“训练网络”等步骤，这一“迁移”得到了88%的识别正确率，计算时间只用大概半小时，比完成从零开始重新建模快很多。

历久弥新：或成机器学习商业新驱力

事实上，迁移学习和人工智能一样并不是新概念，在近几年又恢复了研究热度。2016年，前百度首席科学家吴恩达曾表示，迁移学习将会是继监督学习之后的下一个机器学习商业成功的驱动力。杨强也认为，机器学习的明天是在小数据、个性化、可靠性上，这取决于迁移学习的发展。

国际巨头也在着力于迁移学习的实践，AlphaGo的开发团队DeepMind在尝试对机器人进行迁移学习的训练。他们先从一只胳膊开始——在仿真环境中训练一个机械臂移动，训练好之后，把知识迁移到真实的机械臂上，真实的机械臂稍加训练可以做到和仿真一样的效果。

谷歌通过仿真系统训练无人车驾驶，然后迁移到实际驾驶中。传授硅谷企业课程的在线大学优达学城也开源了用来进行无人驾驶汽车工程纳米学位教学的模拟器，仿真更方便获取不同类别的数据，更方便多因素并行地训练学习。

“我们对话机器人也有类似问题，在一个客户上训练的对话系统，怎么应用到新的客户，而不用从零开始。”莫瑜说，迁移学习的应用范围是很广泛的。

“迁移学习大多是在解决实际问题，AI应用层面的内容多一些，”荀恩东说，“在实践中也有各种各样的做法，我国在AI的应用场景开发上，还是不落人后的。”（记者张佳星）

查看全文