实录 | 看看这些CV学霸的经验谈（代号cv）

2019年3月24日（周日）下午，由中国科学院大学主办，读芯术作为指定合作媒体的“AI未来说·青年学术论坛第三期-计算机视觉专场”顺利举行。与前两次相比，本期论坛新增博士生panel环节，该环节由中国科学院大学学生会承办、SFFAI和中国科学院大学IEEE学生分会共同策划。（本期论坛还得到了北京邮电大学研究生会，中国科学院计算技术研究所研究生会，中国科学院网络信息计算中心研究生会，国科大计控学院学生会，网安学院学生会，人工智能学院学生会的支持与付出，在此表示衷心的感谢）。

博士生panel的环节（从左到右，依次为何相腾博士、楼燚航博士、李弘扬博士、李琦博士、朱政博士、张士

博士生panel 环节由北京大学何相腾博士主持，参与讨论的嘉宾有中国科学院自动化研究所的张士峰博士、朱政博士、李琦助理研究员，北京大学楼燚航博士和香港中文大学李弘扬博士。该环节主要围绕专业相关话题（如：物体检测、物体跟踪、GAN）以及非专业相关话题（如：如何高效地做研究、如何分配时间）等问题展开了讨论。

主持人和嘉宾介绍

何相腾主持人

北京大学计算机应用技术专业博士、百度奖学金得主。本科就读于南开大学，2014年保送北京大学直接攻读博士学位。研究兴趣包括细粒度图像分类、深度学习等。目前已接收或发表10篇论文，其中IEEETrans.和CCF A类论文9篇，包括IJCV、IEEE TIP、TCSVT、CVPR、ACM MM、IJCAI和AAAI。2018年获得百度奖学金、国家奖学金、北京大学博士研究生校长奖学金和北京大学信息学院“学术十杰”。

李弘扬嘉宾

香港中文大学多媒体实验室(MMLab)博士生，微软亚洲研究院实习生。香港政府博士奖学金获得者，香港英才发展奖学金获得者。博士期间导师为王晓刚教授。主攻计算机视觉和深度学习方向，尤其对物体检测、人体姿态估计、CNN网络结构设计、少样本学习(few-shotlearning)、胶囊网络(capsule networks)等热点问题做了一些初步探索。在机器学习和计算机视觉六大顶级会议和两大顶级期刊中，共发表文章9篇，其中一作6篇(包含1篇口头报告)。多次担任顶级会议审稿人、AI教育公司兼职顾问。

张士峰嘉宾

中科院自动化所计算机视觉博士，百度奖学金得主。导师李子青研究员，研究方向为基于深度学习的物体检测，主要包括通用物体检测、人脸检测、行人检测。目前已发表论文14篇，其中第一作者论文11篇，包括3篇CVPR、IJCV、ICCV、ECCV、IJCAI、AAAI等。在投论文7篇，在审专利4项，获CCF-CV学术新锐奖、百度奖学金、国家奖学金、唐立新奖学金、必和必拓奖学金、攀登一等奖学金、三好学生、国际人脸检测竞赛季军、最佳学生论文等荣誉。

朱政嘉宾

中国科学院自动化研究所博士生，导师为邹伟研究员。主要从事视觉目标跟踪方面的研究及其在机器人中的应用，博士期间在CVPR,ECCV, ICPR, ACCV, ICCVW, IJRA等会议和期刊上发表论文多篇，获得ECCV2018国际视觉目标跟踪大赛冠亚军各一项。

李琦嘉宾

中科院自动化所博士，助理研究员，图形图像学会会员，图象图形学会视觉与大数据专委会委员，中国人工智能学会模式识别专委会委员。2011年-2016年在中科院自动化所模式识别国家重点实验室获得博士学位，师从谭铁牛研究员。一直从事计算机视觉、人脸预处理和识别方面的工作。参与的人脸识别系统成功应用于国有商业银行和地方铁路系统等。在国际主流期刊和会议（如TIP,TIFS,RR，CVPR，NIPS等)发表过多篇文章，申请多项专利，IJCAI2019 Program Committee Member，ICML2019, AAAI2019等审稿人，现任《IEEE Transactions on PatternRecognition and Machine Intelligence》,《International Journal of Automation andComputing》,《Pattern Recognition》等审稿人。

楼燚航嘉宾

北京大学数字媒体所在读博士，导师段凌宇教授。研究方向为大规模图像与视频检索，以及大规模分布式背景下的图像视频特征压缩与标准化。ISO/IECJTC1 /SC29/ WG11 国际标准化委员会中国代表团专家库成员，参与ISO/MPEG国际标准化组织制定“面向视频分析的紧凑描述子”国际标准，3项核心技术提案被标准采纳。目前在计算机视觉著名会议与期刊（CVPR，TIP，MM）和数据压缩与通信领域著名会议与期刊（DCC，JSAC）等发表十余篇学术论文。

博士生panel环节的问答内容

关于cv领域热点问题的探讨

何相腾（panel环节主持人）：物体检测和跟踪是计算机视觉（Computer Vision，CV）中的两大方向，也是比较相关的，跟踪一般也会用到物体检测的方法，那么二者之间有怎样的联系与区别呢？

朱政（嘉宾）：我的主要研究方向是目标跟踪，几个细分的方向有单目标跟踪、多目标跟踪、人体姿态跟踪、跨摄像头的跟踪，跟踪通常是不会预定义好类别，就是测试集要跟踪耳朵还是眼睛，没有严格的定义，而物体检测通常会有预先定义好的类别，而且不像检测的领域，跟踪领域没有严格的测试，需要自己的数据训练集。从学术上讲跟踪与检测的区别是定义的问题。

张士峰（嘉宾）：做跟踪首先要有检测提供的初始的检测框，这两者之间有一个一前一后的关系。在做视频检测的时候，跟踪和检测基本上变成了一个任务，所以在进行视频物体检测的时候就可以把很多Tracking的东西全部拿来用了。通常来说，物体检测的结果可以给跟踪来用，但是跟踪对后续的检测没有任何帮助，但今年微软亚洲研究院的戴季峰老师组有一篇二者之间互相帮助的文章（可以在戴季峰老师的主页上搜到），能够让跟踪的信息帮助下一阶段的检测信息，使得二者可以互相帮助。跟踪中有一个Tracklet，下一步做检测可以利用这个信息，应该会互相帮助、互相提升。

李弘扬（嘉宾）：在Tracking时应该是有一个初始的框，通过周围的一些扰动产生一百个框，根据分数排序一下选出下一步的位置。一般来说就是Detection检测一下，然后帮助Tracking，之所以倒回到Detection大家做得比较少，因为Tracking本身就是检测的Output，假设跟得比较对，可以检测得到下一步的东西在哪里。如果能够单纯地做检测为什么还要借助Tracking的东西？当然从Tracking到Detection可能会提供一些比较有用的先验，大致知道目标在哪个位置，可以在下一帧做检测时，把anchor在预测的目标位置多铺一些，而在其它背景的部分少铺一点。

何相腾（panel环节主持人）：ResNet、Faster R-CNN和Hinton提出的CapsuleNetworks都比较火，这些工作都很有原创性，如何把这些模型更好地应用到自己的工作中？

楼燚航（嘉宾）：基础网络的探索通常作为一个backbone支撑着更多的任务.对特定任务而言，基础网络的设计对用于特定任务的网络设计上也有很多可以借鉴的地方，大家还是要聚焦在自己特定的应用领域选取并改造合适的基础网络。如果你的工作本身就是提升基础网络性能，可能就要深入地挖掘网络的设计原理，但从应用型工作的角度出发，大家可以借鉴基础网络设计的思想，以更好地应用到具体的任务中，如Recognition、Segmentation和PoseEstimation的任务中。

李琦（嘉宾）：简单地谈一谈改进基础网络的问题，它其实是非常难的问题，我们把这些网络应用到自己的领域可能会更简单一些。我认为刚开始做计算机视觉目标不要定得太大，慢慢改进会更好一些。但是我们必须要熟悉这些基础网络，清楚这个网络的输入和输出，知道这个原始网络中间参数作用，以及结合自己的专业领域来选择和改进相关的基础网络，以达到较好的评价性能。

朱政（嘉宾）：在视频跟踪领域，从2013年到2018年，使用的都是AlexNet网络，ResNet和VGG网络一直没有办法得到应用。2015年以后开始使用SiameseNetwork，而且要求两个分支使用真正的全卷积，不能加padding，所以会越卷越小。由于越卷越小，没法使用skip来连接，所以skip前后不能进行拼接，所以不能使用Resnet的结构。这个问题直到CVPR2019才被商汤的研究人员部分解决。在检测的时候要把分类预训练的模型拿来当做Backbone比较平常，但在目标跟踪的领域，不是拿来就能够用的，需要针对这个问题进一步地探讨才能用。最近我们在用自动网络搜索解决视频跟踪，发现使用ResNet1%的参数就可以达到它95%的精度，精度和速度的平衡可以做得更好，所以大家可以多关注这种特定任务的网络搜索。

何相腾（panel环节主持人）：现在大家都知道GAN已经火了一段时间，大家觉得GAN为什么能够火，还能够火下去吗？GAN和自己的工作有没有什么相关性？

张士峰（嘉宾）：虽然我自己没有做过，但GAN能火的原因就是从无到有地生成数据，比如能从一堆噪音中生成人脸，这是GAN比较厉害的地方。现在GAN在检测当中的应用相对比较少，我个人认为GAN主要的作用就是生成，可以生成一些数据，但生成的数据比较局限，其中人脸生成是比较好了。我记得有一篇用GAN做人脸检测的文章就是引入GAN的特性，把小人脸用GAN生成得更清楚，从而检测这个小物体，这是我知道地GAN在检测领域中的应用。

楼燚航（嘉宾）：首先GAN很好地解决了特定的视觉任务，比如风格迁移，在这些任务中没有强监督的信息。GAN是基于弱监督的思想来做域的迁移，一个经典的工作就是CycleGAN，完成domain到domain的映射。另外，GAN中最重要的就是对抗思想，其也可以应用于缓解不同数据domain下特征的domain bias。对于数据不足和Domain不同的场景，GAN已经有了初步的探索，而且取得了不错的成果。对于部分识别的场景，缺乏有效的训练数据，GAN可以用来辅助生成基于Feature Space下面的HardExample，而Hard Example的样本也可以较好地促进模型的训练。这是我所了解到的GAN在视觉分析当中的进展。

李琦（嘉宾）：相对于以前的工作，GAN是一个新的点子，它的核心思想是两个或多个神经网络的对抗。另外GAN的稳定性分析也是需要一些理论基础的，所以吸引了很多人，GAN现在已经稳定了许多。虽然它是无监督学习的一个代表但无监督学习的效果不是特别好，现在很多GAN文章还是基于有监督思想在做。另外需要强调的一点是基于GAN生成的图像在工业界仍然没法大规模应用，可能人看着生成的图像非常逼真，但在细小的细节方面和真实数据的仍然有差距，但这不妨碍AdversarialLearning的思想可以应用在工业界。

学霸们的科研经验谈

何相腾（panel环节嘉宾）：我看过大家的简历，大家都发表了很多论文。大家如何安排科研的时间？如何高效地发表一篇论文？如何加速研究的进展？

楼燚航（嘉宾）：大家还是要聚焦一个领域，当然研究领域要根据自身条件和自己所在课题组的资源等因素来选择。大家需要去做相对持续的研究，定下一个方向以后，可以借鉴一些最新的思想去做更好的模型设计，但是工作之间的跨度不要太大。因为大家很多都是博士，工作如果跳得太开的话，研究方向就没有延续性和聚焦。所以，首先是挑一个真正感兴趣的方向（觉得做得确实有意思，个人的条件，导师的意愿，包括各方面资源可以支撑这个方向），然后就是持续地在这个方向一点一点地做。

李弘扬（嘉宾）：在读博的前两年最好不要把Topic弄得很杂，还是挑好一个Topic持之以恒地做下去。当然刚开始低年级的时候你也不知道哪个Topic是自己力所能及的，所以选择一个好的实验室也特别重要，可能大老板都比较忙，在你的身上没有办法花太多的精力，如果这个组里面有比较厉害的小老板、post-doctor或高年纪PHD带着的话，其实对初期的成长是非常重要的。当你选好一个topic之后，就要沉下心来去做，虽然topic可能会比较难，刚开始会投入很多精力，但是你也会慢慢熟悉这个领域，当然你也会在做实验时遇到瓶颈，不知道下一步应该怎么做，因为不可能所有的问题都问导师，所以你要关注周围同学的研究的方向，可以找与自己研究方向相近的同学讨论，当然包括一些实验上的细节也可以和实验室的同学讨论。周周的组会上要详细汇报自己的实验进展以及自己所遇到的问题，优秀的导师会指出下一步的实验方向以及问题在哪里。关于写paper的周期，当把topic选好之后，百分之五十靠你，百分之五十靠实验室其它资源，要快速熟悉该领域的文章和相关的代码，然后进行探索性的实验，这个过程可能会有半年左右，当把整个过程都做完之后，你就会知道哪些实验是比较重要的，写文章的时候哪些是重点。当然也要关注本领域会议的时间分布，选择好topic之后，就要有一个目标的会议，让会议的deadline帮自己提升效率。

李琦（嘉宾）：我觉得选择一个好的方向真的很重要。早期的时候稀疏学习是非常火的，每年发表的文章大概有三分之一都是关于Sparse、LowRank的，那个时候一篇深度学习的文章都没有，但是从2013年左右的时候深度学习的文章出现在视觉会议中，到2015年的时候大部分都是深度学习的文章，因为有的时候发文章的时候除了要有理论基础外，实验的性能也很重要。到2015年左右的时候GAN在视觉任务中火起来之后，也有很多追随者，近两年来也有一些非常火的topic，比如行人重识别、弱监督学习等，大家做这个方向的人也多一些，自然文章相对容易接受一些。所以我建议大家还是选择稍微好发文章一点的方向。当然在研究组里，不可能什么方向好发文章就选择什么方向，要在导师课题组的研究范围之内来选择。

朱政（嘉宾）：大家选定一个Topic以后，建议不要把自己所有的精力都放在这个Topic上面，对于NLP或是其他方向我可能不太懂，但CV方向的话各个任务之间都是相通的。多关注其他相关领域的发展，可能会让自己少走弯路。建议大家在做自己Topic的时候至少要花百分之二三十的精力来关注其它领域的进展，因为在自己领域比较新的方法在其它领域可能已经应用得很多了，当然其他领域的方法也可以应用到自己的领域中，当然你要把该方法进行适当的改进和包装，并且给出合理的解释。

张士峰（嘉宾）：确定方向是需要天时地利人和的，研究方向有些是实验室安排的，有些是自己选择的，当然实验室有安排就没有什么可选的，如果没有安排的尽量选择能发文章的。选择研究方向以后尽量不要换得太频繁，可以做一两年之后再换，千万不要做一个换一个。关于发文章的周期，第一篇文章可以多花一点时间，打下发文章的基础，基础打牢之后发文章可能就快一点了，做得比较好的可能两个月就能发一篇文章。大家要找到适合自己的方法，不管是找高年级的师兄带自己，还是找老师带自己，或者其他比较好的方法，尽量多发一些文章，尽量多做一些有用的工作，数量和质量都要尽量保证。

学员：我想问一下张士峰学长，我看过您的一篇行人检测的文章，现在行人检测和属性相互联系在一起，先做行人检测，再做属性标注，但是遮挡的情况下属性可能就不太好做，现在行人检测数据集有两种情况，一种是可见部分标注，一种是全身标注，两种标注孰优孰劣？

张士峰（嘉宾）：我之前做过一次行人检测，发现这个领域有一个比较大的问题，就是行人检测的标注和数据集都不是很全。最近一两年行人检测出了很多数据集，现在数据集一般都会有两到三种标注，就是人头标注、可见区域标注以及完整估计的行人标注，但我们做检测的时候不会考虑后续属性，大家一般都是做那种整个行人的检测，就算被遮挡也要检测出来。要是和后续任务联系起来应该是做可见区域检测和完整性检测，因为这两个框出了以后，就能够估计行人哪些部件会被遮挡，再做后续属性分类的时候就可以判断用哪些地方和不用哪些地方。