如何利用机器学习得到人口密度图

如何利用机器学习得到人口密度图

首页战争策略CODE SOG更新时间:2024-04-27

(关注AI新视野,私信‘资料’二字,免费获取50G人工智能视频教程!)

当灾难或疾病袭来时,救援机构在拥有详细的绘图工具以确切知道在何处提供援助时会更有效地作出反应。但是通常无法获得极其可靠和精确的地图。因此,我们的团队由Facebook波士顿办事处的人工智能研究人员和数据科学家组成,利用我们的计算机视觉专业知识创建和共享人口密度图,这些图比任何前辈都更准确,分辨率更高。

在我们之前发布的22个国家[1]的类似高分辨率人口地图的基础上[2],我们现在发布了非洲大陆大部分地区的新地图[3],该项目最终将映射全世界的人口。一旦完成,人道主义机构将能够确定人口如何在偏远地区分配,以便医护人员能够更好地到达家庭,救援人员可以更好地分配援助。以负责任的方式免费提供开放数据还使Facebook研究人员能够更好地了解他们工作的许多应用,并指导他们的研究朝着正确的方向发展。项目中没有或将要使用Facebook数据。使用的人口普查和卫星数据不包含任何个人身份信息。

利用机器学习技术,高分辨率卫星图像和人口数据的混合,我们绘制了分布在广阔区域的数亿个结构,然后用它来推断当地人口密度。本项目中使用的卫星地图是使用DigitalGlobe的商业卫星图像生成的 - 通过可公开访问的地图服务提供的相同类型的图像。这些地图的另一个主要数据来源是与哥伦比亚大学国际地球科学信息网络中心(CIESIN[4])共享的每个国家的国家人口普查数据,该网络与Facebook研究人员就该项目进行了合作。

自从我们两年前发布了第一套地图以来,它们改善了非营利组织的工作方式,研究人员的学习方式以及政策的制定方式。例如,在马拉维,红十字会和失踪地图计划与马拉维卫生部合作,利用Facebook地图为麻疹和风疹运动提供信息。通过显示97%的土地空间无人居住,红十字会能够向有需要的特定地区部署3,000名训练有素的当地志愿者。

随着今天发布的一套新的高分辨率地图,我们将在此分享有关我们如何处理该项目的详细信息。

适合深度学习的挑战

一个国家的人口普查显示有多少人生活在一个特定的人口普查区,但它并不表明人们居住在这些地区 - 有时候这些地区包含数百平方英里。仅非洲就有近12亿平方英里的12亿人口; 其最大的人口普查区是150,000平方英里,有55,000人。如果研究人员知道房屋或其他建筑物在这些区域中的位置,他们可以通过按比例分配每个人口来创建极其准确的密度图。这种粒度对于为疫苗接种活动等工作进行有效的资源分配至关重要。由于手工找到这些建筑物是不可行的,我们依靠深度学习来找到它们。

全球的高分辨率(每像素50厘米)卫星图像占用大约1.5 PB的存储空间。处理这些图像的一个早期挑战是数据集中的巨大不平衡:世界上大多数土地都不包含建筑物,因此我们经常处理100,000到1的负向正向类不平衡。我们使用经典计算机视觉技术的预处理步骤,以近乎完美的召回(以低精度为代价)丢弃大多数不包含建筑物的区域。这给我们留下了候选~30x30米(64x64像素)的卫星图像片。

然后,我们面临着对包含建筑物的补丁进行分类的挑战。阶级不平衡也加剧了这种情况。虽然通过预处理大大减少了,但空方与建筑物的比例仍为10比1甚至1,000比1。这产生了不平衡的二元分类问题,因此我们使用F1分数评估我们的结果,F1分数是精度和召回的调和平均值。为了避免我们的结果存在区域偏差,我们逐个区域计算结果。

我们与贴标人合作,为项目中的每个国家开发了一个广泛的测试集。测试装置的广度确保我们在不同地区保持高精度。我们还与世界银行等第三方团体合作,这些团体[5]已经进行了实地验证,以确保我们的结果能够正确反映实际情况。我们的方法是与CIESIN的地理和人口统计数据专家密切合作开发的,我们与人道主义开放街道地图等合作伙伴密切合作,以确保我们的工作重点放在正确的方向上。我们与这些合作伙伴的合作有助于确保我们采取跨学科的方法,避免单独尝试此类全球规模工作的许多陷阱*。*最后,我们确保审查我们在考虑国内政治背景的情况下公开发布的国家名单,并避免在一些政策和冲突相关的情况下发布国家数据。

初始迭代[6]我们的人口密度图是通过使用完全卷积神经网络进行语义分割,然后将得到的分割图转换为二元分类结果来构建的。随着过去几年机械学习研究社区的培训语料库和许多进步的增加,我们已经能够使用残留神经网络将问题简化为简单的二元分类任务。这种简化既是计算的,也是概念上的。现在,给定输入图像,单个神经网络预测给定图像是否包含建筑物。这种分类方法的计算成本也明显低于基于分段的方法,因为它允许我们使用较小的神经网络并产生具有较小内存占用的输出。它允许我们以更少的计算为更多地方构建数据集 - 这是扩展到真正全局数据集的关键组件。在非洲的情况下,该过程减少到115亿64x64像素图像的分类。虽然这是一个很大的数字,Facebook的基础设施 - 特别是FBLearner和Presto的地理空间操作[7] - 使这变得实用。在切换到这种分类方法并在大约100万张图像上训练ResNet18后,我们在73个区域中的66个区域中显着改善了我们使用这两种方法的结果,平均F1得分从.818增加到.907。您可以在下图中看到此过程正常工作,展示我们预测非洲的模型。

我们的管道首先留出不能包含建筑物的位置。然后,神经网络根据其包含建筑物的可能性对每个剩余位置进行排名。高级位置在此显示为蓝点。每个人都从人口普查数据中分配人口(此处显示为发光地图)。最后,我们将分布式人口覆盖到地图上的位置。(背景图片由DigitalGlobe提供。)

利用大规模开放数据

建立全球模型的另一个障碍是获取从整个世界抽样的培训数据。我们转向OpenStreetMap(OSM),这是一个由志愿者构建并通过开放内容许可证发布的世界免费可编辑地图。OSM具有大量标记功能,可供所有人使用,并且几乎包含世界上每个地区的数据。OSM的区域多样性使我们能够避免许多其他培训集中发现的发达世界偏见。(例如,仅在砖或混凝土建筑物上训练的系统可能会忽略其他类型的结构。)通过使用OSM中的数据,我们能够收集超过1亿个标记示例以添加到我们的训练数据集中。然而,将OSM数据用于标签提出了一些需要克服新方法的挑战。

以下是我们的低精度预处理步骤标记为可能包含建筑物的近500个补丁的示例。

弱监督的方法

这里的第一个挑战是可用数据的质量和正确性,以及OSM数据的时间和空间一致性。我们用微弱的监督方法来收集正面例子来解决这些问题。

弱监督学习导致近期工作中建模准确性的显着提高。例如,Facebook的一个团队利用来自公开的Instagram主题标签的弱监督标签,[8]在ImageNet上超越了最先进的结果。从这项工作中学习的一个关键是,对较大但噪声较大的数据集进行培训可以大大改善结果。

根据这些见解,我们使用OSM中的标签来弱化标记我们图像中建筑物的正例。如果给定的图像补丁与OSM中的建筑物重叠,我们将该补丁标记为包含建筑物。由于空间和时间对齐的问题(例如不准确的映射或过时的卫星图像),这并不总是正确的。然后,我们通过丢弃所有标记为在我们的初始预处理步骤中明显不包含建筑物的标记示例来清理这些标签。在这次清理之后,在1000个正面标记的示例的样本上,我们发现996个补丁确实包含了一个建筑物,为我们提供了一个强大的99.6%的标记准确度。

以下是我们的弱监督标签方法确定为包含建筑物的图像。

半监督方法

另一个挑战是OSM标记的功能具有高精度但极低的召回率。虽然OSM中的大多数标签都是准确的,但缺少标签可能意味着没有建筑物或该区域尚未映射。这使得收集负面例子的规模有点复杂。我们使用半监督技术,结合自举(或自我训练)和数据蒸馏的元素。

我们首先在我们的预处理步骤之后的所有图像片上运行我们现有的模型,以找出给定图像被错误地标记为不包含结构的概率,根据我们的模型的输出,我们对标记验证的模型的评估图像,以及分数上的特定阈值。然后,我们使用均匀采样和手动标记的数据来查找包含建筑物的随机图像补丁的概率。使用这两个概率并相应地设置我们模型的输出阈值,我们可以使用旧模型的输出将大量图像块标记为否定或不包含建筑物,同时将我们预期的标签错误率限制在1以下百分。

此图像显示我们的系统标记为不包含建筑物的瓷砖。可以看到一些错误,但整体方法证明是准确的。

现实世界的结果

为了获得我们的生产模型,我们在这个新数据集上训练了ResNet50,并在我们的原始数据集上进行了微调。新模型在79个地区中的75个地区优于旧模型,并进一步将平均F1从基准线从.818改善到.920,与之前的相比,相对准确度提高了12%以上。比绝对准确度增加更令人兴奋的是将这些模型应用于更大范围的地理区域的能力。这样可以在世界更多地区进行更有效的人道主义工作。

这个计算机视觉问题的结果与用于创建CIESIN的世界网格化人口的相同人口普查结果相结合。最终结果是一组世界上最准确,分辨率最高的人口密度图。我们的内部团队和第三方合作伙伴对地面和高分辨率卫星图像进行了严格的评估,证实了我们2016年首次发布的前所未有的准确性,并且我们已经对我们已有的状态[9]做出了重大改进[10]过去两年的艺术成果[11]。我们最新产品的前所未有的分辨率,规模和准确性应继续为世界各地的人道主义救济和发展工作提供帮助。

该数据集可在此处[12]下载。我们计划在未来几个月内发布更多国家的高分辨率人口地图,我们期待合作伙伴在更多地方使用它们来帮助有需要的人。有关我们的合作伙伴如何在其工作中使用我们的地图的信息,请阅读此配套博客文章[13]

参考资料[1]

22个国家: https://code.fb.com/core-data/connecting-the-world-with-better-maps/

[2]

高分辨率人口地图的基础上: https://l.Facebook.com/l.php?u=https://code.fb.com/core-data/connecting-the-world-with-better-maps/&h=AT0bluO5X0sEjtpsASnKJ15RPZ0FsOg4No_s2furz4zVZFLK9lhAhIH89Z5OKiV9UUd1KwmeEVA6GNIOOY_zoDXyLw4WTe9617QcElBMGEsygyUZ5ZIgSluEkQM59eBxCdJEJ9XEFxdBDAt82uotuw

[3]

现在发布了非洲大陆大部分地区的新地图: https://data.humdata.org/organization/Facebook

[4]

CIESIN: https://l.Facebook.com/l.php?u=http://www.ciesin.org/&h=AT2tPgIYybJ94pdGiPxBRgyUp694m5hKt5LlLrJ31AIsonwJHSlHAkC0wYbenSDi5h8qZjLzXvLOUOR_d3KAhHDaS4C3LbHYKezRf6PSYEiNApGr4kRWMyDsYb9qQf_c8it2AZXf2l1JXIegW9AGmw

[5]

与世界银行等第三方团体合作,这些团体: https://l.Facebook.com/l.php?u=https://blogs.worldbank.org/opendata/first-look-Facebook-s-high-resolution-population-maps&h=AT20UqeqWVsMPCHNQbFKwzUUvu4l_ChkQiBnRqYYhcIHcgf5mNjgbUJGAYsD6TQFcbRSg6Bf1ft70f0lnSKdt-GAhaUOH2qG2DFCGo3m29l9FwNatrfXRRTGPt8RgCwxkOCiWicm16exVAuEiEWCbw

[6]

初始迭代: https://l.Facebook.com/l.php?u=https://research.fb.com/publications/mapping-the-world-population-one-building-at-a-time/&h=AT2zxYzYIZdvKLDqeFY40JrGGqeAr29kpHGBN46pjS1PQQD4ev4lMjdGcnGKiUazWzhKWvsIFfygTgsuY3qA2Cy7MtSnKEPew5wNAoO9DTzw9eu58yvdUOTofpXKxkQgufYq0GxHjBQEbaaG1CqUQQ

[7]

Presto的地理空间操作: https://l.Facebook.com/l.php?u=https://prestodb.github.io/docs/current/functions/geospatial.html&h=AT3FwhJDZByO57MIPvad1aZgEEKH0pPcoaYSQizJwTbierAfkHp8TbbwW0w35YDBU8ywZlYafcXpxV6B8ambEGB6obsJ50fb4LBIsA1f8ZHVr2slKPjOnVLvNYRSF36Ffu7GYOFJdCxRWYpJU2xVkg

[8]

利用来自公开的Instagram主题标签的弱监督标签,: https://l.Facebook.com/l.php?u=https://code.fb.com/ml-applications/advancing-state-of-the-art-image-recognition-with-deep-learning-on-hashtags/&h=AT3Eph4BCwtnVZhJsi9Xp2NqViX6YCWX2drNP19GJygkLZYIVFXf32cdxKwaAGF_k0CVTdZijoeSJH98oTkPaw41Ke8oKtgGzK1B1zvOZlZmmC8YDjD0MiyDIyYfTBbhsKTCLwWAeP446uVU6pP8Pw

[9]

我们已有的状态: https://l.Facebook.com/l.php?u=https://blogs.worldbank.org/opendata/first-look-Facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA

[10]

。: https://l.Facebook.com/l.php?u=https://blogs.worldbank.org/opendata/first-look-Facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA

[11]

的艺术成果: https://l.Facebook.com/l.php?u=https://blogs.worldbank.org/opendata/first-look-Facebook-s-high-resolution-population-maps&h=AT17wpDNfCT6qt9_d28FmJTw6E5zIR5doqajc_z-Br6JvH3znNwD_zq5m6vQ3hlD0sseIfVfyA5uok_WgNGQcXpgIWYhEL6PFxecDQvHxhWGCCje6xoCnIDbCuzcKLPdAp6bo_7npurxwftXcz0pbA

[12]

此处: https://l.Facebook.com/l.php?u=https://data.humdata.org/organization/Facebook&h=AT2fQT9hv1Qh_WcXUFK7aZj1F3231o7rIEXaSoUVQuacmjNlNkhx3E_Cn1ACc8JQAqLRxjIfW_jt26blzklMXmCunVmT32HjwK7Gr8KD4VLrsfMB5Yn381TIziR_SFj_LQ5b0KLEsmKtnPHcvAbEBA

[13]

配套博客文章: https://l.Facebook.com/l.php?u=https://tech.fb.com/ai-powered-maps-help-vaccination-campaigns&h=AT00nwJbvht22Keq0DW8qGrEI9VR3xQGqesRmgwG0_MuvFpBdSt67Vle6GmCjx_ZZAqfCnEfTUSOP1-3SQ5pkz89PQe_mT6gs7S52ieItPf3nQvJOW9zcJxHh7Upj_FGA3wyyoleek-OfOpyxONqMw

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved