代码英雄之数据爆炸：身陷数据洪流，企业应如何赋能而生（抖音代码英雄）

出品 | CSDN（ID：CSDNnews） | 红帽原创音频

这是代码英雄第四期，数据爆炸。前三期（第一期：代码英雄之操作系统之战 | 第二期：代码英雄之容器德比 | 第三期：代码英雄之云间战争）我们溯源了开源操作系统的崛起、容器技术的发展以及云端二十年的“战争史”，与万千开发者共历科技浪潮的波澜浮沉。作为开源系列的最后一期，在本文中，我们将聚焦数据大爆炸，探讨时代赋能的数据力量。伴随着5G商用、AI以及物联网的逐步落地，各行各业在拥抱数字化转型的过程中均感受到了时代给业务模式带来的冲击，也不可避免地面临着信息过载的沉重压力。

根据美国权威IDC以及EMC公司的调查，2017年全世界的数据总量是16ZB，而到了2020年，全世界的数据总量将达到44ZB，相当于现在的四万五千个亚马逊公司！IP流量将在未来五年内翻两番，深陷数据洪流之中的企业唯有第一时间将数据的价值发挥出来、并将其留存进行分析后，其背后的价值才能够真正显现。那么，我们究竟该如何处理这么庞大的数据量？又该如何有效利用这些收集到的数据？......在指数级增长的数据面前，未来的大型云数据中心还将面临更大的挑战。

数据大爆炸

如果把从人类出现到2003年创建的所有数据汇聚起来，那么可以获得大约500万GB的数据。但是仅昨天一天，全球创建的数据量就远不止于此：人们在一分钟内就会大约发送1600万条短信，当你读到这句话的时候谷歌就已经处理了20万次搜索......每一次的信息革命都可以表明，技术的演进正驱动着数据处理、存储、传输和创建发生巨大的变化。

4000年前，我们将数据刻入干燥的泥浆中并以粘土盘的形式储存，烘烤后印在其中的数据就无法更改。大约在1450年，印刷机的发明极大地提高了信息复制的速度，扩大了信息传递的范围。20世纪60年代后，随着电子计算机革命及其与通信技术的迅速结合，信息传递、储存的质量和速度才得以极大提高，基本实现了信息传递、储存、加工处理以及利用的一体化和自动化。今天，我们又迎来了新的智能互联网时代。

互联网经过几十年发展，传统互联网已经失去了发展的空间，在一定程度上走到了瓶颈，未来的机会将是全新的智能互联网时代。智能互联网是高速度移动网络、大数据分析和挖掘、智能感应能力形成的综合能力，在智能互联网世界里，云存储会帮助我们记录一切，对数据的整理、挖掘、分析都具有巨大的价值。而这种革命般的转变将全部由计算机完成，对现代生活方式起着决定性的作用。

从商业、科学研究到医疗保险，从银行政府到互联网，各个不同领域的信息都在爆炸式增长，这种增长甚至超过了我们创造机器的速度、超过了我们的想象空间。互联网公司更是要被这些数据给淹没了：谷歌公司每天要处理超过24PB的数据，这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍；Facebook每天更新的照片量超过1000万张，每天人们在网站上点赞“LIKE”按钮或评论次数大约有三十亿次；谷歌子公司YouTube每月接待多达8亿的访客，平均每一秒钟就有一段长度在一小时以上的视频上传......而这些数据还在持续增长。

大数据让我们登上了信息时代的新台阶，那么我们应该如何利用这些庞大的数据流量呢？建造好水坝和涡轮机，才能使洪水真正发挥其作用。

数据的真正价值

数据的价值含量、挖掘成本比数量更为重要。

目前，企业在数据的应用层面上仍然不够深入。收集、存储和处理数据的技术成本虽然下降了很多，但各行各业在数据潜在价值的挖掘上却依然显得滞后不前。事实上，企业们或多或少都有一定的数据基因，在处处皆数据的概念下，企业也愿意用新数据思维的力量，以开放的心态更好地发挥数据价值。

举个例子来看，微软的一些研究人员正在研究胰腺癌话题。胰腺癌发现得早可以及时地挽救生命，因此，在这些患者开始搜索有关胰腺癌的信息之前，研究人员会询问他们在前几个月或前几年都搜索了什么信息内容？通过搜索信息的整合分析，他们发现可以在搜索术语中挖掘出固定的信息内容，直到患者最终准确地预测到患有胰腺癌的那一刻。这个经验就表明，通过对数据内部潜在知识的串联，他们可以及时拯救生命，而他们需要做的就是验证这一发现。这样当人们搜索这些信息时，他们可以及时准确地进行干预，并尽早去诊断检查。研究人员还偶然发现了一种新形式的癌症筛查，这个过程可以提前一个月提醒患者存在患病的风险。

数据的利用不仅仅是最大化利润或效率的问题——其真正价值远不止于此。数据中隐藏的东西对人类有着巨大的积极影响。因此，我们必须将数据作为下一步关注的重点。

哈佛大学医学院附属波士顿儿童医院去年进行了26,000多次手术，孩子们在该医院进行了大约25万次放射检查。但是对于医院工作人员来说，他们却仍然面临着一个巨大的障碍：作为医生，究竟该如何获取数据？对于他们来说，身处一个只提供标准医院电脑的阅览室里，想要访问存储图像的PAX存档抑或是进行额外的数据分析都不简单。实际情况中，因为存储数据的费用极高，医院会因为负担不起而舍弃掉大部分数据。随着医院的数字化推进，他们想要创建并处理大量数据，但并不顺利。医生们根本没有办法轻易地从医院的数据库中取出图像，进行分析再回收——因为成本之高让人望而却步。

机器学习和人工智能时代后，我们需要更多的计算资源才能真正开始大型数据库分析。这些数据一直堆积如山，但处理起来却让人无从下手，内部数据处理更是遥不可及。精心打造昂贵的超级计算机显然不是医院的最佳选择，直接搬运代码也不是医生的必修课，因此需要找到一个更好的方法来获取、分析和回收数据。点击图像、详细分析、并让该过程全部发生在云端，这样医院就不必建立自己的服务器集群，也没必要将医务人员变成程序员。医生们的工作是把注意力集中在擅长的领域上，以解决非常复杂的医学疾病，充分利用计算方面出现的新技术能够很好地帮助他们将所有这些事实记录在脑海中。这样的一种形式，更能充分发挥数据价值，让数据能够挽救生命。

波士顿儿童医院与红帽和美国马萨诸塞州开放云（MOC）合作开发了一个开源的、基于容器的成像平台ChRIS。ChRIS的一切都在云上运行，因此，其不受医院本身计算能力的限制，还有一个Django Python后端数据库，可以用于跟踪用户、跟踪所处理的数据以及持续跟踪结果。此外，围绕这个数据库还有一大堆服务，它们都作为实例存在于容器中，可以与数据库等医院资源进行通信。这些服务处理从这些资源中提取数据的复杂性，然后将数据推送到云端。在诸如Kubernetes等计算数据的地方，也可以提供相应的数据分析服务，然后再把数据放回去。ChRIS成像平台就是一种让数据变活的方法，这种处理数据的方式可以让医生们变得更好。

优秀医师的形成肯定离不开反复的实践医学技术，但是，如果通过数据分析并能将信息组合起来，同样也是一大助力。例如，医生对某些患者某种受伤模式有了概念层面的了解，再创建患者的分布概率图，并根据实际数据通知每个人，或者可以寻找具有相似模式的类似患者，在他们尝试更精准的治疗方式时就可以说明什么方式对他们最好。整合大量数据并针对性地对待任何个人，这对在医院的孩子们来说，可以提供更有针对性的诊断和更个性化的护理。如果我们有更复杂的数据库，我们还可以更好地理解复杂的交互，并更好地指导个别患者。

新技术的引进，可能会帮助医学到达一个不是由药理学驱动、而是由计算机科学驱动的新拐点。任何拥有手机服务的人都可以访问可能挽救生命的基于网络的计算和数据，而且除了医学之外，许多其他领域也可能出现类似的拐点，只要能够弄清楚如何智用我们收集来的数据——要做到这一点，所有人都需要探索一个全新的计算领域。

未来数据的利用

新一代基于云的计算已经使大数据处理成为可能，在世界各地，我们正在学习如何有效利用和处理数据。对于像ChRIS这样的平台，一个关键因素是实现了基于云计算的一种新型存储。现实中的很多医院都会丢弃他们收集到的数据，因为他们确实无法控制所有数据。因此，拥有一套完善的存储解决方案对于企业来说至关重要。对于ChRIS，存储解决方案就是以一个名为Ceph的开源项目形式出现的。ChRIS的创造者Sage Weil就表示，Ceph是一个软件定义的存储系统，可以提供可靠的存储服务，在不可靠的硬件上也能够提供各种协议。它的设计初衷是可扩展的，因此可以拥有非常大的存储系统和非常大的数据集，我们可以使它们可用并容忍硬件故障和网络故障等，而不会影响可用性。

但是，当前的行业明显还没有解决可扩展存储的问题，而且随着数据量的持续增长，只会变得越来越难以管理。那么我们需要做些什么才可能解决这种日益增长的需求？

第一，针对产生的大量数据，我们需要可扩展的系统，这些系统不仅可以扩展正在存储的硬件和数据量，而且还要具有某种固定或接近固定的操作开销。第二，人们与存储交互的方式一直在发生变化，从文件存储、虚拟机的块存储到对象存储，这是行业中的一个关键趋势。下一阶段将不仅仅是提供一个对象存储端点或是把数据存储在一个集群中，而是真正采用这种高级别集群，地理上呈现分布式网格或私有数据中心，但在数据存储上依然能够管理分布其上的数据。第三，也许我们今天在某个位置写入数据，随着时间的推移会因为节省钱或者离数据更近等原因将其分层到其他地方，那出于降低成本的考虑，我们需要将其移至性能较低、容量更高的层。第四，数据的处理要合规，我们在收集数据时必须保持在某些政治边界内，遵守监管需求。最后，在某些行业会有像HIPAA这样限制数据移动方式的东西，因此，随着现代IT组织越来越多地分布在许多不同的数据中心和大量公有云以及私有云基础架构中，自动化管理将变得越来越重要。

数据的开源

那么在我们考虑如何管理和存储数据、以及将来如何处理数据的过程中，开源将如何发挥作用？出于对自由开放软件的强烈感受，很多开发者都希望创建一个开源解决方案。

我们可以发现，以典型的基础设施领域为例，解决方案正朝着开源的方向发展。基础设施领域存在高成本压力，对于构建软件即服务或云服务的人来说，开源显然是一种非常好的方式。此外，技术快速迭代的当下，新框架、新协议以及新的数据思考方式都在保持着快速的创新和改变，许多不同的产品和项目正在相互作用。基于传统模式的方式很难良好地做到融合，但是开源可以消除所有的这些摩擦。

追求永无止境。与此同时，我们要明白学习如何处理收集到的数据是整整一代人的开源任务。在本文的最后，我们将目光聚焦于美国田纳西州的橡树岭国家实验室。这是世界上最快的超级计算机Summit的故乡，每秒处理200,000万亿次计算。像这样的处理速度对于医院、银行或者今天受益于高性能计算的所有组织来说都有点“*鸡用牛刀”的意味。因为通常来看，像Summit这样的超级计算机更多会被用于强子对撞机领域。但话说回来，我们在几千年前的粘土片仅仅只能记录一百个字节的信息，对比实在太震撼了。