啥都玫说之网络篇-6.2网络存储（镜孤城）

您阅读本文如果觉得符合大人您的口味，请关注一下本君，点个关注和评论，说一下您的观点。创作不易，还请多多支持！
6.2 存储

存储，其实就是数据存储，数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名，这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据，表现出动态数据的特征；数据存储反映系统中静止的数据，表现出静态数据的特征。

磁盘和磁带都是常用的存储介质。数据存储组织方式因存储介质而异。在磁带上数据仅按顺序文件方式存取；在磁盘上则可按使用要求采用顺序存取或直接存取方式。数据存储方式与数据文件组织密切相关，其关键在于建立记录的逻辑与物理顺序间对应关系，确定存储地址，以提高数据存取速度。

目前常见的存储方式主要分三类：DAS、NAS、SAN。还是得分开一个一个说。

DAS(Direct Attached Storage)直接附加存储方式与我们普通的PC存储架构一样，外部存储设备都是直接挂接在服务器内部总线上，数据存储设备是整个服务器结构的一部分。DAS存储方式主要适用以下环境：

小型网络：因为网络规模较小，数据存储量小，且也不是很复杂，采用这种存储方式对服务器的影响不会很大。并且这种存储方式也十分经济，适合拥有小型网络的企业用户。
地理位置分散的网络：虽然企业总体网络规模较大，但在地理分布上很分散，通过SAN或NAS在它们之间进行互联非常困难，此时各分支机构的服务器也可采用DAS存储方式，这样可以降低成本。
特殊应用服务器：在一些特殊应用服务器上，如微软的集群服务器或某些数据库使用的原始分区，均要求存储设备直接连接到应用服务器。
提高DAS存储性能：在服务器与存储的各种连接方式中，DAS曾被认为是一种低效率的结构，而且也不方便进行数据保护。直连存储无法共享，因此经常出现的情况是某台服务器的存储空间不足，而其他一些服务器却有大量的存储空间处于闲置状态却无法利用。如果存储不能共享，也就谈不上容量分配与使用需求之间的平衡。

DAS结构下的数据保护流程相对复杂，如果做网络备份，那么每台服务器都必须单独进行备份，而且所有的数据流都要通过网络传输。如果不做网络备份，那么就要为每台服务器都配一套备份软件和磁带设备，所以说备份流程的复杂度会大大增加。

NAS(Network Attached Storage)数据存储方式全面改进了以前低效的DAS存储方式。它采用独立于服务器，单独为网络数据存储而开发的一种文件服务器来连接所存储设备，自形成一个网络。这样数据存储就不再是服务器的附属，而是作为独立网络节点而存在于网络之中，可由所有的网络用户共享。

NAS的优点：

[x] 真正的即插即用：NAS是独立的存储节点存在于网络之中，与用户的操作系统平台无关，真正的即插即用。
[x] 存储部署简单：NAS不依赖通用的操作系统，而是采用一个面向用户设计的，专门用于数据存储的简化操作系统，内置了与网络连接所需要的协议，因此使整个系统的管理和设置较为简单。
[x] 存储设备位置非常灵活
[x] 管理容易且成本低：NAS数据存储方式是基于现有的企业Ethernet而设计的，按照TCP/IP协议进行通信，以文件的I/O方式进行数据传输。

NAS的缺点：

[x] 存储性能较低
[x] 可靠度不高

SAN(Storage Area Network)存储方式存储方式创造了存储的网络化。存储网络化顺应了计算机服务器体系结构网络化的趋势。SAN的支撑技术是光纤通道(FC Fiber Channel)技术。它是ANSI为网络和通道I/O接口建立的一个标准集成。FC技术支持HIPPI、IPI、SCSI、IP、ATM等多种高,级协议，其最大特性是将网络和设备的通信协议与传输物理介质隔离开，这样多种协议可在同一个物理连接上同时传送。

SAN的硬件基础设施是光纤通道，用光纤通道构建的SAN由以下三个部分组成：

[x] 存储和备份设备：包括磁带、磁盘和光盘库等。
[x] 光纤通道网络连接部件：包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器
[x] 应用和管理软件：包括备份软件、存储资源管理软件和存储设备管理软件。

SAN的优势：

[x] 网络部署容易；
[x] 高速存储性能。因为SAN采用了光纤通道技术，所以它具有更高的存储带宽，存储性能明显提高。SAn的光纤通道使用全双工串行通信原理传输数据，传输速率高达1062.5Mb/s。
[x] 良好的扩展能力。由于SAN采用了网络结构，扩展能力更强。光纤接口提供了10公里的连接距离，这使得实现物理上分离，不在本地机房的存储变得非常容易。

三种存储方式比较一下，存储应用最,大的特点是没有标准的体系结构，这三种存储方式共存，互相补充，已经很好满足企业信息化应用。从连接方式上对比，DAS采用了存储设备直接连接应用服务器，具有一定的灵活性和限制性；NAS通过网络(TCP/IP，ATM，FDDI)技术连接存储设备和应用服务器，存储设备位置灵活，随着万兆网的出现，传输速率有了很大的提高；SAN则是通过光纤通道技术连接存储设备和应用服务器，具有很好的传输速率和扩展性能。三种存储方式各有优势，相互共存，占到了磁盘存储市场的70%以上。SAN和NAS产品的价格仍然远远高于DAS.许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。客观的说，SAN和NAS系统都已经可以利用类似的自动精简配置，用技术来弥补存储分配不灵活的短板。然而，之前它们消耗了太多的时间来解决存储分配的问题，以至于给DAS留有足够的时间在数据中心领域站稳脚跟。此外，SAN和NAS依然问题多多，无法解决。

存储这里除了存储方式以外，另外一个重要得技术就是磁盘阵列，英文Redundant Arrays of Independent Drives，简称RAID，有“独立磁盘构成的具有冗余能力的阵列”之意。磁盘阵列是由很多磁盘组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。磁盘阵列还能利用同位检查(Parity Check)的观念，在数组中任意一个硬盘故障时，仍可读出数据，在数据重构时，将数据经计算后重新置入新硬盘中。

磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。磁盘阵列有多个端口可以被不同主机或不同端口连接。一个主机连接阵列的不同端口可提升传输速度。和当时PC用单磁盘内部集成缓存一样，在磁盘阵列内部为加快与主机交互速度，都带有一定量的缓冲存储器。主机与磁盘阵列的缓存交互，缓存与具体的磁盘交互数据。在应用中，有部分常用的数据是需要经常读取的，磁盘阵列根据内部的算法，查找出这些经常读取的数据，存储在缓存中，加快主机读取这些数据的速度，而对于其他缓存中没有的数据，主机要读取，则由阵列从磁盘上直接读取传输给主机。对于主机写入的数据，只写在缓存中，主机可以立即完成写操作。然后由缓存再慢慢写入磁盘。

如果说优点么，提高传输速率。RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput)。在RAID中，可以让很多磁盘驱动器同时传输数据，而这些磁盘驱动器在逻辑上又是一个磁盘驱动器，所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。这也是RAID最初想要解决的问题。因为当时CPU的速度增长很快，而磁盘驱动器的数据传输速率无法大幅提高，所以需要有一种方案解决二者之间的矛盾。RAID最后成功了。通过数据校验提供容错功能。普通磁盘驱动器无法提供容错功能，如果不包括写在磁盘上的CRC(循环冗余校验)码的话。RAID容错是建立在每个磁盘驱动器的硬件容错功能之上的，所以它提供更高的安全性。在很多RAID模式中都有较为完备的相互校验/恢复的措施，甚至是直接相互的镜像备份，从而大大提高了RAID系统的容错度，提高了系统的稳定冗余性。

RAID技术主要包含RAID 0～RAID 50等数个规范，它们的侧重点各不相同，常见的规范有如下几种：

RAID 0：RAID 0连续以位或字节为单位分割数据，并行读/写于多个磁盘上，因此具有很高的数据传输率，但它没有数据冗余，因此并不能算是真正的RAID结构。RAID 0只是单纯地提高性能，并没有为数据的可靠性提供保证，而且其中的一个磁盘失效将影响到所有数据。因此，RAID 0不能应用于数据安全性要求高的场合。

RAID 1：它是通过磁盘数据镜像实现数据冗余，在成对的独立磁盘上产生互为备份的数据。当原始数据繁忙时，可直接从镜像拷贝中读取数据，因此RAID 1可以提高读取性能。RAID 1是磁盘阵列中单位成本最,高的，但提供了很高的数据安全性和可用性。当一个磁盘失效时，系统可以自动切换到镜像磁盘上读写，而不需要*失效的数据。

RAID 01/10:根据组合分为RAID 10和RAID 01，实际是将RAID 0和RAID 1标准结合的产物，在连续地以位或字节为单位分割数据并且并行读/写多个磁盘的同时，为每一块磁盘作磁盘镜像进行冗余。它的优点是同时拥有RAID 0的超凡速度和RAID 1的数据高可靠性，但是CPU占用率同样也更高，而且磁盘的利用率比较低。RAID 1 0是先镜射再分区数据，再将所有硬盘分为两组，视为是RAID 0的最低组合，然后将这两组各自视为RAID 1运作。RAID 0 1则是跟RAID 1 0的程序相反，是先分区再将数据镜射到两组硬盘。它将所有的硬盘分为两组，变成RAID 1的最低组合，而将两组硬盘各自视为RAID 0运作。性能上，RAID 0 1比RAID 1 0有着更快的读写速度。可靠性上，当RAID 1 0有一个硬盘受损，其余三个硬盘会继续运作。RAID 0 1 只要有一个硬盘受损，同组RAID 0的另一只硬盘亦会停止运作，只剩下两个硬盘运作，可靠性较低。因此，RAID 10远较RAID 01常用，零售主板绝大部份支持RAID 0/1/5/10，但不支持RAID 01。

RAID 2：将数据条块化地分布于不同的硬盘上，条块单位为位或字节，并使用称为“加重平均纠错码(汉明码)”的编码技术来提供错误检查及恢复。

RAID 3：它同RAID 2非常类似，都是将数据条块化分布于不同的硬盘上，区别在于RAID 3使用简单的奇偶校验，并用单块磁盘存放奇偶校验信息。如果一块磁盘失效，奇偶盘及其他数据盘可以重新产生数据；如果奇偶盘失效则不影响数据使用。RAID 3对于大量的连续数据可提供很好的传输率，但对于随机数据来说，奇偶盘会成为写操作的瓶颈。

RAID 4：RAID 4同样也将数据条块化并分布于不同的磁盘上，但条块单位为块或记录。RAID 4使用一块磁盘作为奇偶校验盘，每次写操作都需要访问奇偶盘，这时奇偶校验盘会成为写操作的瓶颈，因此RAID 4在商业环境中也很少使用。

RAID 5：RAID 5不单独指定的奇偶盘，而是在所有磁盘上交叉地存取数据及奇偶校验信息。在RAID 5上，读/写指针可同时对阵列设备进行操作，提供了更高的数据流量。RAID 5更适合于小数据块和随机读写的数据。RAID 3与RAID 5相比，最主要的区别在于RAID 3每进行一次数据传输就需涉及到所有的阵列盘；而对于RAID 5来说，大部分数据传输只对一块磁盘操作，并可进行并行操作。在RAID 5中有“写损失”，即每一次写操作将产生四个实际的读/写操作，其中两次读旧的数据及奇偶信息，两次写新的数据及奇偶信息。

RAID 6：与RAID 5相比，RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法，数据的可靠性非常高，即使两块磁盘同时失效也不会影响数据的使用。但RAID 6需要分配给奇偶校验信息更大的磁盘空间，相对于RAID 5有更大的“写损失”，因此“写性能”非常差。较差的性能和复杂的实施方式使得RAID 6很少得到实际应用。

RAID 7：这是一种新的RAID标准，其自身带有智能化实时操作系统和用于存储管理的软件工具，可完全独立于主机运行，不占用主机CPU资源。RAID 7可以看作是一种存储计算机(Storage Computer)，它与其他RAID标准有明显区别。除了以上的各种标准(如表1)，我们可以如RAID 0 1那样结合多种RAID规范来构筑所需的RAID阵列，例如RAID 5 3(RAID 53)就是一种应用较为广泛的阵列形式。用户一般可以通过灵活配置磁盘阵列来获得更加符合其要求的磁盘存储系统。
RAID 5E(RAID 5 Enhancement)：RAID 5E是在RAID 5级别基础上的改进，与RAID 5类似，数据的校验信息均匀分布在各硬盘上，但是，在每个硬盘上都保留了一部分未使用的空间，这部分空间没有进行条带化，最多允许两块物理硬盘出现故障。看起来，RAID 5E和RAID 5加一块热备盘好像差不多，其实由于RAID 5E是把数据分布在所有的硬盘上，性能会比RAID5 加一块热备盘要好。当一块硬盘出现故障时，有故障硬盘上的数据会被压缩到其它硬盘上未使用的空间，逻辑盘保持RAID 5级别。
RAID 5EE：与RAID 5E相比，RAID 5EE的数据分布更有效率，每个硬盘的一部分空间被用作分布的热备盘，它们是阵列的一部分，当阵列中一个物理硬盘出现故障时，数据重建的速度会更快。
RAID 50：RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求三个硬盘。RAID50具备更高的容错能力，因为它允许某个组内有一个磁盘出现故障，而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上，故重建速度有很大提高。优势：更高的容错能力，具备更快数据读取速率的潜力。需要注意的是：磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。

说过了RAID种类，再说说实现方式。通常计算机功能既可以由硬件来实现，也可以由软件来实现。对于RAID系统而言，自然也不例外，它可以采用软件方式实现，也可以采用硬件方式实现，或者采用软硬结合的方式实现。

软RAID没有专用的控制芯片和I/O芯片，完全由操作系统和CPU来实现所的RAID的功能。现代操作系统基本上都提供软RAID支持，通过在磁盘设备驱动程序上添加一个软件层，提供一个物理驱动器与逻辑驱动器之间的抽象层。目前，操作系统支持的最常见的RAID等级有RAID0、RAID1、RAID10、RAID01和RAID5等。比如，WindowsServer支持RAID0、RAID1和RAID5三种等级，Linux支持RAID0、RAID1、RAID4、RAID5、RAID6等，MacOSXServer、FreeBSD、NetBSD、OpenBSD、Solaris等操作系统也都支持相应的RAID等级。软RAID的配置管理和数据恢复都比较简单，但是RAID所有任务的处理完全由CPU来完成，如计算校验值，所以执行效率比较低下，这种方式需要消耗大量的运算资源，支持RAID模式较少，很难广泛应用。软RAID由操作系统来实现，因此系统所在分区不能作为RAID的逻辑成员磁盘，软RAID不能保护系统盘D。对于部分操作系统而言，RAID的配置信息保存在系统信息中，而不是单独以文件形式保存在磁盘上。这样当系统意外崩溃而需要重新安装时，RAID信息就会丢失。另外，磁盘的容错技术并不等于完全支持在线更换、热插拔或热交换，是否支持错误磁盘的热交换与操作系统实现相关。
硬RAID拥有自己的RAID控制处理与I/O处理芯片，甚至还有阵列缓冲，对CPU的占用率和整体性能是三类实现中最,优的，但实现成本也最高的。硬RAID通常都支持热交换技术，在系统运行下更换故障磁盘。硬RAID包含RAID卡和主板上集成的RAID芯片，服务器平台多采用RAID卡。RAID卡由RAID核心处理芯片(RAID卡上的CPU)、端口、缓存和电池4部分组成。其中，端口是指RAID卡支持的磁盘接口类型，如IDE/ATA、SCSI、SATA、SAS、FC等接口。
软RAID性能欠佳，而且不能保护系统分区，因此很难应用于桌面系统。而硬RAID成本非常昂贵，不同RAID相互独立，不具互操作性。因此，人们采取软件与硬件结合的方式来实现RAID，从而获得在性能和成本上的一个折中，即较高的性价比。这种RAID虽然采用了处理控制芯片，但是为了节省成本，芯片往往比较廉价且处理能力较弱，RAID的任务处理大部分还是通过固件驱动程序由CPU来完成。

近年来，随着存储技术的持续发展，RAID技术在成本、性能、数据安全性等诸多方面都将优于其他存储技术，例如磁带库、光盘库等，大多数企业数据中心首，选RAID作为存储系统。当前存储行业的知名存储厂商均提供全线的磁盘阵列产品，包括面向个人和中小企业的入门级的低端RAID产品，面向大中型企业的中高端RAID产品。这些存储企业包括了国内外的主流存储厂商，如EMC、IBM、HP、SUN、NetApp、NEC、HDS、H3C、Infortrend、华赛等。另外，这些厂商在提供存储硬件系统的同时，还往往提供非常全面的软件系统，这也是用户采购产品的一个主要参考因素。

不同的存储厂商的产品在技术、成本、性能、管理、服务等方面各有优势和不足。用户选择RAID的原则是：在成本预算内，满足数据存储需求的前提下，选择最，优的存储厂商解决方案。因此，首先用户需要对存储需求作深入的调研和分析，并给出成本预算，然后对众多存储厂商的解决方案进行分析和对比，最,后选择出一个综合最，优的存储方案。其中，存储产品的扩展性和存储厂家的售后服,\务需要重点考察，存储需求(如容量、性能)可能会不断升级，存储产品发生故障后的维修和支持保障，这些都要未雨先缪。

回顾RAID发展历史，从提出概念至今已有二十多年。在此期间，整个社会信息化水平不断提高，数据呈现爆炸式增长趋势，数据取代计算成为信息计算的中心。这促使人们对数据愈加重视，不断追求海量存储容量、高性能、高安全性、高可用性、可扩展性、可管理性等等。RAID技术在这样强大的存储需求推动下不断发展进步，时至今日技术已经非常成熟，在各种数据存储系统中得到了十分广泛的应用。正是由于技术发展的成熟，RAID技术的未来发展已经不被广泛看好，甚至预言在不久的将来会停止发展，称之为“僵尸技术”，即虽然宣布死亡，但在很长一段时间内仍会继续发挥巨大的价值。然而，当前的RAID技术仍然存在诸多不足，各种RAID模式都存在自身的缺陷，主要集中在读写性能、实现成本、恢复时间窗口、多磁盘损坏等方面。因此，RAID技术显然还存在很大的提升空间，具有很大的发展潜力。近年来新出现的RAID模式以及学术研究显示了其未来的发展趋势，包括分布式校验、多重校验、混合RAID模式、水平和垂直条带、基于固态内存RAID、网络校验等等。特别指出的是，多核CPU和GPU是当前的热点技术，它们大幅提升了主机的可用计算资源，这可以解决RAID对计算资源的消耗问题，软RAID很可能将重新成为热点。另外，存储硬件性能的提升、存储虚拟化技术、重复数据删除技术以及其他存储技术都会极大地推动RAID技术的进一步创新和发展。