Tair 持久存储系列技术解读（我的世界AOF3整合模组）

Redis作为当今主流的内存数据库支持许多丰富的数据结构，比如哈希表、集合，还有lua脚本、事务、消息订阅等等高级特性，同时使用内存做为主要的存储介质，支持高速访问。

但是由于其数据全部存储在内存，成本较高，而且对于海量数据存储的支持也存在一些痛点，比如在AOFREWRITE和生成RDB快照时会有较高的latency spike，大数据量下全量同步耗时较长、失败率较高。并且数据可靠性稍弱，RDB和AOF不能保证数据不丢失。

为了解决上述问题，拓宽Redis的应用场景，我们结合新技术新硬件推出了Tair持久存储系列产品：容量存储型和持久内存型，支持大容量存储和更高的数据可靠性。

容量存储型

使用磁盘存储就是其中的解决方案之一，利用磁盘可以降低成本并且提供海量存储。但是在磁盘上实现redis也会有一些挑战：

1.首先redis的数据结构都是基于内存实现，内存可以直接寻址，而磁盘是个块设备，需要在磁盘上构建存储引擎来支持redis数据结构访问。

2.另外磁盘和内存有较大的性能差距，原生redis单线程的架构无法满足吞吐需求，需要从架构设计上提升访问性能。

应对这些挑战，我们基于rocksdb进行了改造，提供了高性能的存储引擎TairDB，并实现了redis数据结构向简单kv的编码映射，使redis数据能够存储在磁盘上；采用多线程的架构来提升访问磁盘的性能；同时使用阿里云ESSD高效云盘为存储底座，利用云盘快照进行备份和全量同步，避免fork带来的问题并提高全量同步效率。

redis有五种基本数据类型，其中string可以直接映射到rocksdb的kv，但是其他一些复杂的数据结构hash、list、set、zset需要通过一定格式的编码把redis的数据结构映射到rocksd的kv上。

我们把redis数据结构拆分为meta和data两类，进行不同的编码，通过meta可以去找到其对应的data，也即二级索引。

以hash为例，执行hset myhash myfield myvalue之后，hash表的名字myhash就会在meta中生成一份kv，其中key就是myhash，value会标志它的属性为hash表；myfield和myvalue会记录在data中，再以key 类型 filed就可以索引到hash表的所有内容。

为了实现多线程架构，首先需要解决key冲突的问题，这里我们实现了key级别的锁，这样可以大大降低锁冲突，提高并发度。命令执行过程中多个线程首先获取key锁，然后按命令的逻辑执行，通过预先设计好的编码规则存取数据。最后再把结果以事务的方式提交给底层存储引擎。每个命令的执行都是要在事务提交之后才会返回结果，这样每一条命令都是持久化的，大大提升了数据可靠性。

关于主备复制，全量复制使用云盘快照提高效率。增量复制采用类似MySQL binlog的方式，事务提交之后同时也会写入binlog，然后会有sender把binlog传输给备库，binlog传输到备库上时会首先保存为relaylog作为中继，然后通过relaylog再回放应用，这样有两点好处：

1.支持semisync，只要relaylog落盘就可以认为事务在备库也提交完成，不用等待relaylog应用，这样既可以提升增量同步的效率，同时提供了更强的主备一致性保证。

2.支持并发回放，在relaylog中记录并发度的元信息，不同的key就可以进行并发回放提高效率，同时相同的key仍然按序回放，保证主备一致性，不会造成数据错乱。

上图为不同类型场景和实例规格下的性能测试结果，测试命令为时间复杂度O(1)的GET/SET，综合性能中位数在开源版70%。

在数据小于内存的情况下大部分数据都会缓存在操作系统的page cache中，整体性能会优于数据大于内存的情况。规格越高的实例线程越多并发度也就越高，性能也相对越好。另外不同于内存中的GET/SET，磁盘上写入数据需要有read modify write的过程，也即需要先读取元数据才能进行修改，所以对于GET/SET写性能要弱于读性能。

持久内存型

傲腾持久内存是Intel推出的一款非易失性内存产品，在提供接近内存延时能力的同时保持持久化的能力，理想情况下对于Redis场景来说是非常好的，因为数据写入到持久内存中已经持久化，那么就不需要额外的日志和Checkpoint用来保证持久化的特性，同时傲腾持久内存在延迟上也比较接近内存优于传统SSD，成本上对比内存也更加的便宜。

Redis基于傲腾持久内存能达到高性能的同时拥有较高的持久化能力，但是实际在工程实现会碰到非常大的挑战，包括：

1.需要使用持久化内存的分配器来代替原有的内存分配器，分配器的元数据信息需要持久化，否则在恢复的时候会造成内存的泄露或者不一致。
2.原本String，Set，Hash这些数据结构和索引在异常的时候全部失效在恢复的时候重建，而现在这些数据都是持久化的，如何支持设计持久化的数据结构是目前工业界和理论界主要的研究方向之一
3.索引和数据的一致性，数据的完整性，这些都会在下一张NVM的挑战中做更详细的阐释
4.持久内存在延时还是比内存更高，如何做好冷热分离，让系统拥有更高的性能。
5.如何拥有高性能的同时兼备强大的持久化能力。

持久内存的使用分为两大类Memory Mode和 AppDirecrt Mode, memory mode无需用户改造但是没有持久化内里，使用App Direct mode之后对比传统SSD从block寻址转为字节寻址，同时接口也从文件write/read转为内存的load和store。

数据写入内存的过程可能会停留在CPU L1，L2cache，需要调用类似CLWB和CLFLUSHOPT这样的指令来刷到内存系统中，由于CPU只能保证8个字节的原子写入，那么对于一个16字节的写很有可能在写完第一个8字节的时候crash，后半部分没有写入成功这个就是所谓的partial writes，上层应用在使用持久内存的时候需要额外的实现来保障数据持久问题。

下面的例子是一个双向链表，传统内存crash之后所有的数据丢失，而持久内存则保留了crash的状态，因此会出现B的Next指针指向了C而C的Prev指针缺没有指向B，这个时候的双向链表是出于异常的状态。从链表衍生开来内存分配器中的管理结构也存在这个问题，会出现内存泄露等情况。

由于持久化的挑战，目前主流使用持久内存的方式都是当做Memory或者使用AppDirect但是不支持持久化，阿里云Tair持久内存版的是基于傲腾持久内存的自研引擎，解决了持久化编程中遇到的各种挑战，撘配阿里云官方提供的Linux操作系统镜像Aliyun Linux，Aliyun弹性计算服务首次（全球首家）在神龙裸金属服务器上引入傲腾持久内存，深度优化完善支持，为客户提供安全、稳定、高性能的体验。

阿里云持久内存版Tair的每一条记录都确保写入AEP并且持久化才返回，极大的提升数据的可靠性，同时在读取路径上使用Dram缓存如索引等热点数据结构和元数信息，来加速数据访问的存取。