4.ZooKeeper内存数据和持久化「第二章 ZooKeeper使用」「架构之路ZooKeeper理论和实战」

ZooKeeper数据的组织形式为一个类似文件系统的数据结构,而这些数据都是存储在内存中的,所以我们可以认为,Zookeeper是一个基于内存的小型数据库

一、内存中的数据

         看下内存存储的类:

  1. public class DataTree {
  2. private final ConcurrentHashMap<String, DataNode> nodes = new ConcurrentHashMap<String, DataNode>();
  3. private final WatchManager dataWatches = new WatchManager();
  4. private final WatchManager childWatches = new WatchManager();
  5. //...
  6. }

         这里存放数据使用的是ConcurrentHashMap的数据结构,这里的String key就是我们在创建节点的时候的path,DataNode就是存放的数据类型,包括了数据值以及节点的信息。

         DataNode 是Zookeeper存储节点数据的最小单位,我们来看下DataNode的结构:

  1. public class DataNode implements Record {
  2. byte data[];
  3. Long acl;
  4. public StatPersisted stat;
  5. private Set<String> children = null;
  6. //...
  7. }

二、事务日志

         针对每一次客户端的事务操作,Zookeeper都会将他们记录到事务日志中,当然,Zookeeper也会将数据变更应用到内存数据库中。我们可以在zookeeper的主配置文件zoo.cfg 中配置内存中的数据持久化目录,也就是事务日志的存储路径 dataLogDir. 如果没有配置dataLogDir(非必填), 事务日志将存储到dataDir (必填项)目录。

可以打开配置文件zoo.cfg的配置文件,看到dataDir的目录:

dataDir=/tmp/zookeeper

         我们可以根据需要进行调整,比如ZK安装目录下创建一个data进行存放。

         我们可以看下/tmp/zookeeper的日志:

说明:

(1)log是事务日志;snapshot是快照文件。

(2)事务日志文件名为: log.<当时最大事务ID>,应为日志文件时顺序写入的,所以这个最大事务ID也将是整个事务日志文件中最小的事务ID,日志满了即进行下一次事务日志文件的创建。

(3)快照事务日志文件名为: snapshot.<当时最大事务ID>,日志满了即进行下一次事务日志文件的创建。

ZooKeeper提供了格式化工具可以进行数据查看事务日志数据:

org.apache.zookeeper.server.LogFormatter

         具体的命令:

//1. 进入到zk的lib目录下

//2. 执行如下java命令

java -cp slf4j-api-1.7.25.jar:zookeeper-3.6.2.jar:zookeeper-jute-3.6.2.jar org.apache.zookeeper.server.LogFormatter /tmp/zookeeper/version-2/log.7c






         我看下这个数据(摘取最后一条进行说明):

21-3-11 下午03时21分34秒 session 0x1001296613a0001 cxid 0x4 zxid 0x81 create '/test/test5,#68656c6c6f,v{s{31,s{'world,'anyone}}},F,6

 2,29989447067

         从左到右分别记录了操作时间,客户端会话ID,CXID,ZXID,操作类型,节点路径,节点数据(用#+ascii 码表示),节点版本。

ZooKeeper进行事务日志文件操作的时候会频繁进行磁盘IO操作,事务日志的不断追加写操作会触发底层磁盘IO为文件开辟新的磁盘块,即磁盘Seek。因此,为了提升磁盘IO的效率,Zookeeper在创建事务日志文件的时候就进行文件空间的预分配- 即在创建文件的时候,就向操作系统申请一块大一点的磁盘块。这个预分配的磁盘大小可以通过系统参数 zookeeper.preAllocSize 进行配置。

三、数据快照

         数据快照用于记录Zookeeper服务器上某一时刻的全量数据,并将其写入到指定的磁盘文件中。

可以通过配置snapCount配置每间隔事务请求个数,生成快照,数据存储在dataDir 指定的目录中,可以通过如下方式进行查看快照数据( 为了避免集群中所有机器在同一时间进行快照,实际的快照生成时机为事务数达到 [snapCount/2   + 随机数(随机数范围为1 ~ snapCount/2 )] 个数时开始快照)。

ZooKeeper提供了格式化工具可以进行数据查看数据快照:

org.apache.zookeeper.server.SnapshotFormatter

         具体的命令:

//1. 进入到zk的lib目录下

//2. 执行如下java命令

java -cp slf4j-api-1.7.25.jar:zookeeper-3.5.8.jar:zookeeper-jute-3.5.8.jar  org.apache.zookeeper.server.SnapshotFormatter  /tmp/zookeeper/version-2/snapshot.79

         上面的命令如果是ZK是3.5.8的版本的话,是能够正常执行的,在3.6.2的版本就不行了会抛出异常信息:

3.6.2的版本请使用如下的命令进行查看:

java -cp slf4j-api-1.7.25.jar:zookeeper-3.6.2.jar:zookeeper-jute-3.6.2.jar:snappy-java-1.1.7.jar org.apache.zookeeper.server.SnapshotFormatter  /tmp/zookeeper/version-2/snapshot.79

说明:多了一个snappy-java.jar包。

四、为什么需要快照?

         有了事务日志,为啥还要快照数据。

         快照数据主要时为了快速恢复事务日志文件是每次事务请求都会进行追加的操作,而快照是达到某种设定条件下的内存全量数据。所以通常快照数据是反应当时内存数据的状态。事务日志是更全面的数据,所以恢复数据的时候,可以先恢复快照数据,再通过增量恢复事务日志中的数据即可。

五、小结

(1)ZooKeeper数据的组织形式为一个类似文件系统的数据结构,而这些数据都是存储在内存中的,我们执行get的时候,是数据结构ConcurrentHashMap中进行获取的,这里的Map的key就是<path>。

(2)事务日志:事务日志文件是每次事务请求都会进行追加的操作,对于非事务从操作的get就不会保存到事务日志文件中。

(3)数据快照:快照是达到某种设定条件下的内存全量数据。

(4)为什么需要数据快照:快照数据主要时为了快速恢复。

(5)数据恢复:恢复数据的时候,先恢复快照数据,再通过增量恢复事务日志中的数据。

购买完整视频,请前往:http://www.mark-to-win.com/TeacherV2.html?id=287