查看: 330|回复: 0

读书笔记 | 数据密集型应用系统设计

发表于 2022-7-5 19:21 | 显示全部楼层 |阅读模式

程序员必读书籍！！！豆瓣评分9.7 好评如潮

读书笔记Xmind分享读书笔记 | 数据密集型应用系统设计 | 思维导图口令: vP5C

品质读物"Go"《数据密集型应用系统设计》

关键词汇 : 数据模型 / 数据存储 / 事务 / 分布式

欢迎关注 : 大摩羯先生

第一部分数据系统基础

第1章可靠、可扩展与可维护的应用系统

背景

应用构建模块

数据库

持久化数据

高速缓存

缓存热点数据/操作复杂数据以供加快访问

索引

通过冗余存储、异构数据结构来加快检索

流式处理

持续发送消息至另一个进程，处理采用异步方式

批处理

定期处理大量的累积数据
认识数据系统

数据库、队列、高速缓存等都可以认为是“数据系统”

设计数据系统或数据服务时，三个棘手问题

第2章数据模型与查询语言

背景

应用构建是一层一层叠加“数据模型”来构建的
关系模型&文档模型

数据查询语言

声明式

命令式

MapReduce

图状数据模型

例子

小结

数据模型演进过程

第3章数据存储与检索

数据库核心：数据结构

聚合

COUNT、SUM、AVG、MIN、MAX

物化视图，其实就是预先查询好，根据业务数据的更新来连锁更新，将计算前置
小结

第4章数据编码与演化

数据编码格式

数据流模式

小结

第二部分分布式数据系统

分布式部署

目的

第5章数据复制

数据复制的方式

实现

MySQL、SQL Server、Oracle

MongoDB

Kafka、RabbitMQ

多主节点复制

多主节点模型的拓扑结构

多节点容错性更好

多节点数据通信传播复杂性增加

多节点数据复制覆盖问题

时间戳无法保证副本时钟

版本向量控制
无主节点复制

放弃选择主节点，允许任何副本直接处理客户端请求完成写处理

问题

实现

复制滞后问题

第6章数据分区

数据分区与数据复制

每个分区在多个节点都存有副本
键-值数据的分区

分区的目的是将海量数据平均分摊到不同分区节点

基于关键字区间分区

基于关键字哈希值分区

一个好的哈希函数可以处理数据倾斜并使其均匀分布，哈希能够解决数据分布均匀的问题，但是也破坏了连续性数据的区间特性
一致性哈希

哈希分区的热点，数据倾斜问题

基于混合键分区

键的一部分标识分区，另一部分用来记录排序后的顺序
分区与二级索引

基于文档分区的二级索引（本地索引）

实现

MongoDB、Cassandra、Elasticsearch

动态再平衡策略

为什么不用取模

实现

Elasticsearch

第7章事务

深入理解事务

事务有其优势，也有自身局限性
ACID的含义

原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）
BASE的含义

基本可用性（Basically Available）、软状态（Soft state）、最终一致性（Eventual consistency）
单对象、多对象事务操作

修改多个对象的整体一致性、隔离性等
单对象写入

修改单个对象的原子性、隔离性等
多对象事务的必要性

处理错误和中止

弱隔离级别

快照级别隔离与可重复读

实现 PostgreSQL、MySQL的InnoDB存储引擎、SQL Server、Oracle

写倾斜与幻读

定义写倾斜

串行化

最强的隔离级别

通过避免并发的方式解决并发问题

两阶段加锁（2PL，tow-phase locking），比较标准的串行化方式

读锁定

写锁定

谓词锁

百度什么是“谓词”？
数理逻辑中表示一个个体的性质和两个或两个以上个体间关系的词谓词锁不属于某个特定对象，而是面向某些特殊的搜索条件命中的对象，这里的代表可以是范围查询返回的行数据索引区间锁（next-key locking）

可串行化的快照隔离（Serializable Snapshot Isolation，SSI ）

乐观并发控制
第8章分布式系统挑战

故障与部分失效

不可靠的网络

网络问题

不可靠的时钟

时钟和计时的重要性

单调时钟与墙上时钟

知识，真相与谎言

拜占庭将军问题
第9章一致性与共识

一致性保证

强一致性

弱一致性

最终一致性
可线性化（原子一致性、强一致性）

多副本下数据读取结果在任何时刻都保持一致

对客户端来说就像只有一个数据副本一样

可线性化 vs 可串行化

共识算法（可线性化）

通过共识协议防止多副本数据不一致，包含Zookeeper，etcd等

共识算法就是基于强一致性来实现，一定是可线性化的

顺序保证

事实证明，排序、可线性化与共识之间存在着联系

顺序与因果关系

全序和偏序的差异体现在不同数据一致性模型

分布式事务与共识

需要集群节点达成一致的场景

异构分布式事务

存在两种及以上不同的参与者实现技术

数据库、缓存、消息队列等

Exactly-once消息处理

XA交易
并不是网络协议，而是与事务协调者进行通信的API 停顿时仍持有锁当有节点不能正常工作时，仍持有锁阻止其他事务进行并发操作
从故障中恢复
通过恢复日志、人为处理等方式
分布式事务的限制
协调者不支持数据复制，意味着单点运行，本身就不是高可用协调者需要依赖日志进行中断事务的恢复和保证 2PC并不是完备的事务提交保证机制，需要考虑它的异常场景带来的问题
支持容错的共识

共识算法的性质
协商一致性所有节点都接受相同的协议诚实性所有节点不能反悔，对一项提议不能有两次决定合法性如果决定了某个值，则一定是由某个节点提议的可终止性节点如果不崩溃最终一定可以达成协议
共识算法

成员与协调服务

Zookeeper、ETCD、Consul

保存少量、可完全载入内存（最终要写入磁盘以支持持久性）的数据设计

采用容错的全序广播算法在所有节点上复制这些数据从而实现高可靠

适用场景
节点任务分配作业调度负载平衡服务发现成员服务

第三部分派生数据

第10章批处理系统

第11章流处理系统

第12章数据系统的未来

本文由博客一文多发平台 OpenWrite 发布！

使用道具举报

返回列表发新帖

		自动登录	找回密码
密码			立即注册

读书笔记 | 数据密集型应用系统设计

浏览过的版块