Docker 前置知识-技术架构演进

常见概念
- 基本概念
- 评价指标（Metric）
架构演进

常见概念

在正式引入架构演进之前，为避免读者对架构中的概念有所疑惑，故对其中一些比较重要的概念做前置介绍：

基本概念

应用（Application）/ 系统（System）

为了完成一整套服务的一个程序或者一组相互配合的程序群。生活例子类比：为了完成一项任务，而搭建的由一个人或者一群相互配的人组成的团队。

模块（Module）/ 组件（Component）

当应用较复杂时，为了分离职责，将其中具有清晰职责的、内聚性强的部分，抽象出概念，便于理解。生活例子类比：军队中为了进行某据点的攻克，将人员分为突击小组、爆破小组、掩护小组、通信小组等。

分布式（Distributed）

系统中的多个模块被部署于不同服务器之上，即可以将该系统称为分布式系统。如 Web 服务器与数据库分别工作在不同的服务器上，或者多台 Web 服务器被分别部署在不同服务器上。生活例子类比：为了更好的满足现实需要，一个在同一个办公场地的工作小组被分散到多个城市的不同工作场地中进行远程配合工作完成目标。跨主机之间的模块之间的通信基本要借助网络支撑完成。

集群（Cluster）

被部署于多台服务器上的、为了实现特定目标的一个/组特定的组件，整个整体被称为集群。比如多个 MySQL 工作在不同服务器上，共同提供数据库服务目标，可以被称为一组数据库集群。生活例子类比：为了解决军队攻克防守坚固的大城市的作战目标，指挥部将大批炮兵部队集中起来形成一个炮兵打击集群。

分布式 vs 集群。通常不用太严格区分两者的细微概念，细致的话，分布式强调的是物理形态，即工作在不同服务器上并且通过网络通信配合完成任务；而集群更在意逻辑形态，即是否为了完成特定服务目标。

主（Master）/ 从（Slave）

集群中，通常有一个程序需要承担更多的职责，被称为主；其他承担附属职责的被称为从。比如 MySQL 集群中，只有其中一台服务器上数据库允许进行数据的写入（增/删/改），其他数据库的数据修改全部要从这台数据库同步而来，则把那台数据库称为主库，其他数据库称为从库。

中间件（Middleware）

一类提供不同应用程序用于相互通信的软件，即处于不同技术、工具和数据库之间的桥梁。生活例子类比：一家饭店开始时，会每天去市场挑选买菜，但随着饭店业务量变大，成立一个采购部，由采购部专职于采买业务，称为厨房和菜市场之间的桥梁。

容器（Docker）

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux 或 Windows 操作系统的机器上，也可以实现虚拟化。可以理解为一个集装箱，集装箱里面是每个用户的货物，整体打包。

容器编排（K8S）

kubernetes，简称 K8s，是用 8 代替名字中间的 8 个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes 的目标是让部署容器化的应用简单并且高效。可以理解为一个货船，安装集装箱的大小，货物情况合理的来组织集装箱完成整体货物的搬运。

评价指标（Metric）

可用性（Availability）

考察单位时间段内，系统可以正常提供服务的概率/期望。例如：年化系统可用性 = 系统正常提供服务时长 / 一年总时长。这里暗含着一个指标，即如何评价系统提供无法是否正常，我们就不深入了。平时我们常说的 4 个 9 即系统可以提供 99.99% 的可用性，5 个 9 是 99.999% 的可用性，以此类推。我们平时只是用高可用（High Availability HA）这个非量化目标简要表达我们系统的追求。

响应时长（Response Time RT）

指用户完成输入到系统给出用户反应的时长。例如点外卖业务的响应时长 = 拿到外卖的时刻 - 完成点单的时刻。通常我们需要衡量的是最长响应时长、平均响应时长和中位数响应时长。这个指标原则上是越小越好，但很多情况下由于实现的限制，需要根据实际情况具体判断

吞吐（Throughput）vs 并发（Concurrent）

吞吐考察单位时间段内，系统可以成功处理的请求的数量。并发指系统同一时刻支持的请求最高量。例如一条 2 车道高速公路，一分钟可以通过 20 辆车，则并发是 2，一分钟的吞吐量是 20。实践中，并发量往往无法直接获取，很多时候都是用极短的时间段（比如 1 秒）的吞吐量做代替。我们平时用高并发（Hight Concurrent）这个非量化目标简要表达系统的追求。

架构演进

单机架构

single

初期，我们需要利用我们精干的技术团队，快速将业务系统投入市场进行检验，并且可以迅速响应变化要求。但好在前期用户访问量很少，没有对我们的性能、安全等提出很高的要求，而且系统架构简单，无需专业的运维团队，所以选择单机架构是合适的。

在这种架构当中，应用服务和数据库服务共用一台服务器，所有的请求都通过这台服务器进行处理。

的确，这样的架构部署简单，成本也很低，但是会存在严重的性能瓶颈，且数据库和应用服务会互相竞争资源。

应用数据分离架构

随着系统的上线，我们不出意外地获得了成功。市场上出现了一批忠实于我们的用户，使得系统的访问量逐步上升，逐渐逼近了硬件资源的极限，同时团队也在此期间积累了对业务流程的一批经验。面对当前的性能压力，我们需要未雨绸缪去进行系统重构、架构挑战，以提升系统的承载能力。但由于预算仍然很紧张，我们选择了将应用和数据分离的做法，可以最小代价的提升系统的承载能力

apart

和之前架构的主要区别在于将数据库服务独立部署在同一个数据中心的其他服务器上，应用服务通过网络访问数据，但是这种架构也难免遇到一些缺点，我们来总结一下这个架构的优缺点：

优点

性能提升：相较于单机架构（应用和数据库同服），将应用服务和数据库服务分离到不同服务器上，减轻了单台服务器的资源竞争压力，整体性能得到提升。
容灾能力增强：实现了初步的隔离。数据库被独立出来，避免了因应用程序故障（如内存泄漏、CPU 占满）而直接拖垮数据库服务，提升了系统的稳定性和容灾能力。
成本相对可控：作为架构演进的第一步，此方案只需增加少量的服务器，其硬件和运维成本相对于更复杂的分布式架构而言，依然在可接受的范围内。

缺点

硬件成本变高：这种架构需要购买和维护更多的服务器，导致了硬件成本和运维复杂度的增加。
存在性能瓶颈：虽然性能相比单机有提升，但数据库和应用通常仍是“单点”。随着业务增长，尤其是数据库层面，很容易遇到 I/O、CPU 等瓶颈，无法独立应对海量的并发请求。

应用服务集群架构

应用集群架构是指在水平扩展（Scale-Out）方案中，将多台应用服务器组织成一个统一的整体，共同对外提供服务的架构模式。这个集群对用户来说就像一个单一、高性能和高可用的服务器。

cluster

其核心目的是：通过增加廉价商用服务器的数量，而非提升单台服务器的性能（Scale-Up），来线性地提升系统的整体处理能力和可用性。

当系统用户量激增，单台应用服务器遇到性能瓶颈（如 CPU、内存、网络带宽耗尽）时，主要有两种选择：

垂直扩展： 升级单台服务器的硬件（更快的 CPU、更大的内存）。缺点：成本高昂（性能提升非线性增长）、有物理上限、存在单点故障风险。
水平扩展： 增加更多的服务器。缺点：引入了架构复杂性，需要解决流量如何分发、会话如何保持等问题。

应用集群架构正是水平扩展方案的具体实现。

核心组件：负载均衡器

实现应用集群的关键是引入一个负载均衡器。它就像是一个交通警察，站在所有应用服务器之前，负责将所有 incoming 的用户请求，按照预设的规则，智能地分发到集群中某一台健康的应用服务器上。

常见的流量调度算法

负载均衡器根据不同的算法决定将请求分发给谁：

轮询： 将请求依次、平均地分发给每一台服务器。
加权轮询： 给性能更强的服务器分配更高的权重，让其处理更多的请求，实现“能者多劳”。
最少连接数： 将新的请求发送给当前连接数最少的服务器，避免某台服务器过载。
IP 哈希/一致性哈希： 根据用户的 IP 地址计算出一个哈希值，相同来源的请求总是被分配到同一台服务器上。优点：可以很好地解决用户会话的问题，例如用户的登录状态可以只保存在一台服务器上而无需同步到所有服务器。

应用集群架构的优缺点

优点

高并发处理能力： 通过多台服务器并行处理请求，极大地提升了系统的整体吞吐量，能够应对海量用户访问。
高可用性： 消除了单点故障。如果集群中一台应用服务器宕机，负载均衡器能够自动检测到并将其从健康列表中移除，后续流量只会被分发到其他正常的服务器上，从而保证服务不中断。
良好的可扩展性： 当流量进一步增长时，可以非常简单地向集群中动态添加新的应用服务器，几乎可以无限水平扩展。
成本效益高： 使用多台普通商用服务器通常比升级到一台顶级大型机的成本更低，更具性价比。

缺点

架构复杂性增加： 需要引入并维护负载均衡器等新组件。
带来新的技术挑战：
- 会话保持问题： 如果用户第一次请求被发到服务器 A 并登录，第二次请求被发到服务器 B，如何让 B 也知道用户已登录？解决方案有：Session 复制、Session 集中存储（如存入 Redis）、或使用 IP 哈希算法固定用户访问的服务器。
- 数据一致性问题： 所有应用服务器需要访问同一数据源（如数据库、缓存），要确保它们看到的数据是一致的。
- 依赖服务压力： 应用服务器变多了，它们共同依赖的数据库、文件服务等下游服务可能会成为新的瓶颈。

读写分离 or 主从分离架构

slave

读写分离/主从分离架构是一种通过复制技术，将一个数据库（主库）的数据同步到另一个或多个数据库（从库），并在此基础上实现写操作（增删改）与读操作（查询）分离的数据库架构模式。

其核心思想是：一主多从，主库负责写，从库负责读。

当应用层通过集群化解决了自身瓶颈后，压力就全部转移到了数据库层面。单一数据库服务器很快就会遇到 I/O、CPU、连接数等瓶颈。然而，数据库不能像应用服务器那样简单地通过加机器并负载均衡来扩展，因为必须要保证所有机器上数据的一致性。

读写分离架构就是为了解决数据库的读多写少型压力而生的。它基于一个关键观察：在大多数业务系统（如电商、内容网站）中，读请求（如浏览商品、查看文章）的频率远高于写请求（如下单、评论）。

它是如何工作的？

主数据库：承担所有写操作（INSERT, UPDATE, DELETE）。任何对数据的修改都只发生在这里。它是数据的唯一权威来源。
从数据库：通过数据库内置的复制机制（如 MySQL 的 binlog 复制），实时（或近实时）地将主库的数据变更同步过来。从库是主库的一个完整副本。它只承担读操作（SELECT）。
应用层调整：应用程序在访问数据库时，需要进行判断：
- 当执行写操作时，请求直接发往主库。
- 当执行读操作时，请求被分发到某一个从库。

这个过程通常需要一个数据库中间件（或是在应用内集成特定组件）来智能地路由读写请求。

读写分离架构的优缺点

优点

显著提升读取性能：这是最核心的优点。通过增加从库数量，可以将大量的读请求分散到多台机器上，从而极大地提升了系统的整体查询处理能力和吞吐量。解决了“热点数据的频繁读取导致数据库负载很高”的问题。
间接提升写入性能：将读操作从主库剥离，使主库可以更专注于处理写操作，减少了锁竞争等开销，从而间接提升了写操作的性能。
提高数据库可用性与容灾能力：
- 高可用：如果一台从库宕机，其他从库仍然可以提供读服务，系统整体功能不受大的影响。
- 数据备份：从库本质上就是一个实时备份的数据库副本，可以用于数据备份和恢复，降低了数据丢失的风险。
- 快速故障转移：如果主库宕机，可以快速地将一台从库提升为新的主库（需要配合其他工具和流程），缩短系统不可用时间。

缺点

数据同步延迟（致命缺点）：这是该架构最大的挑战。由于主库到从库的数据同步是异步的（通常是出于性能考虑），它需要时间。这会导致主从数据短暂不一致。
- 场景：用户刚下单成功（数据写入主库），立刻刷新订单列表（请求被路由到尚未同步完成的从库），可能看不到刚下的订单。这对用户体验是致命的。
- 解决方案：对一致性要求极高的操作，可以强制走主库查询（但这会增加主库压力）。
架构复杂度和成本增加：
- 需要引入和管理更多的数据库服务器，硬件和运维成本更高。
- 应用程序需要识别读写操作并进行路由，增加了代码的复杂性。通常需要引入或开发额外的中间件。
主库仍然是单点：写操作和数据同步的源头仍然是单一主库，它本身存在单点故障风险。虽然可以通过一些高可用方案（如 MHA、MGR）缓解，但并未从根本上解决写操作的扩展性问题。

冷热分离架构

冷热分离架构是一种根据数据的访问频率（热度）将其分离到不同存储介质或系统中进行管理的设计思想。其核心目的是：将有限的高性能资源（如内存）服务于最需要它的高频访问数据（热数据），而将低频访问数据（冷数据）存放在成本更低、容量更大的存储中，从而实现成本与性能的最优平衡。

hot_cold

在实践中，它最常见的实现方式就是引入缓存，构建一个层次化的存储体系。

为什么需要冷热分离架构？

在前面的读写分离架构中，虽然从库分担了读压力，但所有请求最终仍然会到达数据库。这存在几个明显问题：

数据库瓶颈仍在：对于极端热点的数据（如明星八卦新闻、秒杀商品信息），即使经过读写分离，大量的重复查询依然会对数据库造成巨大的压力，成为系统的瓶颈。
响应时间瓶颈：即使数据库能承受住压力，每次请求都需要执行完整的 SQL 查询、磁盘 I/O 等操作，响应时间（RT）的极限受限于数据库本身，难以进一步降低。
资源浪费：数据库中存储着大量很少被访问的历史数据（冷数据），它们与高频访问的热数据存放在一起，共享着昂贵的数据库资源，这是一种浪费。

冷热分离架构（引入缓存）正是为了根治“热点数据频繁读取导致数据库负载很高”这一顽疾。

架构原理

该架构在应用层和数据库层之间增加了一个缓存层（通常是基于内存的键值存储，如 Redis、Memcached）。

数据分级：
- 热数据：访问频率极高的数据（如热门商品信息、热门文章、用户会话信息）。存放在缓存层。
- 冷数据：访问频率低的数据（如历史订单、旧日志、归档信息）。存放在数据库层。
工作流程（以读取为例）：
- 第 1 步：应用需要读取数据时，首先查询缓存。
- 第 2 步 - 缓存命中：如果缓存中存在该数据（Hit），则直接返回给应用，整个过程完全不涉及数据库。
- 第 3 步 - 缓存未命中：如果缓存中不存在该数据（Miss），则再去查询数据库。
- 第 4 步：从数据库取出数据后，一方面返回给应用，另一方面将数据写入缓存，并设置一个过期时间，以便后续请求能直接从缓存中获取。

冷热分离架构的优缺点

优点

性能大幅提升：内存的读写速度（微秒级）远高于磁盘（毫秒级）。响应时长（RT）显著降低，用户体验极佳。
极大减轻数据库压力：绝大部分的读请求被缓存拦截，数据库的吞吐量瓶颈被打破，使其能更专注于处理写操作和真正的缓存未命中查询。
高并发支撑能力：缓存系统天生擅长处理高并发读取，使得系统应对突发流量的能力（如秒杀、热点事件）大大增强。
成本效益高：用相对廉价的内存资源保护了昂贵且脆弱的数据库资源，性价比极高。

缺点与挑战（引入了新的技术复杂性）

数据一致性难题：如何保证缓存中的数据与数据库中的数据一致？
- 场景：更新了数据库中的商品价格后，如何确保缓存中的旧价格被及时清除或更新？
- 常见策略：设置缓存过期时间、在更新数据库后主动删除或更新缓存（如先更新数据库，再删除缓存）。
缓存穿透：查询一个数据库中根本不存在的数据，导致每次请求都无法命中缓存，直接击穿到数据库。
- 解决方案：缓存空值、使用布隆过滤器进行初步校验。
缓存击穿：某个热点 key在缓存过期的瞬间，大量请求同时涌入，直接击穿到数据库。
- 解决方案：设置热点数据永不过期、使用互斥锁（Mutex Lock）只允许一个请求去重建缓存。
缓存雪崩：在同一时间，大量缓存 key 同时过期，导致所有请求都涌向数据库，造成数据库瞬时压力过大而崩溃。
- 解决方案：给缓存过期时间加上随机值，避免集体过期。
架构复杂度提升：需要维护和监控缓存集群，增加了运维成本。
数据库瓶颈：业务体量支持变大后，数据不断增加，数据库单库太大，单个表体量也太大，数据查询会很慢，导致数据库再度成为系统瓶颈

垂直分库

垂直分库是基于业务维度，将同一个数据库中的不同业务模块的表拆分到不同的物理数据库中的架构设计。

vertical

其核心思想是：专库专用，按业务拆分。比如，一个庞大的单体数据库（如 mall_db），可能包含了用户、商品、订单、支付等多个业务模块的表。垂直分库就是将这些表分离出来，分别建立独立的数据库：user_db（用户库）、product_db（商品库）、order_db（订单库）、payment_db（支付库）。

为什么需要垂直分库

当业务发展到一定规模，单个数据库会面临如下瓶颈，垂直分库是解决这些问题的自然演进：

单机性能瓶颈：所有业务的表都存放在一个数据库实例上，其连接数、CPU、I/O、磁盘空间等资源是有限的，最终会成为整个系统的天花板。
运维与耦合性问题：
- 难以维护：一个巨大的数据库，表结构复杂，任何改动和迁移风险都极高。
- 耦合性高：所有业务耦合在一起，无法针对特定业务进行优化、扩容或故障隔离。一个业务的高压力查询可能会拖慢整个系统的其他业务。
团队协作问题：不同的开发团队可能需要操作同一个数据库，容易引发权限管理和安全风险。

垂直分库的目标是实现业务层面的解耦，让每个业务库可以独立管理、独立优化和独立扩展。

架构原理

拆分依据：根据系统的业务领域模型进行拆分。一个经典的电商系统可以拆分为：
- 用户库 (user_db)：存储用户信息、会员等级、收货地址等。
- 商品库 (product_db)：存储商品信息、类目、库存、品牌等。
- 订单库 (order_db)：存储订单主表、订单明细表等。
- 支付库 (payment_db)：存储支付记录、账单、交易流水等。
应用层调整：应用程序在访问数据库时，需要知道要操作的数据位于哪个业务库。这通常需要在代码或中间件中进行路由：
- 用户登录 → 连接 user_db
- 查询商品 → 连接 product_db
- 下单 → 需要同时操作 order_db 和 product_db（扣减库存）

垂直分库的优缺点

优点

解决系统级耦合问题：这是最大的优点。实现了业务清晰、系统解耦。不同的业务可以由不同的团队维护不同的数据库。
提升整体性能：将不同业务的负载分散到不同的数据库服务器上，避免了资源竞争，提升了系统的整体吞吐能力。
便于优化和扩展：
- 可针对性优化：可以根据不同业务的特点（如用户库读多写少，支付库写多读少）独立配置硬件和优化参数。
- 可独立扩展：如果用户量激增，可以单独对 user_db 进行扩容（如升级硬件或后续做读写分离），而不影响商品和订单业务。
提升可用性：实现了故障隔离。如果 product_db 因故宕机，通常不会影响到用户登录和支付功能（除非是下单流程），系统的可用性更高。

缺点

架构复杂度显著增加：
- 应用程序需要维护多个数据源，并实现复杂的数据访问路由逻辑。
- 系统的部署和运维复杂度上升。
跨库关联查询困难（无法进行 JOIN 操作）：这是最致命的缺点。
- 场景：查询“某个用户购买过的所有商品”需要关联用户库和订单库。在单体数据库中一个简单的 JOIN 查询就能完成，但在垂直分库后，数据库本身不再支持跨库 JOIN。
- 解决方案：必须在应用层通过代码来实现。先从一个库查询出订单 ID 列表，再去另一个库用 IN 查询商品信息，然后自己在内存中组装数据。这增加了代码的复杂度和网络开销。
分布式事务问题：
- 场景：用户下单操作，需要在 order_db 中创建订单，同时在 product_db 中扣减库存。这两个操作必须同时成功或失败，这就涉及跨数据库的事务。
- 解决方案：需要引入复杂的分布式事务解决方案（如两阶段提交 2PC、基于消息队列的最终一致性方案等），技术难度和性能开销都很大。
成本增加：需要更多的数据库服务器，硬件和运维成本更高。

垂直分库是系统从单体架构迈向分布式架构非常关键的一步。 它主要解决了业务耦合和单机资源瓶颈的问题。

它通常发生在读写分离和引入缓存之后，当这些手段都无法缓解单数据库实例的压力时，就会考虑按业务进行垂直拆分。

然而，垂直分库也带来了跨库查询和分布式事务这两个经典的分布式系统难题。解决这些难题，通常需要业务上做出妥协（如避免跨库关联），或者引入更复杂的中间件和技术方案。当垂直分库后，单个业务库的数据量依然巨大时，下一步就会自然演进到水平分库（分库分表）。

水平分库

水平分库分表是指将同一个逻辑表中的数据，按照某种特定的规则（如哈希、范围等），分散存储到多个物理数据库的多个结构相同的表中。

其核心思想是：“分散存储，分散访问”，通过将数据和请求分摊到多个低成本的服务器上，来突破单机容量的上限。

为什么需要水平分库

垂直分库后，单个业务库（如 订单库）仍然可能面临巨大挑战：

单表数据量过大：例如，订单表数据达到亿级甚至十亿级，SQL 查询性能（如全表扫描、索引深度）会急剧下降。
单库写操作瓶颈：所有的写请求仍然集中在一个数据库上，CPU、磁盘 I/O 和网络带宽成为瓶颈，无法通过升级硬件线性提升性能。
单点故障风险：这个业务库如果宕机，整个业务模块（如所有订单功能）会完全不可用。

水平分库就是为了根治单个业务库的容量和性能瓶颈。

它是如何工作的？（核心：分片策略）

水平分库的核心在于选择一个合适的分片键（Sharding Key）和分片算法，确保数据能均匀分布。

1. 常用的分片策略

策略	描述	优点	缺点	示例
哈希取模	对分片键（如`user_id`）进行哈希计算，然后对分片总数取模，得到目标分片。	数据分布均匀，负载均衡性好。	扩容困难。增加分片数量时，需要大量数据迁移。	`分片序号 = hash(user_id) % 4`
范围分片	根据分片键的值的范围（如时间、ID 区间）进行分片。	易于扩容，只需在新分片写入新数据。	容易产生数据热点（如最新数据都在一个分片上）。	`create_time < '2023'` 的数据在分片 0，`'2023' <= create_time < '2024'` 的在分片 1
地理分片	根据用户所在地理位置等业务属性分片。	符合业务特征，能优化本地访问。	分布可能不均匀。	华北用户数据存北京机房，华南用户数据存深圳机房
一致性哈希	一个特殊的哈希算法，在扩缩容时仅需迁移少量数据。	扩缩容影响小，数据迁移量少。	实现相对复杂。	常用于缓存集群（如 Redis），数据库分片也有应用

2. 架构与组件

应用程序通常不直接连接多个分片数据库，而是通过一个数据库中间件来访问。这个中间件是水平分库架构的“大脑”。

角色：SQL 代理、路由中心、结果聚合器。
工作流程：
1. 应用向中间件发送一条 SQL（SELECT * FROM orders WHERE user_id = 123）。
2. 中间件解析 SQL，根据user_id = 123和预设的分片规则（如hash(123) % 4 = 1），将 SQL 路由到对应的物理分片（如order_db_1.orders_1）上执行。
3. 中间件接收各个分片返回的结果，进行聚合、排序、分页等处理。
4. 中间件将最终结果返回给应用。
常见中间件：ShardingSphere（应用层）、Mycat（代理层）、Vitess 等。

水平分库的优缺点

优点

极大提升系统容量与性能：从根本上解决了单库存储容量、写并发瓶颈和单表性能问题。
提升系统可用性：单个分片数据库宕机，只影响部分数据和功能，不会导致整个业务模块完全不可用。
良好的可扩展性：理论上可以通过不断增加分片数量来实现近乎无限的线性扩展。

缺点与挑战（复杂性急剧上升）

分布式事务：一个业务逻辑同时操作多个分片时，如何保证所有分片上的数据一致性？这是最大挑战。（方案：Seata、最终一致性）
跨分片查询：ORDER BY ... LIMIT、GROUP BY、JOIN 等操作变得异常复杂，需要在中间件中聚合多个分片的结果，性能损耗大。
全局主键生成：如何避免多个分片产生重复 ID？（方案：Snowflake 雪花算法、Redis、数据库序列）
数据迁移与扩容：初始分片数规划不当，后续扩容（如从 4 个分片扩展到 8 个）会非常痛苦，需要迁移大量数据。
运维复杂度：需要管理大量的数据库实例，监控、备份、恢复等运维工作的复杂度呈指数级增长。

水平分库是数据库架构演进的终极武器，也是最后的手段。 它带来了巨大的性能和容量提升，但也极大地增加了系统的复杂性。它不是为了解决小问题而设计的。

因此，架构师必须谨慎评估：

是否真的必要？ 是否已用尽读写分离、缓存、垂直分库等其他优化手段？
如何选择分片键？ 这决定了数据分布是否均匀，是成功与否的关键。
如何应对挑战？ 必须对分布式事务、全局 ID 等问题有成熟的解决方案。

微服务架构

微服务架构是一种将单一应用程序作为一套小型服务的集合来开发的架构风格。每个服务都围绕特定的业务能力构建（如用户服务、商品服务、订单服务），并可以独立部署、独立运行和独立扩展。服务之间通过轻量级的通信机制（通常是 HTTP/REST 或 RPC）进行协作。

其核心思想是：分而治之，强内聚，弱耦合。

server

为什么需要微服务架构？

在分库分后，虽然数据库能力得到了扩展，但应用层却变成了一个维护的噩梦：

“巨石应用”困境：所有业务代码仍然集中在一个庞大的、单一的应用中（通常称为单体架构）。这个应用需要连接所有拆分后的数据库，代码变得无比复杂和臃肿。
极高的耦合度：修改用户模块的一行代码，可能需要重新构建和部署整个庞大的应用，因为所有模块都紧密耦合在一起。
技术栈僵化：整个系统必须使用统一的技术栈（如 Java Spring），难以引入更合适的新技术（如用 Go 编写高性能的推荐服务，用 Python 编写 AI 服务）。
扩展性差：无法根据业务压力进行细粒度扩展。即使只有商品搜索服务面临高并发，也不得不扩展整个单体应用，造成资源浪费。
团队协作低效：一个大团队维护一个巨无霸代码库，沟通成本高，发布流程复杂，效率低下。

微服务架构通过将应用本身也进行拆分，来从根本上解决上述问题。

架构原理

服务拆分：根据业务边界（领域驱动设计 DDD），将庞大的单体应用拆分为一系列小的、自治的服务。
- 示例：电商系统被拆分为：
  - 用户服务：负责注册、登录、用户信息管理。
  - 商品服务：负责商品管理、类目管理、库存查询。
  - 订单服务：负责下单、订单查询。
  - 支付服务：负责支付流程。
  - 购物车服务：负责购物车管理。
独立部署与运行：每个服务都是一个独立的进程，可以被部署在任何地方。它们拥有自己独立的数据库（或数据库分片），服务之间不能直接访问对方的数据库，只能通过 API 调用。
服务间通信：服务之间通过轻量级的通信机制进行协作，通常是：
- 同步调用：如 HTTP/RESTful API 或 gRPC。适用于需要立即得到结果的场景。
- 异步消息：如通过消息队列（Kafka, RabbitMQ）。适用于解耦和最终一致性的场景。
服务治理：由于服务数量众多，需要一系列基础设施来管理它们，这就是服务网格和云原生技术的用武之地。
- API 网关：所有外部请求的统一入口，负责路由、认证、限流、日志等。
- 服务注册与发现：服务启动后将自己注册到中心（如 Nacos, Consul），并能发现其他服务的位置。
- 配置中心：统一管理所有服务的配置。
- 熔断、降级、限流：防止服务雪崩，提升系统弹性。

微服务架构的优缺点

优点

技术异构性：每个服务可以使用最适合其需求的技术栈，不受其他服务约束。
强内聚，弱耦合：每个服务功能单一，职责清晰，代码更易理解和维护。
独立部署与扩展：每个服务可以独立开发、测试、部署和扩展，极大地提升了交付速度和资源利用率。
故障隔离：单个服务发生故障不会像多米诺骨牌一样导致整个系统崩溃。
提升团队效率：小的、跨功能的团队可以独立负责一个或多个服务的全生命周期（“你构建，你运行”）。

缺点

架构复杂度急剧升高：这是最大的缺点。从单体的一体式架构转变为分布式系统，带来了巨大的复杂性。
运维难度极大：需要管理数十甚至上百个服务，对自动化部署、监控、告警的要求极高。容器化技术（Docker）和容器编排工具（Kubernetes）几乎是微服务的必需品。
分布式系统的挑战：
- 网络延迟和不稳定性：远程调用远比本地调用慢且不可靠。
- 分布式事务：保证跨多个服务的数据一致性极其困难，通常需要放弃强一致性，采用最终一致性方案。
- 故障排查困难：一个请求可能经过多个服务，排查问题需要聚合各个服务的日志（需要引入分布式链路追踪，如 SkyWalking, Zipkin）。
资源开销：每个服务实例都需要额外的内存和 CPU 开销（如每个 Spring Boot 应用启动都需要 JVM）。

总结

微服务架构不是银弹，而是一把双刃剑。它通过将应用拆分为小服务，解决了复杂项目的开发效率和可维护性问题，但同时也引入了分布式系统的所有复杂性。

它的引入通常是这样一个过程：

数据库层面先通过读写分离、垂直分库、水平分库解决了数据容量和性能问题。
随之而来的应用层复杂度和耦合度问题变得不可接受。
于是，微服务架构被引入，将应用按业务拆解，每个微服务独立管理自己的数据和业务，并通过明确的 API 进行协作。

这是一种用运维的复杂性来换取开发的简单性和业务的敏捷性的权衡。只有在业务足够复杂、团队规模较大、且具备成熟的 DevOps 和自动化运维能力时，才应考虑采用微服务架构。

容器编排架构

这是一种利用容器化技术（如 Docker）将应用及其所有依赖项打包成一个标准化的、轻量的、可移植的单元（镜像），然后使用容器编排平台（如 Kubernetes, K8s）来自动化地部署、管理、扩展和运维这些容器化应用的架构模式。

其核心目标是：实现应用的标准化交付和运维的自动化，从而高效地管理由大量微服务组成的复杂系统。

container

为什么需要它？

微服务架构解决了开发和业务敏捷性的问题，但却给运维带来了巨大的灾难：

部署工作量大且复杂：几十上百个微服务，每个都需要配置运行环境、依赖库、启动参数，手动部署效率低下，极易出错。
环境不一致问题：开发、测试、生产环境差异导致“在我这儿是好的”经典问题。
资源隔离与冲突：多个服务部署在同一台机器上，可能因为环境变量、端口、依赖库版本不同而产生冲突。
扩缩容极其麻烦：应对流量高峰时需要快速扩容多个服务实例，流量过去后又要及时缩容以节省成本。手动操作速度慢，且难以精确控制。
资源利用率低：为了应对可能的流量高峰，需要长期闲置大量服务器资源，造成巨大浪费。

容器化与编排技术正是为了解决微服务带来的运维复杂性和资源利用率问题。

架构工作原理

1. 容器化（Docker）

打包：开发者将应用代码、运行时环境、系统工具、系统库和设置一起打包到一个Docker 镜像中。这个镜像是一个轻量级的、可执行的独立软件包。
标准：镜像一旦构建完成，就可以在任何安装了 Docker 引擎的环境中以完全相同的方式运行，彻底解决了环境不一致的问题。
隔离：运行的镜像称为容器。容器之间共享主机操作系统内核，但拥有各自独立的文件系统、网络和进程空间，实现了隔离性，避免了冲突。

2. 容器编排（Kubernetes, K8s）

K8s 是一个生产级别的容器编排系统，可以看作是一个分布式的操作系统，用于管理海量的容器化应用。

核心概念：
- Pod：K8s 的最小调度单元，通常包含一个或多个紧密关联的容器。
- Deployment：定义了 Pod 的期望状态（如需要运行 3 个副本）。K8s 会确保实际状态始终与期望状态一致。
- Service：为一组 Pod 提供一个稳定的网络入口（IP 地址和 DNS 名称），实现负载均衡和服务发现。
工作流程：
1. 用户通过配置文件（YAML）声明应用的期望状态（如：我需要运行 2 个“用户服务”的实例）。
2. 将配置提交给 K8s Master（主节点）。
3. K8s 调度器会智能地决定将 Pod 部署到哪个Node（工作节点）上。
4. 各个 Node 上的Kubelet代理接收指令，从镜像仓库拉取镜像并启动容器。
5. 如果某个容器宕机，K8s 会自动重启它。如果整个 Node 宕机，K8s 会在其他 Node 上重新创建Pod。
6. 当需要扩容时，只需修改配置文件中的副本数量，K8s 就会自动创建新的 Pod 实例。

容器编排架构的优缺点

优点

部署、运维简单快速：一条命令就可以完成几百个服务的滚动更新、扩缩容、版本回滚，实现了完全的自动化运维。
环境标准化与隔离：容器镜像保证了环境一致性，从根本上解决了“开发测试生产环境不一致”的问题。容器间隔离性好，无冲突。
高可用性与自愈能力：Pod 故障后会自动重启，节点故障后 Pod 会被自动迁移到健康节点，极大提升了系统的SLA（服务等级协议）。
高效的资源利用与弹性伸缩：
- 可以混合部署多种服务，充分利用服务器资源。
- 可以基于 CPU/内存使用率或自定义指标（如 QPS）进行自动扩缩容，真正做到按需使用资源，成本优化。

缺点

学习曲线陡峭：技术栈非常复杂（Docker, K8s, Helm, Prometheus 等），对开发和运维团队的技术要求极高。
系统复杂性增加：引入了一个分布式的管理平台（K8s 集群），其本身的搭建、维护和故障排查就非常复杂。
监控和日志挑战：大量的、动态变化的容器实例使得传统的监控和日志收集方式失效，必须引入更先进的云原生监控体系（如 Prometheus + Grafana）和集中式日志收集（如 ELK）。
网络模型复杂：容器网络涉及 Overlay、CNI 等概念，配置和调试相对复杂。
成本问题（自建时）：自建和维护一个高可用的 K8s 集群需要投入大量的人力和机器成本。这也是为什么很多公司选择直接使用云厂商提供的托管 K8s 服务（如阿里云 ACK、腾讯云 TKE、Amazon EKS）的原因，它们极大地降低了管理控制平面的负担。

总结

容器化与容器编排架构是微服务架构的“最佳伴侣”。它并不是一个业务架构，而是一个支撑性的基础设施架构。

它通过将应用容器化来解决环境一致性和隔离性问题，通过编排来解决微服务部署、运维和管理的自动化问题。

这套架构的出现，使得大规模部署和管理微服务从一种“痛苦的折磨”变成了“可实现的工程实践”，是现代云计算和互联网公司技术栈的基石。它的引入，标志着企业的研发运维体系真正走向了云原生时代。