炸！业界难题，跨库分页的几种常见方案

发布时间：2019-05-16 03:52:00 所属栏目：建站来源：58沈剑

导读：为什么必要研究跨库分页? 互联网许多营业都有分页拉取数据的需求，譬喻：微信动静过多时，拉取第N页动静; 京东下单过多时，拉取第N页订单; 赏识58同城，查察第N页帖子; 这些营业场景对应的动静表，订单表，帖子表分页拉取需求，都有这样一些配合的特点：

副问题[/!--empirenews.page--]

为什么必要研究跨库分页?

互联网许多营业都有分页拉取数据的需求，譬喻：

微信动静过多时，拉取第N页动静;
京东下单过多时，拉取第N页订单;
赏识58同城，查察第N页帖子;

炸！业界困难，跨库分页的几种常见方案

这些营业场景对应的动静表，订单表，帖子表分页拉取需求，都有这样一些配合的特点：

有个营业主键id, msg_id, order_id, tiezi_id;
分页凭证非营业主键id来排序，营业中常常凭证时刻time来排序order by;

在数据量不大时，怎样来实现跨库分页的需求呢?

在排序字段time上成立索引;
操作SQL提供的offset/limit就能实现;

譬喻：

select * from t_msg order by time offset 200 limit 100; 
select * from t_order order by time offset 200 limit 100;  
select * from t_tiezi order by time offset 200 limit 100;

画外音：此处假设一页数据为100条，均拉取第3页数据。

为什么会有分库的需求?

高并发大流量的互联网架构，一样平常通过处事层来会见数据库，跟着数据量的增大，数据库必要举办程度切分，分库后将数据漫衍到差异的数据库实例(乃至物理呆板)上，以到达低落数据量，增进实例数的扩容目标。

一旦涉及分库，逃不开“分库依据” patition key，要行使哪一个字段来程度切分数据库呢?

大部门的营业场景，会行使营业主键id。

确定了分库依据 patition key 后，接下来怎么确定分库算法呢?

大部门的营业场景，会行使营业主键id取模的算法来分库，这样的甜头是：

即可以或许担保每个库的数据漫衍是匀称的;
又可以或许担保每个库的哀求漫衍是匀称的;

其实是简质朴现负载平衡的好要领，此法在互联网架构中应用颇多。

一个更详细的例子：

炸！业界困难，跨库分页的几种常见方案

用户库user，程度切分后变为两个库：

分库依据patition key是uid;
分库算法是uid取模：uid%2余0的数据会落到db0，uid%2余1的数据会落到db1;

数据库举办了程度切分之后，假如营业要查询“最近注册的第3页用户”，即跨库分页查询，该怎样实现呢?

单库上，可以

select * from t_user order by time offset 200 limit 100;

酿成两个库后，分库依据是uid，排序依据是time，数据库层失去了time排序的全局视野，数据漫衍在两个库上，此时该怎么办呢?

怎样满意“超过多个程度切分数据库，且分库依据与排序依据为差异属性，并必要举办分页”的查询需求，实现：

select * from T order by time offset X limit Y;

这类跨库分页SQL，是后文将要接头的技能题目。

方案一：全局视野法

炸！业界困难，跨库分页的几种常见方案

如上图所述，处事层通过uid取模将数据漫衍到两个库上去之后，每个数据库都失去了全局视野，数据凭证time局部排序之后，不管哪个分库的第3页数据，都不必然是全局排序的第3页数据。

那到底哪些数据才是全局排序的第3页数据呢?

必要分三种环境接头。

(1) 极度环境，两个库的数据完全一样

炸！业界困难，跨库分页的几种常见方案

假如两个库的数据完全沟通，只必要每个库offset一半，再取半页，就是最终想要的数据(如上图中粉色部门数据)。

(2) 极度环境，功效数据来自一个库

炸！业界困难，跨库分页的几种常见方案

也也许两个库的数据漫衍及其不平衡，譬喻db0的全部数据的time都大于db1的全部数据的time，则也许呈现：一个库的第3页数据，就是全局排序后的第3页数据(如上图中粉色部门数据)。

(3)一样平常环境，每个库数据各包括一部门

炸！业界困难，跨库分页的几种常见方案

正常环境下，全局排序的第3页数据，每个库城市包括一部门(如上图中粉色部门数据)。

因为不清晰到底是哪种环境，以是必需：

每个库都返回3页数据;
所获得的6页数据在处事层举办内存排序，获得数据全局视野;
再取第3页数据，便可以或许获得想要的全局分页数据。

再总结一下这个方案的步调：

(1) 将SQL语句改写，即

order by time offset X limit Y;

改写成

order by time offset 0 limit X+Y;

(2)处事层将改写后的SQL语句发往各个分库;

(3)假设共分为N个库，处事层将获得N*(X+Y)条数据;

(4)处事层对获得的N*(X+Y)条数据举办内存排序;

(5)内存排序后再取偏移量X后的Y笔记录，就是全局视野所需的一页数据;

全局视野法有什么利益?

通过处事层修改SQL语句，扩大数据召回量，可以或许获得全局视野，营业无损，精准返回所需数据。

全局视野法的弱点呢?

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录