别在用offset和limit分页了

星图妙赏 2021-01-21 10:56:24

终于要对MySQL优化下手了,本文将对分页进行优化说明,希望可以得到一个合适你的方案

前言

分页这个话题已经是老生常谈了,但是有多少小伙伴一边是既希望优化的自己的系统,另一边在项目上还是保持自己独有的个性。

优化这件事是需要自己主动行动起来的,自己搞测试数据,只有在测试的路上才会发现更多你未知的事情。

本文咔咔也会针对分页优化这个话题进行解读。

一、表结构

这个数据库结构就是咔咔目前线上项目的表,只不过咔咔将字段名改了而已,还有将时间字段取消了。

数据库结构如下

CREATE TABLE `tp_statistics` (  `ss_id` int(11) NOT NULL AUTO_INCREMENT,  `ss_field1` decimal(11,2) NOT NULL DEFAULT '0.00',  `ss_field2` decimal(11,2) NOT NULL DEFAULT '0.00',  `ss_field3` decimal(11,2) NOT NULL DEFAULT '0.00',  PRIMARY KEY (`ss_id`)) ENGINE=InnoDB AUTO_INCREMENT=3499994 DEFAULT CHARSET=utf8 COLLATE=utf8mb4_general_ci ROW_FORMAT=COMPACT;

根据以上信息可以看到目前表里边的数据有350万记录,接下来就针对这350W条记录进行查询优化。

二、初探查询效率

先来写一个查询的SQL语句,先看一下查询耗费的时间。

根据下图可以看到查询时间基本忽略不计,但是要注意的是limit的偏移量值。

于是我们要一步一步的加大这个偏移量然后进行测试,先将偏移量改为10000

可以看到查询时间还是非常理想的。

为了节省时间咔咔将这个偏移量的值直接调整到340W。

这个时候就可以看到非常明显的变化了,查询时间猛增到了0.79s。

出现了这样的情况,那肯定就需要进行优化了,拿起键盘就是干。

三、分析查询耗时的原因

提到分析SQL语句,必备的知识点就是explain,如果对这个工具不会使用的可以去看看MySQL的基础部分。

根据下图可以看到三条查询语句都进行了表扫描。

都知道只要有关于分页就必存在排序,那么加一个排序再来看一下查询效率。

然后在进行对排序的语句进行分析查看。

通过这里看到当使用了排序时数据库扫描的行数就是偏移量加上需要查询的数量。

此时就可以知道的是,在偏移量非常大的时候,就像上图案例中的limit  3400000,12这样的查询。

此时MySQL就需要查询3400012行数据,然后在返回最后12条数据。

前边查询的340W数据都将被抛弃,这样的执行结果可不是我们想要的。

咔咔之前看到相关文章说是解决这个问题的方案,要么直接限制分页的数量,要么就优化当偏移量非常大的时候的性能。

如果你都把本文看到了这里,那怎么会让你失望,肯定是优化大偏移量的性能问题。

四、优化

既然提到了优化,无非就那么俩点,加索引,使用其它的方案来代替这个方案。

咔咔提供的这条数据表结构信息,完全可以理解为就是图书馆的借阅记录,字段的什么都不要去关心就可以了。

对于排序来说,在这种场景下是不会给时间加排序的,而是给主键加排序,并且由于添加测试数据的原因将时间字段给取消了。

接下来使用覆盖索引加inner join的方式来进行优化。

select ss_id,ss_field1,ss_field2,ss_field3 from tp_statistics inner join ( select ss_id from tp_statistics order by ss_id limit 3000000,10) b using (ss_id);

从上图可以看到查询时间从0.8s优化到了0.4s,但是这样的效果还是不尽人意。

于是只能更换一下思路再进行优化。

既然优化最大偏移量这条路有点坎坷,能不能从其它方面进行入手。

估计有很多同学已经知道咔咔将要抛出什么话题了。

没错,就是使用where > id  然后使用limit。

先来测试一波结果,在写具体实现方案。

根据上图可以看到这种方式是十分可行的,分页在300W条数据以后的查询时间也基本忽略不计。

那么这种方案要怎么实现呢!

五、方案落地

其实这个方案真的很简单,只需要简单的转换一下思路即可。

当客户端第一次获取数据的时候就正常传递offset、limit俩个参数。

首次返回的数据就使用客户端传递过来的offset、limit进行获取。

当第一次的数据返回成功后。

客户端第二次拉取数据时这个时候参数就发生改变了,就不能再是offset、limit了。

此时应该传递的参数就是第一次获取的数据最后一条数据的id。

此时的参数就为last_id、limit。

后台获取到last_id后就可以在sql语句中使用where条件 <  last_id

咔咔这里给的情况是数据在倒叙的情况下,如果正序就是大于last_id即可。

接下来咔咔使用一个案例给大家直接明了的说明。

实战案例

如下就是将要实战演示的案例,例如首次使用page、limit获取到了数据。

返回结果的最后一条数据的id就是3499984

此时如果在获取第二条记录就不是使用offset、limit了,就是传递last_id和limit了。

如下图

此时就是使用的where条件来进行直接过滤数据,条件就是id小于上次数据的最后一条id即可。

时间对比

假设现在要获取最后一条数据

没有优化之前

优化之后可以明显的看到查询时间的变化

六、总结

关于limit优化简单几句话概述一下。

数据量大的时候不能使用offset、limit来进行分页,因为offset越大,查询时间越久。

当然不能说所有的分页都不可以,如果你的数据就那么几千、几万条,那就很无所谓,随便使用。

落地方案就是咔咔上边的方案,首次使用offset、limit获取数据,第二次获取数据使用where条件到第一次数据最后一条id即可。

坚持学习、坚持写博、坚持分享是咔咔从业以来一直所秉持的信念。希望在偌大互联网中咔咔的文章能带给你一丝丝帮助。我是咔咔,下期见。

13 阅读:15799
评论列表
  • 2021-01-21 23:58

    真能扯

    老虎羊 回复:
    这个方法尤其在移动端还是很好用的
    原来是咔咔 回复:
    是吗?大佬请赐教
    原来是咔咔 回复: 老虎羊
    还是有明白人的
  • 2021-01-22 13:03

    业务有损,不能跳页

    原来是咔咔 回复:
    业务无损,不许跳页
  • 2021-01-21 23:59

    这种做法可以提给mysql,让他们做offset的兼容优化提升性能,我们下游业务方尽量使用统一标准,各个关键字用法单一化。尽量少出现hack用法。

  • 2021-01-22 08:01

    这个真鸡肋,除非主键连续,否则没办法过去指定页数据

    骆振富 回复:
    你还是没有get到问题,主键类似雪花id
    原来是咔咔 回复:
    前端传最后一条数据id
    原来是咔咔 回复:
    场景问题啊!不是根据页码, 我们的场景只是下滑
  • 2021-01-22 00:50

    这种方案早就不是新奇的东西了,目前问题是分页不能显示页码了,只能上一页下一页

    随缘™ 回复:
    我阻止不了,不过现在用户的手机应该是可以阻止的,而且这种情况在前几万条数据的时候体现不出来,不觉得啥手机扔几万条数据缓存还能很爽的跑,理论很美,鸡肋玩意😒
    原来是咔咔 回复:
    业务需求不一样,我们就没有下滑
    浅缘 回复: 随缘™
    可怜。游标翻页是行内规范了都。这都要犟吗?redis的查询都这个了。莫不是redis都没用过吗?还有就是积沙成塔。。你可能只翻25页一个人。可是有10000个人在翻下一页。你数据库自己都骂你蠢
  • 2021-01-21 22:19

    这要求id要有序且结果按id排序 而且必须能够不跳也 es也有同样的问题 最好的办法还是限制页数 加条件 对数据分片 比如时间

    H.CAAHN 回复:
    这有啥不可靠?你是不信任前端传的参数还是咋?既然分页是给前端用的,不信任它信任谁?
    曾经单纯过 回复: 原来是咔咔
    需要根据别的条件排序呢?排序这个东西,只能说是对应的场景使用
    原来是咔咔 回复:
    id主键自增啊!
  • 2021-01-22 10:32

    看情况吧,pc端貌似不好用。移动端可能也不行。 翻滚翻页估计可以。 但是翻滚几百万数据是不是不适合场景

  • oumg 4
    2021-01-29 09:29

    建索引呢

    原来是咔咔 回复:
    主键啊
  • 2021-03-05 15:42

    这种只适合特殊情况

    原来是咔咔 回复:
    为什么呢
  • 2021-03-26 07:19

    数据量太大,要从时间区间获取数据

  • 这么大数据量情况下,也基本不用自增id了

    原来是咔咔 回复:
    大数据下是限制页数的
  • 2021-02-05 20:47

    看不懂为什么这都有人喷,大批量跑批时候Oracle还能用游标查询,mysql用ScrollQuery这是唯一方案吧,前端页面优先用时间段过滤,有些历史数据比较多,关心数据比较少的还能状态多选过滤,但业务层面没法处理时候,牺牲一部分用户体验,去掉分页页码,改用ScrollQuery,也是个比较通用的兜底方案啊

    原来是咔咔 回复:
    我也不懂
    原来是咔咔 回复:
    属实有点不明白,新年快乐
  • 2021-03-21 21:05

    在厕所学到了新知识,感谢

    原来是咔咔 回复:
    很好
  • 2021-03-24 23:57

    这个话题有点伪,数量太大才需要这么做,但这么做了又只能一页一页翻,不能跳页,这么大的数据又不能跳页想坑死用户吗

    原来是咔咔 回复:
    移动端,老哥
  • He!! 2
    2021-01-22 00:33

    数据量太大的时候这个方案不错

    原来是咔咔 回复:
    是的
  • 2021-01-22 00:22

    还行

    原来是咔咔 回复:
    感谢
  • 2021-02-05 17:17

    下滑滑到猴年马月

    原来是咔咔 回复:
    这不就滑到牛年了
    原来是咔咔 回复:
    好的
  • 2021-02-19 08:33

    以前mongo库这么干过,数据量大,但是不能跳页过于恶心

  • 2021-03-12 12:37

    那请问多表连接的时候如何优化

    花若尽 回复: 原来是咔咔
    你这种方法只适合主键自增数字类型,多表连接且不讨论id以哪一个为标准,很多业务中id都是字符串类型的序列号。这种方式局限性太大了
    原来是咔咔 回复:
    一样的啊!有什么区别?
  • 2021-03-24 00:14

    就是业务妥协法,没啥新东西。按别的字段排个序就完犊子了

    原来是咔咔 回复:
    对的
  • 2021-03-28 22:37

    早就有了。存在的问题只有上一页和下一页,不能跳页。

    原来是咔咔 回复:
    嗯呐
  • 2021-01-22 15:49

    不用limit分页,我还想半天不用这个还能用什么,最后还是用的limit[汗]

    原来是咔咔 回复:
    分页不用limit 用什么? 说的是offset
  • 2021-02-08 17:42

    跨页你给我id?

    原来是咔咔 回复:
    文章看仔细再来评论,也不迟
  • 2021-03-02 09:25

    这种方法建立在数据不经常删除的情况下,很好

    原来是咔咔 回复:
    是的
  • 2021-03-06 08:10

    最优方案 把数据查询出来,缓存起来,查一次用n次,性能更nice 你要说没内存,也没瑞得思,,,这么小的系统你随便搞吧,没问题的

    老张有话说 回复:
    得考虑数据的一致性问题,又一个坑出现
    原来是咔咔 回复:
    没那必要,一般都是限制页数的
  • 2021-04-13 01:32

    额嗯嗯,只能说适用于特殊场景吧,不过也是一个不错的思路。。。

  • 2021-01-22 07:47

    你别再写错别字了

    原来是咔咔 回复:
    嗯呐
  • 2021-01-31 08:48

    理想状态是好方案,但网络信号不好会有很大bug

    原来是咔咔 回复:
    是的呢
    原来是咔咔 回复:
    信号不好,就不是bug问题了
  • 2021-02-06 19:57

    这样存在数据丢失的风险,一般查询到还设计到状态,如果第一次查询maxid=10,然后在你下滑的瞬间,id<10的某一条记录状态改变了,符合查询条件了,而你却没有返回它

    原来是咔咔 回复:
    正常分页那不也存在这样的情况
  • 2021-03-20 13:32

    要是ID不是顺序自增或者多库联查,你这方案不行。

    原来是咔咔 回复:
    那对
  • 2021-03-26 23:09

    中间有ID被冻结而不连贯呢

  • 2021-04-06 22:31

    有本事来个多条件分组排序分页查询看看。

    原来是咔咔 回复:
    这有什么可犟的,那写终端用C写的,你试试用PHP写,不同场景使用不同方案啊!真是的