Rate Limiter

例如密码输错次数限制

Scenario

问:对于一天来说，有86400秒，检查一次就要 86k 的 cache 访问，如何优化?
答:分级存储。
- 之前限制以1分钟为单位的时候，每个bucket的大小是1秒，一次查询最多60次读
- 现在限制以1天为单位的时候，每个bucket以小时为单位存储，一次查询最多24次读
- 同理如果以小时为单位，那么每个bucket设置为1分钟，一次查询最多60次读
问:上述的方法中存在误差，如何解决误差?
- 首先这个误差其实不用解决，访问限制器不需要做到绝对精确。
- 其次如果真要解决的话，可以将每次log的信息分别存入3级的bucket(秒，分钟，小时)
- 在获得最近1天的访问次数时，比如当前时刻是23:30:33，加总如下的几项:
  - 在秒的bucket里加和 23:30:00 ~ 23:30:33(计34次查询)
  - 在分的bucket里加和 23:00 ~ 23:29(计30次查询)
  - 在时的bucket里加和 00 ~ 22(计23次查询)
  - 在秒的bucket里加和昨天 23:30:34 ~ 23:30:59 (计26次查询)
  - 在分的bucket里加和昨天 23:31 ~ 23:59(计29次查询)
  - 总计耗费 34 + 30 + 23 + 26 + 29 = 142 次cache查询，可以接受

自身为一个独立的Application，无法更细分

基本全是写操作，读操作很少
需要持久化存储(没memcached什么事儿了)
SQL or NoSQL or File System?
- 其实都可以，业界的一些系统比如Graphite用的是文件系统存储 ,这里我们假设用NoSQL存储吧
用NoSQL的话，key 就是 tiny url 的 short_key，value是这个key的所有访问记录的统计数据
- 你可能会奇怪为什么value可以存下一个key的所有访问数据(比如1整年)
- value的结构 , 核心点是:
  - 今天的数据，我们以分钟为单位存储
  - 昨天的数据，可能就以5分钟为单位存储
  - 上个月的数据，可能就以1小时为单位存储
  - 去年的数据，就以周为单位存储
  - 用户的查询操作通常是查询某个时刻到当前时刻的曲线图 , 也就意味着，对于去年的数据，你没有必要一分钟一分钟的进行保存
- 多级Bucket的思路，是不是和Rate Limiter如出一辙!

问:2k的QPS这么大，往NoSQL的写入操作也这么多么? •
- 答:不是。可以先将最近15秒钟的访问次数 Aggregate 到一起，写在内存里
- 每隔15秒将记录写给NoSQL一次，这样写QPS就降到了100多
问:如何将将昨天的数据按照5分钟的bucket进行整理
- 答:对老数据进行瘦身
  - 当读发现一个key的value比较多的时候，就触发一次“瘦身”操作
  - 瘦身操作把所有老的记录进行 Aggregate
  - 这些旧数据的记录的专业名词叫做:Retention