面试官嘲笑我,这你都不会?

我是阿沐
• 阅读 2168

01 背景

大家好,我是阿沐!你的收获便是我的喜欢,你的点赞便是对我的认可。

多年前刚毕业出来工作的时候,那个时候刚毕业对缓存的使用基本上可以说很少涉及,在大学做课件设计或者小型项目也都是用不到缓存,再者说了我大学是做嵌入式写汇编语言和c语言的。

当时出实习去找工作并不顺利,面试官问了知道redis和memcached区别嘛?额,我当时虽然也做了一些功课,就是恶补redis基础以及应用,但是并不是很熟悉;就支支吾吾地回答个一知半解。然后又问我,假如公司现在做一个app,app有签到功能,你该怎么做?

“这很难嘛?”,直接对着面试官说用mysql存储就可以啦。

“目前我们有20多万的活跃用户,你确定只用mysql存储嘛?你就不怕把我们数据库搞炸了?”,面试官很费解的看着我,心里好像在对我说,真是个菜鸟。这么简单就不会?

正好最近有小伙伴问了这关于签到方面的知识点,这里就来说一说!

02 位图是什么梗?

官网说:位图并不是一个真实的数据类型,而是定义在字符串类型上的面向位的操作集合。位图的最小单位是比特(bit),每一个bit的值只能是0或者1。redis中字符串限制最大为512M,所以位图中最大可容纳2^32(42亿)个不同的位。

可以将位图看做是一个bit数组,数组的下标就是偏移量

它的优点:内存开销小,效率高且操作简单。

面试官嘲笑我,这你都不会?

03 我们用位图能做什么?

  • 统计用户每日签到(最最最常用的)
  • 统计日活/越活活跃用户(扩展:精确数据:用hivespark统计;非精确数据,用HyperLogLog)
  • 用户在线状态实时统计(1亿用户大概:需要12MB的存储空间)
  • 数据双写去重
  • 视频、文章等等的已读或未读状态

04 位图有哪些指令可以使用?

1、查找select指令操作:

getbit指令:getbit key offset 获取指定偏移量上的位(bit);时间复杂度O(1)。

注意:

当key不存在或者offset比字符串值的长度大时,则返回0。

bitcount指令:bitcount key [start] [end]获取指定范围内比特位的数量;时间复杂度O(n)。

注意:

当key不存在时会被当成是空字符串来处理,所以返回值为0。

bitpos指令:bittops key bit [start] [end] 获取位图中第一个值为bit的二进制位的位置;时间复杂度: O(n),其中n为位图包含的二进制位数量。

2、添加insert指令操作:

setbit指令:setbit key offset value 设置key所储存的字符串值,或清除指定偏移量上的位(bit);时间复杂度:O(1)。

注意:

1、位的设置或清除取决于value参数,0或者1。

2、当key不存在时,自动生成一个新的字符串值。

3、位数组会自动伸展扩充,offet偏移量设置超出现现有的内容范围,为确保value值在指定偏移量上,会通过扩容,空白位置用0填充补上,

4、offet参数值必须大于或者等于0,小于2^32(字符串最大值是512M)

下面是我整理哈希类型命令的时间复杂度,大家可以参考此表:

指令 时间复杂度
getbit key offset O(1)
bitcount key [start] [end] O(n),n是位数量的大小
setbit key offset value O(1)
bittops key bit [start] [end] O(n),n是二进制位数量

05 位图实践系列

我们要实现的功能是最最最常用的签到,实现功能如下:

  • 1、签到打卡
  • 2、检测某一天是否打卡(因为大部分app只会存在当日是否签到按钮)
  • 3、获取用户某月打卡记录列表
  • 4、统计用户某月打卡总次数
  • 5、获取用户某月连续打卡次数
  • 6、用户补签

我们首先创建一个关系型的用户打卡信息数据表,存储用户的打卡信息,这里强调一点:

看过网络上很多人只用redis才存储用户打卡信息,并不实际落地处理,最奇怪的是别人问,假如redis挂了或者怎样,运营或者产品想要获取数据分析,我们该怎么办?

有一位博主仁兄回答是:“redis高可用、redis持久化、后台写一个查询缓存接口,这些你不会嘛?”,下面评价:博主是认真回答的嘛?来逗我们玩呢?我也是笑了笑.....

说一说建表记录的原因:

1、在大数据时代,任何有价值的信息都要收集起来,跟用户活跃度DAU相关的都是比较重要的

2、跟用户相关联的,产品营运必定会需要这些数据来分析用户行为,认为签到送礼带来的收益

3、不能过度的去依赖缓存,一旦缓存出问题或者崩盘,数据丢失都是一个大问题,用户的反馈投诉极具增加

4、用户存在质疑时,可以快速通过落地数据进行排查问题

5、缓存出现问题时,可以通过数据库的记录进行数据回源,保证数据一致

CREATE TABLE `mumu_sign_202105` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键自增ID',
  `user_id` varchar(255) NOT NULL DEFAULT '' COMMENT '用户昵称',
  `sign_date` date NOT NULL DEFAULT '0000-00-00' COMMENT '签到时间',
  `create_at` int(10) NOT NULL DEFAULT '0' COMMENT '创建时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_uid_date` (`user_id`,`sign_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户信息基础表';

大家看到这个表名是不是很奇怪为啥带上_202105呢,主要是这里用了按月分表的原理,因为用户量大,尽可能的保证一张表的数据在500w一下,当然有的性能比较好1000以上优化之后速度也是杠杠的。

不过建议还是按月分表,每个月度结束之后,数据可以同步给hive、es、sphinx都可以,我们只需要保证半年内的表数据,其余可以用完删除即可。

所以每当我们设计表或者做一项功能,一定要考虑预估量以及为什么要这样做,能带来的效益是什么?这样你会变的越来越优秀,思维逻辑越来越缜密。

insert into `mumu_user` (`user_id`, `sign_date`,`create_at`) VALUES
('10001','2021-04-22', unix_timestamp()),
('10001','2021-04-24', unix_timestamp()),
('10001','2021-04-25', unix_timestamp()),
('10001','2021-04-26', unix_timestamp()),
('10001','2021-04-30', unix_timestamp());

那么下面我们开始代码逻辑梳理:

① 签到打卡系列
/**
 * @desc 签到
 * @param string $date
 * @return int
 */
public function signIn($date = '')
{
    //获取当月用户签到的缓存key
    $key = $this->getKey($date);

    // this->getCurrentDay 获取当日是本月的第几天并且减去1就是设置位图的下标
    return $this->redis->setBit($key, $this->getCurrentDay($date), 1);
}

require_once  './Bitmap.php'; //引入位图类

$user_id = 1001; //传入用户ID

$date = "2021-04-24"; //传入指定的签到日期

$bitmap = new Bitmap($user_id); //实例化位图类

echo $bitmap->signIn($date); //输出1

-- 终端操作
localhost:6379> SETBIT user:sign:1001:202104 23 1
(integer) 0

是不是看起来超级简单,无非就是使用setbit指令来给用户存储签到状态为1。记住这里写入缓存之前一定要先插入数据表保证数据库落地成功,聪明的你可能在表中看到了设置的唯一键,目的是保证一个用户每天的只有一次签到记录。

② 检测某一天是否已打卡
/**
 * @desc 判断用户在某一天是否签到
 * @param string $date
 * @return int
 */
public function judgeUserSign($date = '')
{
    $key = $this->getKey($date);

    return $this->redis->getBit($key, $this->getCurrentDay($date));
}

require_once  './Bitmap.php';

$user_id = 1001;

$date = "2021-04-24";

$bitmap = new Bitmap($user_id);

echo $bitmap->judgeUserSign($date);// 输出值为1

-- 终端操作
localhost:6379> GETBIT user:sign:1001:202104 23 //这里23是指位图下标,因为是从0开始,所以存储时减一操作了 变成了23
(integer) 1
localhost:6379> GETBIT user:sign:1001:202104 24 //这里实际查询的是4月25号是否签到
(integer) 0
③ 获取用户某月打卡记录列表
/**
 * @desc 获取用户本月签到的记录列表
 * @param string $date
 * @return mixed
 */
public function getUserAllSign($date = '')
{
    // 获取本月或者指定月的签到缓存key
    $key = $this->getKey($date);

    // 很遗憾 本地reddi并没有支持这个函数
    $result = $this->redis->bitField($key); // 正常这里应该返回的是数组 我这里使用不了 相当于模拟

    // 存储本月的签到结果集
    $list = [];

    // 获取指定月的月数
    $days = $this->getMonthDays($date);

    // 从低位到高位遍历,0表示未签到;1表示已签到
    for ($i = $days; $i > 0; $i--) {
        // 本月已经循环完直接退出
        if ($i < 0) break;
        // 定义当前的日期是多少
        $local_date = date('Y-m') . '-' . $i;

        // 右移再左移,如果不等于自己说明最低位是 1,表示已签到 
        $flag = ($result >> 1 << 1) != $result ? true : false;

         // 如果已签到,添加标记为1,否则为0
        $list[$local_date] = $flag ? 1 : 0;

         // 然后右移一位重新赋值计算
        $result >>= 1;
    }

    return $list;
}

require_once  './Bitmap.php';

$user_id = 1001;

$date = "2021-04-24";

$bitmap = new Bitmap($user_id);

$result = $bitmap->getUserAllSign($date);

var_dump($result);

//执行结果集
array(30) {
  ["2021-04-30"]=>
  int(0)
  ["2021-04-29"]=>
  int(0)
  ["2021-04-28"]=>
  int(0)
  ["2021-04-27"]=>
  int(0)
  ["2021-04-26"]=>
  int(0)
  ["2021-04-25"]=>
  int(0)
  ["2021-04-24"]=>
  int(1)
  ["2021-04-23"]=>
  int(0)
  ["2021-04-22"]=>
  int(0)
  ["2021-04-21"]=>
  int(0)
  ["2021-04-20"]=>
  int(0)
  ["2021-04-19"]=>
  int(0)
  ["2021-04-18"]=>
  int(0)
  ["2021-04-17"]=>
  int(0)
  ["2021-04-16"]=>
  int(0)
  ["2021-04-15"]=>
  int(0)
  ["2021-04-14"]=>
  int(0)
  ["2021-04-13"]=>
  int(0)
  ["2021-04-12"]=>
  int(0)
  ["2021-04-11"]=>
  int(0)
  ["2021-04-10"]=>
  int(0)
  ["2021-04-9"]=>
  int(0)
  ["2021-04-8"]=>
  int(0)
  ["2021-04-7"]=>
  int(0)
  ["2021-04-6"]=>
  int(0)
  ["2021-04-5"]=>
  int(0)
  ["2021-04-4"]=>
  int(0)
  ["2021-04-3"]=>
  int(0)
  ["2021-04-2"]=>
  int(0)
  ["2021-04-1"]=>
  int(0)
}
//我们再看下终端执行的结果
localhost:6379> BITFIELD user:sign:1001:202104 get u30 0
1) (integer) 64

注意2021-04-24这日期是我们上面设置签到了,返回的64这个是二进制数据:0100 0000 这样是不是就很清晰了,表示24号签到了

大家是不是有点疑问,为啥没有支持bitField指令,redis在3.2版本之后就新增了这个强大的指令bitfield。r如果没有这个指令的出现,估计上面的代码就要缓存通过管道命令批量获取几十天的数据了。但是有了它就完全不是一个概念,它一条命令就可以完成所有值获取。普及下bitfield命令:

官方文档:
BITFIELD key [GET type offset] [SET type offset value] [INCRBY type offset increment] [OVERFLOW WRAP|SAT|FAIL] 意思是:中括号的意思是指支持它的子命令;get、set、incrby

时间复杂度:O(1)

举个例子解析:
bitfield key get u8 0 
1、key指我们需要操作的缓存key
2、get是bitfield的子命令 用来select
3、u8表示无符号数+30位整形位数(i8表示有符号数)
4、0表示返回指定的位偏移量

科普一下:所谓的无符号数是指非负数,没有符号位置,获取的位数组全部都是值;无符号数是指一个负数,获取到的值的第一位是符号位,剩下的才是可用的值。大家想了解的话,可以看看计算机组成原理在bibi就可以看的。

④ 获取用户当月打卡总数
/**
 * @Desc 获取用户当月打卡总数
 * @param string $date
 * @return int
 */
public function getSumSignCount($date = '')
{
    $key = $this->getKey($date);

    return $this->redis->bitCount($key);
}
$bitmap = new Bitmap($user_id);

$result = $bitmap->getSumSignCount($date);

var_dump($result); //结果输出1  因为我们4月份就打卡了一天

//终端执行
localhost:6379> BITCOUNT user:sign:1001:202104
(integer) 1
⑤ 获取用户连续签到次数
/**
 * @desc 获取用户连续签到的次数
 * @param string $date
 * @return int
 */
public function getContinuousSignCount($date = '')
{
    $key = $this->getKey($date);

    // 获取今天天数
    $days = $this->getCurrentDay($date);

    //// 获取用户从当前日期开始到 1 号的所有签到状态  不过很遗憾 本地reddi并没有支持这个函数
    $result = $this->redis->bitField($key, 'u' . $days, 0); // 正常这里应该返回的是数组

    // 连续签到计数器总数
    $signCount = 0;

    $value = isset($result[0]) ? $result[0] : 0;

    // 通过位移计算连续签到次数
    for ($i = $days; $i > 0; $i--) // i 表示位移操作次数
    {
        if ($i < 0) break; //超出则终止循环

        // 先右移再左移,如果等于自己说明最低位是 0,表示未签到
        if ($value >> 1 << 1 == $value) { //存在用户当天还未签到,所以要排除掉
            // 低位 0 且非当天说明连续签到中断了
            if ($i != $days) break;
        } else {
            // 如果不等于自己说明最低位是1,表示已经签到
            $signCount++;
        }

        // 右移一位并重新赋值,相当于把最低位丢弃一位然后重新计算
        $value >>= 1;
    }
    return $signCount;
}

$bitmap = new Bitmap($user_id);

$result = $bitmap->getContinuousSignCount($date);

var_dump($result); //执行结果 只有2次连续签到 后面我设置了 20号 24号签到了
//终端执行
localhost:6379> BITFIELD user:sign:1001:202104 get u25 0
1) (integer) 22

这个连续签到次数主要是考验大家对二进制的位运算的熟练程度,知道如何进行位运算,这样就能更好地知道签到如何使用。

科普下左移右移:

$a << $b (左移) 将 $a 中的位向左移动 $b 次(每一次移动都表示“乘以 2”);左移时右侧以零填充,符号位被移走意味着正负号不被保留。

$a >> $b (右移) 将 $a 中的位向右移动 $b 次(每一次移动都表示“除以 2”);右移时左侧以符号位填充,意味着正负号被保留。

⑥ 用户补签
/**
 * @desc 用户补签
 * @param string $date
 * @return bool|int
 */
public function rebuildSign($date = '')
{
    $key = $this->getKey($date);

    // 先检测当前用户这一天是否已经签到
    if ($this->judgeUserSign($date)) return false;

    return $this->signIn($date);
}
//这个就很简单了,大家可以自己操作一下

位图实战代码仓库地址:https://github.com/woshiamu/amu/tree/master/redis

最后总结

本文主要是通过实际的应用场景才讲解redis的位图使用。如何应用,如何实践,通过一个个的代码案例执行你就能更加了解位图到底是怎么回事。

位图是一个占用内存且能存储大量数据的一个字符串。给大家一个小小的建议,在看文章或者看书籍时,一定要看完之后动手实践,因为实践才是检验真理的唯一标准;如果还在使用set hash simember来做签到功能,可以尝试改换然后对比性能,也提高下我们的技术水准以及接口访问速度。

看完文章小伙伴们对位图的使用是否有进一步的了解?如果阿沐的文章感觉有帮助或者有不足之处,请在评论下面留言。

最后,欢迎关注我的个人公众号「我是阿沐」,会不定期的更新后端知识点和学习笔记。也欢迎直接公众号私信或者邮箱联系我,我们可以一起学习,一起进步。

好了,我是阿沐,一个不想30岁就被淘汰的打工人 ⛽️ ⛽️ ⛽️ 。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
我是阿沐 我是阿沐
3年前
面试系列-2 redis列表场景分析实践
英国弗兰明曾说过一句话:“不要等待运气降临,应该去努力掌握知识。”1前言大家好,我是阿沐!你的收获便是我的喜欢,你的点赞便是对我的认可。上一章节面试官问了我们关于string数据结构的使用场景以及注意的点。虽然我们对答如流,但是毕竟只是redis很基础的知识点,下面面试官即将开始新的一轮面试要点,注重考查我们的日常工作中使用的场景以及怎样解决出现的弊端。
我是阿沐 我是阿沐
3年前
面试系列-4 hash应用场景分析实践
英国弗兰明曾说过一句话:“不要等待运气降临,应该去努力掌握知识。”1前言大家好,我是阿沐!你的收获便是我的喜欢,你的点赞便是对我的认可。作为一年开发经验的毕业生,在上一个章节跟面试官聊了聊redis的基础数据结构列表类型,我们凭借日常知识积累跟面试官展开了相爱相杀场景以及面试期间内心的活动状况。通过结合项目在实际场景中的运用案例和知识点的细节,稳稳的对答
我是阿沐 我是阿沐
3年前
面试系列-3 限流场景实践
英国弗兰明曾说过一句话:“不要等待运气降临,应该去努力掌握知识。”1前言大家好,我是阿沐!你的收获便是我的喜欢,你的点赞便是对我的认可。今天呢,我们就不聊redis面试系列,我们一起来聊一聊限流操作以及使用场景。很奇怪哈,为啥突然转变画风了,之前一篇文章中提到redis的限流操作,并没有实际给小伙伴们演示以及场景的使用演练。所以呢,既然有人私聊问我了,
我是阿沐 我是阿沐
3年前
运维大佬嘲笑我,这个你都不知道?
大家好,我是阿沐,一个喜欢分享技术而且爱好写散文的程序员。今天来给大家介绍一下info命令查看redis具体的详细信息讲解!起因是:前几年我在老家郑州实习面试(那个时候还没有毕业)的时候遇到面试官提问;面试官来于百度总部的工程师6年java开发经验3年多的PHP开发经验,我在他的面前基本就是弟弟中的弟弟,虽然勉强通过入职了,但是却被运维无情地嘲笑,就因为组
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
我是阿沐
我是阿沐
Lv1
男 · 腾讯音乐后端开发工程师 | 微信搜:我是阿沐
思绪来得快去得也快,偶尔会在这里停留
文章
15
粉丝
3
获赞
5