MySQL分割一行为多行的思路

Wesley13
• 阅读 731

最近数据分析有需求,分析运营活动短信用户,但是发送短信的用户是通过 JSON 字符串数组存储在一个 text 字段的。内容类似于:

["user1", "user2", "user3"....]

数据分析想分析这些用户,那么就需要 in 这些用户查询。自己手动拼 SQL 太蛋疼,而且好几万几十万的用户,拼成SQL,复制粘贴也够蛋疼的。那么可以考虑将这一行分割为多行,作为一个字段。

mysql.help_topic 是啥

网上的思路是利用 mysql.help_topic 这个记录表,这个表是存储 mysql 各种帮助文档目录的,主要因为他有一个从零开始自增的 id 字段,所以采用这张表作为帮助表。其实他不是用来干这个的。并且,有时候我们精简安装,或者是云服务里面的 mysql,他们的这张表里面的内容,是空的,所以我们不能靠这张表。

如何自己实现呢?

思路主要是如下,首先处理数据,将 JSON 字符串数组处理成:

user1,user2,user3

通过:

select replace(replace(replace(replace(a,'[',''),']',''), '"', ''),' ','') processed_data from 表

然后,我们通过substring_index函数,可以提取出user1user2user3这些用户 id。分别是:substring_index(substring_index(processed_data,',',1),',',-1)substring_index(substring_index(processed_data,',',2),',',-1)substring_index(substring_index(processed_data,',',3),',',-1).可以看出,如果我们能提供一个数字,这个数字从1开始,一直到,的个数 + 1,这样就能使用substring_index函数,将每个 userId 提取出来,也就是将数据转换成:

+-------------------+----+
| processed_data    | id |
| user1,user2,user3 | 1  |
| user1,user2,user3 | 2  |
| user1,user2,user3 | 3  |

哪里有这么一张表呢?我们可以创建一个表,里面只有一列 id,从0或者1开始,这里我们从0开始,一直到你的,可能的最多个数,我们这里是 200 万。

+----+
| id |
+----+
|  0 |
|  1 |
|  2 |
|  3 |
|  4 |
|  5 |

这样,通过 join 这张表,用 id < ,的个数为条件,就能得出上面的processed_dataid join 的数据。

最后的SQL:

SELECT
    substring_index( substring_index( processed_data, ',', b.id + 1 ), ',',- 1 ) user_id 
FROM
(
SELECT REPLACE
    (
        REPLACE ( REPLACE ( REPLACE (数据字段, '[', '' ), ']', '' ), '"', '' ),
        ' ',
        '' 
    ) processed_data 
FROM
    表 
) temp
JOIN help表 b ON b.id < ( length( temp.processed_data ) - length( REPLACE ( temp.processed_data, ',', '' ) ) + 1 )

其中的 help 表就是里面只有一列 id,从0或者1开始,这里我们从0开始,一直到你的,可能的最多个数的这张表

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
mysql用户
1\.学会能按着需求创建一个帐号2\.知道连接字符串是什么样3\.密码密码怎么恢复mysql用户权限介绍mysql用户管理 !(https://oscimg.oschina.net/oscnet/368d3c1e00a0a9515545c2962660a27a080.png)!(https://oscimg.oschin
Stella981 Stella981
3年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究