SQL事前巡检插件

京东云开发者
• 阅读 636

背景:

事故频发

•每年都会看到SQL问题引发的线上问题

不易发觉

•对于SQL性能问题测试在预发环境不易发现

•saas系统隔离字段在SQL条件中遗漏,造成越权风险

•业务初期SQL没问题,业务增长容易出现事故

•DBS慢SQL不支持实时报警,无法及时发现

•靠大家review代码总会出现遗漏

事后处理

•每次都是线上接口性能、数据库报警才意识到问题,再去优化SQL,此刻有可能引发线上的严重事故



思考:

通过人为去发现总是不靠谱的,而且更希望问题在测试和预发环境提前暴漏出来,尽量避免带到线上,是否可以通过技术手段提前发现问题?研发新工具来自动检测有问题的SQL?

流程设计:



SQL事前巡检插件





行动:

通过开发SQL巡检检插件查实现问题SQL自动预警

1.利用SQL拦截器,拦截系统执行的SQL

2.开启异步线程池,不阻碍业务流程的执行,解析SQL,忽略具体入参数据和格式,MD5加密SQL语句,为了防止重复SQL执行,将之前拦截过的MD5值缓存,可以自定义缓存时间,这段时间内容不会解析相同的SQL

3.为了保障业务系统的稳定性,接入插件的时候支持手动数据源的注入,可以选择主或者从,来执行后续的explain/show create table操作

4.通过explain/show create table执行的结果,以及SQL语句通过http/MQ发送给SQL巡检平台

5.SQL巡检平台接受信息进行内容拆分,获取表名和条件;

6.首先通过执行计划分析:如:[possible_keys][key]分析索引是否使用,如未使用会及时预警通知,并记录到巡检平台;

7.其次进行表和查询条件分析,通过读取平台的配置,设置某一个表的查询条件的校验规则(支持正则表达),如:xxx_info表条件必须使用xxx_code,如不符合规则也会及时预警通知,并记录到巡检平台;

SQL风险预警

【描 述】SQL安全检测-table_name(表名)不符合条件规则:.*org_no.* (正则表达式) 【traceId】wewrerew234234242342 (请求ID) 【执行方法】com.XXX.XXX.XX.FINDBYID(mapper方法) 【SQL内容】select * from table_name where xxx=1 and yyy=2 【系统名称】所属系统

SQL风险预警 SQL事前巡检插件 【描 述】SQL索引检测-table_name(表名)未使用索引; 【traceId】aa6ac6c89bec4f7dfdfdf74719ae583(请求ID)【执行方法】XXXXXMapper.selectResult(mapper方法) 【SQL内容】select * from table_name where xxx=1 and yyy=2【系统名称】所属系统

1.巡检平台提供了一些报警阈值管理、校验规则管理等,来满足不同系统的不同表的不同要求

2.巡检平台同时会把有问题的SQL进行展示,支持一键分析,因为之前咱们已经获取到执行计划结果和建表语句,把这些信息交给chatgpt,通过大模型分析,并返回响应的建议,辅助用户进行治理



接入:

引入SQL巡检jar包,在数据源注册拦截器

</property>
        <property name="plugins">
            <list>
                <bean class="com.yzt.plugin.MysqlExplainInterceptor">
                    <property name="sysName" value="yzt-refund"/>
                    <property name="monitorSqlService" ref="monitorSqlServiceImpl"/>
                </bean>
            </list>
        </property>

指定重复SQL拦截时间段

@Override
public boolean warnFLag(String id) {
//缓存实现指定时间重复SQL上报拦截
    return false;
}
............

在我们的巡检平台根据配置的系统名称来自定义报警人和报警规则;

通过自动巡检、及时预警能提前在测试预发环境发现SQL存在的问题,进行修复,避免带到线上,同时可以给出问题SQL的优化建议,帮助研发快速修复;

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
3年前
sql执行计划与优化
在我们实际工作中大部分人会遇到sql优化的问题,这篇文章主要介绍SQL优化相关。首先我们怎么发现我们的sql执行效率低呢,最简单的方法就是当用户反馈慢的时候我们就会知道哪里可能会有sql效率影响的问题,这里排除其他影响情况,只考虑数据库sql慢的问题。当然这种方式对于我们来说很被动,我们还可以通过什么方式找到有性能问题sql,我们可以通过MySQL的配置文
Wesley13 Wesley13
3年前
SQL慢查询
(一)慢sql一问题发现将应用发布到生产环境后,前端页面请求后台API返回数据,发现至少需要6s。查看到慢sql:!(https://oscimg.oschina.net/oscnet/a81e2a4765114fd1a6e69d7146abe179.jpg"慢sql定位.png")慢sql定位.png
Wesley13 Wesley13
3年前
Mysql 执行计划各列释义
在排查编写Mysql查询语句时,除了需要满足业务条件,还需要考虑所编写SQL的性能表现,避免出现慢SQL导致大量慢查询的情况。通常,可以通过查看执行计划的方式查看所编写SQL语句的性能优劣。此外,还可以通过查看语句的分阶段执行的时间、操作消耗来进行补充分析。1\.执行计划的列1.1.id列查询的序号1.2.s
慢SQL原因分析之索引失效 | 京东物流技术团队
现象最近收到一个慢sql工单,慢sql大概是这样:“selectxxxfromtabelwheretype1”。咦,type字段明明有索引啊,为啥是慢sql呢?原因通过执行explain,发现实际上数据库执行了全表扫描,从而被系统判定为慢sql。这时有一定
京东云开发者 京东云开发者
11个月前
一种轻量分表方案-MyBatis拦截器分表实践
背景部门内有一些亿级别核心业务表增速非常快,增量日均100W,但线上业务只依赖近一周的数据。随着数据量的迅速增长,慢SQL频发,数据库性能下降,系统稳定性受到严重影响。本篇文章,将分享如何使用MyBatis拦截器低成本的提升数据库稳定性。业界常见方案针对冷
京东云开发者 京东云开发者
2星期前
一种轻量分表方案-MyBatis拦截器分表实践
作者:京东零售张均杰背景部门内有一些亿级别核心业务表增速非常快,增量日均100W,但线上业务只依赖近一周的数据。随着数据量的迅速增长,慢SQL频发,数据库性能下降,系统稳定性受到严重影响。本篇文章,将分享如何使用MyBatis拦截器低成本的提升数据库稳定性
Mybatis-SQL分析组件 | 京东云技术团队
大促备战,最大的隐患项之一就是慢sql,带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,而且对sql好坏的评估有一定的技术要求,有一些缺乏经验或者因为不够仔细造成一个坏的sql成功走到了线上,等发现的时候要么是造成了线上影响、报警、或者后置的慢sql采集发现,这时候一般无法快速止损,需要修改代码上线、或者调整数据库索引。
慢SQL的致胜法宝 | 京东物流技术团队
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什么思路去解决是我们必须要知道的。本文主要介绍对于慢SQL的排查、解决思路,通过
慢SQL治理实践及落地成果分享 | 京东物流技术团队
为了保证系统稳定性,预防潜在慢SQL导致应急事故,发起慢SQL常态化备战专项,下文主要描述专项的实践及落地情况。