应用健康度隐患刨析解决系列之数据库时区设置

京东云开发者
• 阅读 355

作者:京东零售 董方酉

引言

应用健康度是反馈应用健康程度的指标,它将系统指标分类为基础资源、容器、应用、报警配置、链路这几项,收集了一系列系统应用的指标,并对指标进行打分。

应用健康度的每一项指标显示着系统在某一方面可能存在的隐患和安全问题;因此提高应用健康度对于系统监控具有重要意义。知其然需知其所以然,了解应用健康度中的指标背后的隐患,对于我们了解和提升系统安全性很有帮助。

笔者作为后端研发工程师,同时在推动组内应用健康度提高的同时,基于遇到的问题现象,结合应用健康度进行剖析,将逐一总结一系列应用健康度隐患剖析;

第一篇,我们来剖析下容易被人忽视的数据库时区设置项可能导致的隐患。

一、应用健康度检查项

数据库连接池配置中,通过解析源代码获取,支持DBCP1.X,DBCP2.X,Ali Durid,HikariCP四种连接池;配置监测有以下几项

应用健康度隐患刨析解决系列之数据库时区设置

风险示例如下图所示:

应用健康度隐患刨析解决系列之数据库时区设置

connectTimeout 、SocketTimeout 和 时区 三个指标是连接池数据源的 url 中解析得到, 如:mysql://xxx.jd.com:3358/jdddddb_0?autoReconnect=true&useUnicode=true&characterEncoding=UTF-8&connectTimeout=1000&socketTimeout=3000&serverTimezone=Asia/Shanghai

其中,时区设置容易被人忽视;忽略设置会带来什么样的隐患呢?

二、遇到的问题

1、现象

在2023年3月12日(3月的第二个周日),系统UMP监控报警,提示如下

应用健康度隐患刨析解决系列之数据库时区设置

2、问题原因

Mysql 驱动:mysql-connector-java 升级到8版本后。将数据库时间解析到java时间,需要获取数据库的时区。如果数据库连接中指定时区,则会用该时区,否则可能会使用系统时区

可通过select @@time_zone语句查询,如果返回SYSTEM,则说明数据库没有设置时区,使用select @@system_time_zone 语句可查询得出系统默认时区,为CST。

CST时区为美国中部时间,由于美国有夏令时和非夏令时

CST非夏令时对应 UTC-06:00,夏令时对应 UTC-05:00 。

美国的夏令时,从每年3月第2个星期天凌晨开始,到每年11月第1个星期天凌晨结束。

以2023年为例:

夏令时开始时间调整前:2023年03月12日星期日 02:00:00,时间向前拨一小时.

调整后:2023年03月12日星期日 03:00:00

夏令时结束时间调整前:2023年11月05日星期日 02:00:00,时间往回拨一小时.

调整后:2023年11月05日星期日 01:00:00

这意味这:CST没有2023-03-12 02:00:002023-03-12 03:00:00 这个区间的时间。会有两个 2023-11-05 01:00:002023-11-05 02:00:00区间的时间。

因此,在获取信息时会抛出“SQLException: HOUR_OF_DAY: 2 -> 3”异常。

3、修改方案

数据库连接地址中设置数据时区:serverTimezone=Asia/Shanghai

三、时间相关的其他隐患

1、据研究实验反馈,设置时区为默认时可能有性能问题,往往需要指定时区。

2、使用timestamp类型时需注意时间偏差:

timestamp类型的时间范围between '1970-01-01 00:00:01' and '2038-01-19 03:14:07',超出这个范围则值记录为'0000-00-00 00:00:00',该类型的一个重要特点就是保存的时间与时区密切相关,UTC(Universal Time Coordinated)标准,指的是经度0度上的标准时间,我国日常生活中时区以首都北京所处的东半球第8区为基准,统一使用东8区时间(俗称北京时间),比UTC要早8个小时,时区设置也遵照此标准,因此对应过来timestamp的时间范围则应校准为'1970-01-01 08:00:01' and '2038-01-19 11:14:07',也就是说东八区的1970-1-1 08:00:01等同于UTC1970-1-1 00:00:01。

3、尽量使用dateTime格式而非timestamp:

有一些情况需要注意不要使用 timestamp 存储时间:

• 生日:生日肯定会有早于1970年的,会超出 timestamp 的范围

• 有效期截止时间:timestamp 的最大时间是2038年,如果用来存类似身份证的有效期截止时间,营业执照的截止时间等就不合适。

• 业务生存时间:互联网时代发展快,业务时间很可能在2038年还在继续运营。

四、数据库连接设置的其他隐患

1、连接数设置

(1) 介绍

数据库连接池在初始化时将创建一定数量的数据库连接放到连接池中,这些数据库连接的数量是由最小数据库连接数制约。无论这些数据库连接是否被使用,连接池都将一直保证至少拥有这么多的连接数量。连接池的最大数据库连接数量限定了这个连接池能占有的最大连接数,当应用程序向连接池请求的连接数超过最大连接数量时,这些请求将被加入到等待队列中。

由此看来,当数据库最大连接数设置不够大时,则会出现某些报表或需要查询数据库的请求失败,由于连接数不够不能被处理,从而报错。当出现大量并发的报表请求,且连接池的最大连接数不够用时,一些用户的请求就无法处理,这样也就从另一个层面影响了整个项目处理吞吐量的能力,限制了项目的性能和效率。

(2)设置原则

既能保证项目正常使用时对数据库连接数的要求,又能保护DBS的安全和稳定。

(3)查询方式:

查询最大连接数命令:show variables like'%max_connections%';

查询当前数据库已建立连接数:show status like 'Threads_connected';

(4)建议:

MYSQL官网给出了一个设置最大连接数的建议比例:

Max_used_connections / max_connections * 100% ≈ 85%



即已使用的连接数占总上限的85%左右。

2、超时时间设置

(1)介绍

一次完整的请求包括三个阶段:1、建立连接 2、数据传输 3、断开连接

connect timeout:如果与服务器(这里指数据库)请求建立连接的时间超过ConnectionTimeOut,就会抛 ConnectionTimeOutException,即服务器连接超时,没有在规定的时间内建立连接。 在数据库连接设置中,connectTimeout表示等待和MySQL数据库建立socket链接的超时时间,默认值0,表示不设置超时,单位毫秒。

socket timeout:如果与服务器连接成功,就开始数据传输了。如果服务器处理数据用时过长,超过了SocketTimeOut,就会抛出SocketTimeOutExceptin,即服务器响应超时,服务器没有在规定的时间内返回给客户端数据。在数据库连接设置中,socketTimeout表示客户端和MySQL数据库建立socket后,读写socket时的等待的超时时间,linux系统默认的socketTimeout为30分钟。

(2)隐患

访问数据库超时间太长,访问数据量大或者扫描的数据量太大,导致数据库长时间无响应。链接被占用无法释放,会导致线程池被占满。因此,为了能够及时释放占用链接,其他业务对数据库访问不受影响,所以要合理设置数据库访问超时时间。

JDBC的socket timeout在数据库被突然停掉或是发生网络错误(由于设备故障等原因)时十分重要。由于TCP/IP的结构原因,socket没有办法探测到网络错误,因此应用也无法主动发现数据库连接断开。如果没有设置socket timeout的话,应用在数据库返回结果前会无期限地等下去,这种连接被称为dead connection。

为了避免dead connections,socket必须要有超时配置。socket timeout可以通过JDBC设置,socket timeout能够避免应用在发生网络错误时产生无休止等待的情况,缩短服务失效的时间。

(3)建议

一般情况,建议配置connectTimeout=60000,单位毫秒。建议配置socketTimeout=60000,单位毫秒。具体配置因系统而异。

总结

容易被忽视的数据库连接应用健康度检查项,背后有着时区、超时时间、连接数设置不当可能带来的隐患;根据应用实际情况并遵循设置原则进行合理设置,满足应用健康度检查项,才能防患于未然。

点赞
收藏
评论区
推荐文章
Easter79 Easter79
3年前
tcp_tw_recycle参数引发的数据库连接异常
【问题描述】开发反馈有个应用在后端数据库某次计划性重启后经常会出现数据库连接异常问题,通过监控系统的埋点数据,发现应用连接数据库异常有两类表现:  其一:连接超时  <spanstyle"backgroundcolor:FFFF00"131148.00msTomcatConnectionPool</span  其二:连接耗时过
zookeeper的Leader选举源码解析
应用健康度是反馈应用健康程度的指标,它将系统指标分类为基础资源、容器、应用、报警配置、链路这几项,收集了一系列系统应用的指标,并对指标进行打分。知其然需知其所以然,了解应用健康度中的指标背后的隐患,对于我们了解和提升系统安全性很有帮助。
Stella981 Stella981
3年前
Python+Selenium自动化篇
本篇文字主要学习selenium定位页面元素的集中方法,以百度首页为例子。0.元素定位方法主要有:id定位:find\_element\_by\_id('')name定位:find\_element\_by\_name('')class定位:find\_element\_by\_class\_name(''
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
Java应用在docker环境配置容器健康检查
在《极速体验docker容器健康》(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fxinchen.blog.csdn.net%2Farticle%2Fdetails%2F102641942)一文已体验了docker容器健康检查功能,今天就来给java应用的容器加入健康检查,使应用的状态
Stella981 Stella981
3年前
Prometheus监控学习笔记之PromQL简单示例
0x00简单的时间序列选择返回度量指标http_requests_total的所有时间序列样本数据:http_requests_total返回度量指标名称为http_requests_total,标签分别是job"apiserver",handler"/api/comments"
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
直播预告丨大模型如何在健康医疗中挖出大大的花?
大模型时代,“应用变了”:大模型如何在健康医疗中挖出大大的花?12月1日(周五)14:0015:00开播!大模型时代,给千行百业带来了新的想象空间试想一下,大模型经过专业知识训练竟然能够成为你的健康医疗助手曾经科幻片中的场景,正一步步成为现实这一期,我们将
CDN静态资源加速&Lighthouse性能监测
本文主要介绍了cdn加速在项目中的实现,以及使用Lighthouse对前端性能指标进行监测打分。Lighthouse简介Lighthouse是谷歌开发并开源的web性能测试工具,用于改进网络应用的质量,可以将其作为一个Chrome扩展程序运行,或从命令行运