Java问题排查分享

捉虫大师
• 阅读 1121

前言

最近翻看以前写的 PPT, 发现了在2019年做的一次技术分享,关于 Java 问题排查,由于没什么公司机密可言,整理下分享给大家~

线上问题处理流程

直接放PPT截图吧,现在看来依然不过时

Java问题排查分享

问题排查

可从三个方面入手

  • 知识:有些问题,思考一下就有答案,就像传说中多隆那样,回忆下就知道第83行代码有问题~
  • 工具:当然不是每个人都能做到过目不忘,也有可能这代码完全不是你写的,这时就需要靠工具来定位问题
  • 数据:程序运行时产生的数据,也能提供很多线索

知识

知识有很多方面,这里简单列举一下:

  • 语言(本文特指 Java):如 JVM 知识、多线程知识等
  • 框架:如 Dubbo、Spring 等
  • 组件:如 Mysql、RocketMq 等
  • 其他:如网络、操作系统等

举个例子,我们需要理解 Java 对象从申请到被回收整个过程,这个图非常清晰,建议烂熟于心:

Java问题排查分享

然后也要了解常见的垃圾收集器:

Java问题排查分享

吞吐量=单位时间内处理的请求数量=运行代码时间 / (运行代码时间 + 垃圾回收时间)

以 ParNew + CMS 为例 ,尝试回答如下几个问题:

  • 为什么要分代收集?— 关键字:效率
  • 对象什么时候进入老年代?— 关键字:年龄、大小
  • Young GC 与 Full GC 什么时候发生?— 关键字:Eden 不足、Old 不足、Meta 不足、map/System.gc

如果我们了解上述的这些知识后,举个实际例子,当我们发现 Young GC 频繁触发,耗时高,该如何优化?

首先思考,Young GC 什么时候触发?答案是 Eden 区不足。

接着,Young GC 耗时主要是哪里耗时?答案是扫描 + 复制,扫描通常很快,复制比较慢。

那我们对症下药,增加新生代大小试试,结果真的解决问题了,为什么?我们也分析一下

新生代大小为 M 时,假设对象存活 750ms,young GC间隔 500ms,扫描时间为 T1,复制时间为 T2

  • 新生代大小为 M 时:频率 2次/s,每次耗时 T1 + T2
  • 新生代扩大为 2M 时:频率 1次/s,每次耗时 2T1

由于T2远远大于T1,所以2T1 < T1 + T2

这就是知识的力量~

工具

Java 栈中的工具,也分为这几类:

  • JDK 自带:如 jstat、jstack、jmap、jconsole、jvisualvm
  • 第三方:MAT(eclipse插件)、GCHisto、GCeasy(在线GC日志分析工具,https://gceasy.io/)
  • 开源:大名鼎鼎的Arthas、bistoury(去哪网开源)、Async-profiler

这些工具的原理,我们也需要稍微了解下,比如 Cpu profiler大概有两类:

  • 基于采样:优点是性能开销低,缺点是采样有频率限制,存在SafePoint Bias问题
  • 插桩:所有方法添加 AOP 逻辑,优点是精准采集,缺点是性能开销高

比如 uber 开源的 uber-common/jvm-profiler,它就是基于采样的 Cpu profiler,缺点就是存在 SafePoint Bias 问题,比如有一次排查一个 Cpu 占用问题,就采集到了这样的火焰图,可以看到几乎没啥用

SafePoint(安全点) 可以简单理解为 JVM 可以停顿下来的特定位置的点,如果采样的位置是特定的点,那么采样就不具有代表性,因为可能在非 SafePoint 时可能消耗了更多的 Cpu,这种现象就被称为 SafePoint Bias 问题。

Java问题排查分享

但我用另一个 jvm-profiling-tools/async-profiler 来采集,就能看到性能瓶颈:

Java问题排查分享

虽然 Async-profiler 也是基于采样做,但它能避免 SafePoint Bias 问题,原因是它采用了 AsyncGetCallTrace 的黑科技。于是依据 Async-profiler 给出的火焰图进行优化,Qps 从 58k 涨到 81k,Cpu 反而从72%下降到了41%

Java问题排查分享

数据

数据包括:

  • 监控数据,如APM、metric、JVM监控、分布式链路追踪等等数据
  • 程序运行数据:如业务数据、AccessLog、GC log、系统日志等

这部分就按实际来分析,没有统一模板可言。

经验

说了这么多,从经验角度总结了如下常见问题该从哪些方面入手:

  • 执行异常:查看日志、debug、请求重放
  • 应用僵死:jstack
  • 耗时高:trace跟踪、Benchmark
  • Cpu利用率高:Cpu profile分析
  • GC频繁、耗时高:GC log分析
  • OOM、内存占用高、泄漏:dump内存分析

案例分享

Cobar僵死,进程端口在,但不能处理请求

先踢掉故障机器,保留现场再排查问题,根据日志,定位为内存泄漏

Java问题排查分享

小思考:能通过日志直接确定是哪里内存泄露吗?— 答案:不能

具体定位可dump内存下载到本地分析,文件如果太大,可以先压缩下

jmap -dump:format=b,file=/cobar.bin ${pid}

使用 eclipse 的插件 MAT 分析,过程就不放了,结果是发现了一个我们对 Cobar 自定义修改导致的 Bug,如果对内存分析感兴趣,可以直接看我这几篇实战文章:

网关耗时高

使用 Arthas trace 跟踪调用

trace com.beibei.airborne.embed.extension.PojoUtils generalize

Java问题排查分享

接入 Sentinel 导致应用僵死

接入限流降级利器 Sentinel 后,配置一条规则,触发后导致应用僵死,可使用 jstack 进行排查,一眼就看出问题所在

jstack ${pid} > jstack.txt

Java问题排查分享

最后

本文最早分享于2019年12月,刚好过去2年,由于是 PPT 整理而来,行文没有那么丝滑,但问题排查的思路、手段依然是这些,大家学废了吗?


搜索关注微信公众号"捉虫大师",后端技术分享,架构设计、性能优化、源码阅读、问题排查、踩坑实践。

Java问题排查分享

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Karen110 Karen110
3年前
​一篇文章总结一下Python库中关于时间的常见操作
前言本次来总结一下关于Python时间的相关操作,有一个有趣的问题。如果你的业务用不到时间相关的操作,你的业务基本上会一直用不到。但是如果你的业务一旦用到了时间操作,你就会发现,淦,到处都是时间操作。。。所以思来想去,还是总结一下吧,本次会采用类型注解方式。time包importtime时间戳从1970年1月1日00:00:00标准时区诞生到现在
Wesley13 Wesley13
3年前
Java日期时间API系列31
  时间戳是指格林威治时间1970年01月01日00时00分00秒起至现在的总毫秒数,是所有时间的基础,其他时间可以通过时间戳转换得到。Java中本来已经有相关获取时间戳的方法,Java8后增加新的类Instant等专用于处理时间戳问题。 1获取时间戳的方法和性能对比1.1获取时间戳方法Java8以前
Stella981 Stella981
3年前
IE7、IE8、IE9对min
问题:    IE7、IE8、IE9对minheight不识别,其他无问题解决:   box{width:100px;height:35px;}   htmlbodybox{width:auto;height:auto;width:100px;minheight:35px;} 实例:
Wesley13 Wesley13
3年前
35岁,真的是程序员的一道坎吗?
“程序员35岁是道坎”,“程序员35岁被裁”……这些话咱们可能都听腻了,但每当触及还是会感到丝丝焦虑,毕竟每个人都会到35岁。而国内互联网环境确实对35岁以上的程序员不太友好:薪资要得高,却不如年轻人加班猛;虽说经验丰富,但大部分公司并不需要太资深的程序员。但35岁危机并不是不可避免的,比如你可以不断精进技术,将来做技术管理或者
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
35岁是技术人的天花板吗?
35岁是技术人的天花板吗?我非常不认同“35岁现象”,人类没有那么脆弱,人类的智力不会说是35岁之后就停止发展,更不是说35岁之后就没有机会了。马云35岁还在教书,任正非35岁还在工厂上班。为什么技术人员到35岁就应该退役了呢?所以35岁根本就不是一个问题,我今年已经37岁了,我发现我才刚刚找到自己的节奏,刚刚上路。
Wesley13 Wesley13
3年前
umeng分享出现的问题
今天在重整以前代码的时候,想去掉social\_sdk\_library\_project这个library的引入,直接添加jar包完成分享功能。然后出现了一下几个问题,整理一下,方便查阅...问题1.java.lang.RuntimeException:获取资源ID失败:(packageNamecom.XXX.XXXXty
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这