线上机器CPU占用高分析实践

京东云开发者
• 阅读 6

1. 线程运行状态

1.1 total

线上机器CPU占用高分析实践



1.2 timed_waiting

线上机器CPU占用高分析实践 线上机器CPU占用高分析实践



通过上图我们可以发现timed_waiting的topN线程都是查询国补资质的。

1.3 waiting

线上机器CPU占用高分析实践 线上机器CPU占用高分析实践



通过上图我们可以发现waiting的topN线程都是查询国补活动的。

1.4 线程分析

下面我们分析上述两种状态:

  1. WAITING 状态

定义:当一个线程处于 WAITING 状态时,它在等待另一个线程的特定操作(如通知或中断),并且不会继续执行。

触发条件:线程进入 WAITING 状态的常见情况包括:

调用 Object.wait() 方法:线程在等待某个对象的监视器(锁)被其他线程通知。

调用 Thread.join() 方法:等待另一个线程完成。

调用 LockSupport.park() 方法:线程被阻塞,直到它被其他线程唤醒。

恢复:线程在 WAITING 状态下将一直保持此状态,直到其他线程调用 notify()notifyAll()(对于 Object.wait()),或者被中断。

  1. TIMED_WAITING 状态

定义:当一个线程处于 TIMED_WAITING 状态时,它在等待某个条件的发生,但它会在指定的时间后自动返回。

触发条件:线程进入 TIMED_WAITING 状态的常见情况包括:

调用 Thread.sleep(milliseconds):线程休眠指定的毫秒数。

调用 Object.wait(milliseconds):线程在等待某个对象的监视器(锁),并且在指定的时间内等待。

调用 Thread.join(milliseconds):等待另一个线程完成,但有时间限制。

调用 LockSupport.parkNanos()LockSupport.parkUntil()

恢复:线程在 TIMED_WAITING 状态下会在指定的时间结束后自动恢复,或者在其他线程调用 notify()notifyAll() 时恢复。

| 状态           | 描述                                     | 触发条件                                    | 恢复方式                                   |
|----------------|------------------------------------------|---------------------------------------------|--------------------------------------------|
| **WAITING**    | 线程等待另一个线程的特定操作,不会继续执行 | `Object.wait()`, `Thread.join()`, `LockSupport.park()` | 其他线程调用 `notify()`/`notifyAll()` 或被中断 |
| **TIMED_WAITING** | 线程等待某个条件的发生,但有时间限制   | `Thread.sleep(milliseconds)`, `Object.wait(milliseconds)`, `Thread.join(milliseconds)` | 超过指定时间后自动恢复,或其他线程调用 `notify()`/`notifyAll()` |

下面我们结合实际代码情况分析:

 线上机器CPU占用高分析实践

上文中 queryActTp 为 getActivityInfo 执行并发任务,其中包含两个子任务、 queryQualityTp 为 getQualityInfo 执行并发任务,其中五个子任务。同时将这俩任务放到queryActAndQualityTp中并行。

getActivityInfo所在的秒级监控如下:

线上机器CPU占用高分析实践

getQualityInfo所在的秒级监控如下;

线上机器CPU占用高分析实践

上文中同样的调用方式,但是出现了两种线程状态,理论上应该都是TIMED_WAITING。针对queryActTp我们可以发现堆栈信息中也是LockSupport.park而不是LockSupport.parkNanos。具体原因有待进一步分析。

上述代码中还有一个问题就是A线程池中又并行调用了B、C线程池,在大流量情况下,CPU频繁切换也会造成一定的CPU压力,我们改写这块逻辑用一个线程池实现活动和资质的并发查询。鉴于改动较大,本次先不动。

2. 火焰图分析

线上机器CPU占用高分析实践

2.1 wait线程

线上机器CPU占用高分析实践

2.2 锁性能

线上机器CPU占用高分析实践



2.3 CPU采样

线上机器CPU占用高分析实践

2.3.1 getFatherActivity分析

线上机器CPU占用高分析实践

Q1:调用场景:循环中调用getFatherActivity

Q2:查看配置数据,json格式化后50000字符,大对象的反序列化

Q3:使用new ArrayList() 创建新对象

Q4:分组后只用了对象中的第一个元素,这里用toMap更佳

优化1:

线上机器CPU占用高分析实践

我们可以发现上文在循环中还是会存在多次的stream调用,继而将toMap逻辑提到循环外,如下:

线上机器CPU占用高分析实践



其他方法确实占用CPU较高,这里先不处理。

下文再优化一项获取并发线程执行结果的工具类:

线上机器CPU占用高分析实践

1、 allOf异常后,取消所有线程的继续执行。这么做为了防止有些线程超时后仍在执行,浪费部分CPU资源,线上发现确实存在较多的超时情况。
2、 这里的异常日志较多,根据异常类型进行区分,去掉没用的堆栈日志。

并发线程中所有的等待统一都使用了上文的方法,前文中的queryActTp处于WAITING状态可能也是执行没取消导致,修改部署后再观察分析。同样的调用方式 queryQualityTp 处于Timed_waiting状态可能与一次父任务中子任务的执行耗时有关,见上文监控,活动和资质相差较大,具体原因有待进一步分析。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
java多线程中的基本方法
                java多线程中的基本方法线程睡眠sleep()我们可以通过sleep方法设置让线程睡眠,可以看到sleep是个静态方法。publicstaticnativevoidsleep(longvar0)throwsInterruptedException;   try{       Syst
Wesley13 Wesley13
3年前
java多线程(二)
一、摘要   当我们将线程创建并start时候,它不会一直占据着cpu执行,而是多个线程间会去执行着这个cpu,此时这些线程就会在多个状态之间进行着切换。  在线程的生命周期中,它会有5种状态,分别为:创建、准备、执行、阻塞、死亡二、线程生命周期状态详解  1、创建状态:其实就是newThread()创建了线程对象,这个时候JVM会为其分
Wesley13 Wesley13
3年前
java多线程总结
线程或者说多线程,是我们处理多任务的强大工具。线程和进程是不同的,每个进程都是一个独立运行的程序,拥有自己的变量,且不同进程间的变量不能共享;而线程是运行在进程内部的,每个正在运行的进程至少有一个线程,而且不同的线程之间可以在进程范围内共享数据。也就是说进程有自己独立的存储空间,而线程是和它所属的进程内的其他线程共享一个存储空间。线程的使用可以使我们能够并行
Wesley13 Wesley13
3年前
Java运行状态分析2:获取线程状态及堆栈信息
Java运行状态分析2:线程状态及堆栈信息基本概念出现内存泄漏或者运行缓慢场景,有时候无法直接从业务日志看出问题时候,需要分析jvm内存和线程堆栈线程堆栈信息主要记录jvm线程在某时刻线程执行情况,分析线程状态可以跟踪到程序出问题的地方​内存堆栈信息主要记录jvm堆中在某时刻对象使用情况,
Wesley13 Wesley13
3年前
5.1 监控Linux系统状态 至 监控Linux系统状态5.9
5.15.4监控Linux系统状态14查看系统负载:w/uptime最后面三个数字表示1分钟,5分钟,15分钟平均有多少个进程占用CPU占用CPU的进程可以是Running,也可以是Waiting某一时刻1颗CPU只能有一个进程在使用其资源top命令:top回车就可以进入到top
Stella981 Stella981
3年前
Noark入门之线程模型
0x00单线程多进程单线程与单进程多线程的目的都是想尽可能的利用CPU,减少CPU的空闲时间,特别是多核环境,今天咱不做深度解读,跳过...0x01线程池锁最早的一部分游戏服务器是采用线程池的方式来处理玩家的业务请求,以达最大限度的利用多核优势来提高处理业务能力。但线程池同时也带来了并发问题,为了解决同一玩家多个业务请求不被
Wesley13 Wesley13
3年前
Java并发系列7
如果要让线程阻塞,我们在讲线程基础的时候已经分析过了。如果要让线程暂停呢,不是blocked,而是waiting,这时候有什么办法?Thread类有一个弃用的方法suspend()是线程暂停的意思,他被弃用的原因是线程挂起的时候并不会释放持有的锁资源,而且suspend()挂起的线程状态依然是runnable,这也是不合理的。那么有没有一种简单的
Mybatis的parameterType造成线程阻塞问题分析 | 京东云技术团队
最近在新发布某个项目上线时,每次重启都会收到机器的CPU使用率告警,查看对应监控,持续时长达5分钟,对于服务重启有很大风险。而该项目有非常多Consumer消费,服务启动后会有大量线程去拉取消息处理逻辑,通过多次Jstack输出线程快照发现有很多BLOCKED状态线程,此文主要记录分析BLOCKED原因。
ThreadPoolExecutor线程池内部处理浅析 | 京东物流技术团队
我们知道如果程序中并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束时,会因为频繁创建线程而大大降低系统的效率,因此出现了线程池的使用方式,它可以提前创建好线程来执行任务。本文主要通过java的ThreadPoolExecutor来查看线程池
京东云开发者 京东云开发者
5个月前
线上机器CPU占用高分析实践
作者:京东零售王江波1.线程运行状态1.1total1.2timed\waiting通过上图我们可以发现timed\waiting的topN线程都是查询国补资质的。1.3waiting通过上图我们可以发现waiting的topN线程都是查询国补活动的。1.