作者：京东零售王森

一现象

调用方A -> JSF -> 提供方B

大多数情况下，调用方耗时和提供方耗时基本没有差别

个别情况下，调用方耗时远高于提供方耗时，大概5分钟20+次

1.调用方A耗时如下图

提供方耗时正常，调用方毛刺频频

2.提供方B耗时如下图

提供方耗时正常，调用方毛刺频频

3.调用方监控添加

在调用JSF接口前后加的监控，没有其他任何逻辑，包括日志打印

4.提供方监控添加

在代码最外层JSF接口加的监控，之外没有任何代码逻辑

5.耗时对比

时间段	调用方A平均耗时	提供方B平均耗时	调用方A最大耗时	提供方B最大耗时	调用方A超100ms数量	提供方B超100ms数量
2024-06-15 13:30:00 至 2024-06-15 13:59:59	大部分是低于60ms 有突刺	大部分不超过20	580ms	32ms	24次	0

二排查思路

1.数据流转环节分析

调用方从请求到接收数据，除了提供方业务耗时，还有其他环节，分别是

1.调用方容器和宿主机

2.调用方->提供方经过的网络环节

3.提供方容器和宿主机的环节

4.提供方->调用方的网络环节

2.初步定位

容器和宿主机之间由于流量过大，处理压力大导致的瓶颈

网络波动

一步一步排除，先看网络

3.找证据

3.1 找监控

找到监控相关的技术同学，回答说没有网络的监控

于是找到了JDOS的同学，排查后提供了一种怀疑方向，如下图提供方耗时正常，调用方毛刺频频

容器内存使用率（包含cache）基本一直保持在99%以上，建议先确定该指标的影响，并降低该指标

3.1.2 指标含义

指标定义文档解释如下

提供方耗时正常，调用方毛刺频频

还是看不太懂指标的含义，懵B状态

提工单咨询，给出的解决方案如下

提供方耗时正常，调用方毛刺频频

java应用，无ngix，还是懵，继续求助

最后得出结论：

这个之前在营销中心那边有遇到C++ 使用page cache 还有使用zgc的需要参考一下cache这个指标，其他的场景目前看系统会在物理内存不够用的时候释放cache；

这个是指有的c++应用底层接口直接使用了pagecache，java可以忽略

更详细解释：

内存那部分是这样的，每个容器的 Memory Cgroup 在统计每个控制组的内存使用时包含了两部分，RSS 和 Page Cache。

RSS 是每个进程实际占用的物理内存，它包括了进程的代码段内存，进程运行时需要的堆和栈的内存，这部分内存是进程运行所必须的。

Page Cache 是进程在运行中读写磁盘文件后，作为 Cache 而继续保留在内存中的，它的目的是为了提高磁盘文件的读写性能。（Java程序只要操作磁盘读写也会用到 page cache）

有时会看到这样一种情况：容器里的应用有很多文件读写，你会发现整个容器的内存使用量已经很接近 Memory Cgroup 的上限值了，但是在容器中我们接着再申请内存，还是可以申请出来，并且没有发生 OOM。那是因为容器中有部分是PageCache,当容器需要更多内存时，释放了PageCache,所以总大小并没有变化。

结论：对于java系统来说，容器内存使用率（包含cache）没有影响（cache会自动释放）