Node.js 应用故障排查手册 —— 冗余配置传递引发的内存溢出

楔子

前面一小节我们以一个真实的压测案例来给大家讲解如何利用 Node.js 性能平台生成的 CPU Profile 分析来进行压测时的性能调优。那么与 CPU 相关的问题相比，Node.js 应用中由于不当使用产生的内存问题是一个重灾区，而且这些问题往往都是出现在生产环境下，本地压测都难以复现，实际上这部分内存问题也成为了很多的 Node.js 开发者不敢去将 Node.js 这门技术栈深入运用到后端的一大阻碍。

本节将以一个开发者容易忽略的生产内存溢出案例，来展示如何借助于性能平台实现对线上应用 Node.js 应用出现内存泄漏时的发现、分析、定位问题代码以及修复的过程，希望能对大家有所启发。

本书首发在 Github，仓库地址：https://github.com/aliyun-node/Node.js-Troubleshooting-Guide，云栖社区会同步更新。

最小化复现代码

因为内存问题相对 CPU 高的问题来说比较特殊，我们直接从问题排查的描述可能不如结合问题代码来看比较直观，因此在这里我们首先给出了最小化的复现代码，大家运行后结合下面的分析过程应该能更有收获，样例基于 Egg.js：如下所示：

'use strict';

const Controller = require('egg').Controller;

const DEFAULT_OPTIONS = { logger: console };

class SomeClient {
  constructor(options) {
    this.options = options;
  }
  async fetchSomething() {
    return this.options.key;
  }
}

const clients = {};

function getClient(options) {
  if (!clients[options.key]) {
    clients[options.key] = new SomeClient(Object.assign({}, DEFAULT_OPTIONS, options));
  }
  return clients[options.key];
}

class MemoryController extends Controller {
  async index() {
    const { ctx } = this;
    const options = { ctx, key: Math.random().toString(16).slice(2) };
    const data = await getClient(options).fetchSomething();
    ctx.body = data;
  }
}

module.exports = MemoryController;

然后在 app/router.js 中增加一个 Post 请求路由：

router.post('/memory', controller.memory.index);

造成问题的 Post 请求 Demo 这里也给出来，如下所示：

'use strict';

const fs = require('fs');
const http = require('http');

const postData = JSON.stringify({
  // 这里的 body.txt 可以放一个比较大 2M 左右的字符串
  data: fs.readFileSync('./body.txt').toString()
});

function post() {
  const req = http.request({
    method: 'POST',
    host: 'localhost',
    port: '7001',
    path: '/memory',
    headers: {
      'Content-Type': 'application/json',
      'Content-Length': Buffer.byteLength(postData)
    }
  });

  req.write(postData);

  req.end();

  req.on('error', function (err) {
    console.log(12333, err);
  });
}

setInterval(post, 1000);

最后我们在启动完成最小化复现的 Demo 服务器后，再运行这个 Post 请求的客户端，1s 发起一个 Post 请求，在平台控制台可以看到堆内存在一直增加，如果我们按照本书工具篇中的 Node.js 性能平台使用指南 - 配置合适的告警一节中配置了 Node.js 进程堆内存告警的话，过一会就会收到平台的短信/邮件提醒。

问题排查过程

收到性能平台的进程内存告警后，我们登录到控制台并且进入应用首页，找到告警对应实例上的问题进程，然后参照工具篇中的 Node.js 性能平台使用指南 - 内存泄漏中的方法抓取堆快照，并且点击分析按钮查看 AliNode 定制后的分解结果展示：