MONGO DB too many mongodb page_faults 报错排查step by step

早上运维的同学, morning call,说zabbix的 MONGO 监控报警，图片传给我，报的错误是 too many mongodb page_faults.

本来 page_faults 引起的根本原因就是瞬时MONGO 从磁盘读取了大量的数据，引起page_faults。

这时候有的MONGO DBA 会马上反应，看看有没有没有全COLLECION的扫描，没有良好的索引，大量的SCAN ，会造成这个问题。

但这个问题奇葩的地方就在于，这个报错的 PAGE_FAULTS机器，并没有查询（并非primary 库），既然么有查询，怎么来的page_faults。

官方的解释截图

MONGO DB too many mongodb page_faults 报错排查step by step

马上去确认一下，到底这个刚运行的MONGO 的standy库的 page_faults 到底是不是有问题。

下面是出现问题的机器，（别笑新机器当然没有那么多page_faults）

MONGO DB too many mongodb page_faults 报错排查step by step

,对比主机的 page_faults

MONGO DB too many mongodb page_faults 报错排查step by step

果然，这个问题机器的page_faults果然多了。

另外看看内存的状况，果不其然，已经开始使用SWAP了

MONGO DB too many mongodb page_faults 报错排查step by step

通过 mongostat 来查看，系统并没有什么不正常

MONGO DB too many mongodb page_faults 报错排查step by step

在查看日志

MONGO DB too many mongodb page_faults 报错排查step by step

可以看到，日志已经指向 advisoryHostFQDNS,并且通过日志，发现一直有这个错误，并且执行一次命令要80秒。

MONGO DB too many mongodb page_faults 报错排查step by step

经过查询，可能原因有几个，因为这个advisoryHostFQDNs 是集群中每台MONGODB 机器的域名解析，这里查询这个信息是从 OPS MANANGER 而来的，说明我们这边可能在解析域名上有问题。

这里解决问题的方法：在每台机器，及OPS MANANGE 上 HOSTS 上填写所有集群MONGODB的机器名，而不在通过DNS 来解析，看看能不能解决上述的问题。

——————————————————————————————

另外最近数据库界也不太平，刚过完新年，REDHAT satellite 就宣布以后仅仅支持 POSTGRESQL 数据库作为底层数据库的支撑。

而 ORACLE 这边去年的投资ORACLE 的投资者诉讼 ORACLE 发布虚假信息，引导投资者投资 ORACLE 云的官司不知道完没完，2019 ORACLE 与 GOOGLE 在JAVA 上的版权问题又被提出水面，如果GOOGLE 失败，则要赔偿88亿美元的赔偿。

哎，在ORACLE 数据库逐年下降的使用率的情况下，的用JAVA 来去捞钱了。昨天接触了国产的一个数据库软件商，得到另一个对ORACLE 数据库不利的消息，国家电网，四大行的两家已经转投国产的ORACLE 数据库了（具体哪家大家百度一下），完全和ORACLE 一样的东西，无缝和ORADLE直接迁移，并且国家有倾向性的支持，估计不出几年，ORACLE 在国家的机关，银行就的使用率会大概率降低（这国产数据库够牛，直接可以做ORACLE 的备库，如果运行一段时间没有问题，直接切换，让ORACLE 做备库，然后就没有然后了），随着手机，汽车，电影科幻元年，中国越来越强，看了很快都蔓延到数据库这地界了。

MONGO DB too many mongodb page_faults 报错排查step by step