从事PHP开发多年,一直在用XHProf工具调试和解决一些程序的性能问题。XHProf的分析报告虽然提供了基于浏览器的报表界面,但是只提供了函数调用图表,没有更多的图表展示。最近发现国内厂商OneAPM在公测PHP的性能管理产品,很好奇试用了一下,说说测试下来的感受。
1.安装
总体安装非常简单,在OneAPM网站上下载OneAPM PHP Agent,按照页面提示的,几分钟就安装完了,非常容易上手。
安装完后,访问phpinfo可以看到成功加载了OneAPM模块:
2.测试
在测试环境里搭建了一个WordPress应用,后端用MySQL 5.5数据库,简单建了几个页面,发了几篇文章,然后用爬虫不断地抓测试网站的内容来看这个APM工具能采集到什么性能数据。
报表
探针安装完以后,大概5分钟之内就可以从报表上看到性能数据了。OneAPM的图表非常不错,非常直观和清晰。主要有以下几大块的数据展示。
总览
各种性能数据的汇总报表,例如响应时间,吞吐量,错误率什么的。响应时间还可以分成Web事务和数据库两个层次来看。提供了一个Apdex分数的统计,大概了解了一下,好像是用一个分数来评估用户体验满意度的。
拓扑
应用的拓扑架构图,显示应用程序调用数据库的关系。
事务
按URL统计的性能数据,看看哪个URL的响应最慢?按响应时间排序。
还可以钻取,可以看到某一个页面对数据库的调用耗时,以表名-操作名显示,例如图上可以看到两次wp_options-update的操作导致了两次性能波峰。
Traces数据,好像是记录响应最慢的请求的详细数据的。
点击可以查看更详细数据,例如可以看到代码段的耗时,代码调用堆栈,参数和SQL等调用的详情。代码调用堆栈的功能非常棒,可以定位到具体哪个方法慢。
SQL
按SQL语句统计的性能图表,可以发现哪个SQL语句最慢。这里和上面的图一样,也是按表名-操作名的一个组合来统计的。不知道能不能按实际的SQL语句来统计?
对选定的SQL语句,可以查看其响应时间与吞吐量的关系,还有调用者时间占比
对于查询比较慢的SQL会保留最慢SQL记录,好像是查询时间超过500ms的都会记录下来,不知道在哪里调这个值?
点击进去以后可以看到详细的原始SQL语句:
错误
提供应用错误率的统计。让我惊讶的是,测试用的WordPress的错误率竟然最高达到10%?好像有点问题吧?因为从爬虫日志里没看到任何报错信息。
还好提供了详细错误日志的功能,点击进去发现都是警报级别的错误信息,实际上不影响性能也不影响用户的正常访问,建议能把错误统计的级别提高或者让我可以自己设置。不过错误日志还算详细,可以显示出错的代码行号。
报表
好像是两周内统计数据的一个对比汇总表格,不知道为啥叫做“报表”,难道前面的哪些图表不是报表?建议改成“对比”更合适。
设置
又是一个文不对题的菜单项,里面提供的实际上是应用服务器环境变量的报表,显示PHP版本,操作系统版本,各PHP配置文件里的配置。没有任何与设置有关的东西。
3.问题
总体测试下来,功能还算不错,可以非常方便地查看性能问题点,包括SQL的性能问题。只不过在功能划分上出现一些文不对题的产品设计上的错误,另外还有两个功能(外部服务,后台任务)始终没有数据,不知道是干什么用的?
有个比较严重的问题是稳定性问题,测试环境搭好之后,就在那里一直跑着,我本来是想过几天在仔细看看数据写测试报告,后来OneAPM的技术支持在QQ上问是不是停了测试?才发现出了问题。在跑了一天不到的时间之后,从报表上就没有任何新的数据了(这也是为什么之前的截图都到2月10号之后就没数据了。)但是我的应用还活着,而且爬虫的访问也正常。在对方的协助下,查了探针的进程日志,发现探针进程已经挂掉了。把日志反馈给了对方的技术支持。
这应该算是这次测试中一个比较严重的问题,希望OneAPM能尽快解决,否则我可不敢放到生产环境里去测试。