TARS服务信息上报|全方位服务监控

Wesley13
• 阅读 464

TARS服务信息上报|全方位服务监控

服务上线运营后,出现异常是难免的事,通常情况下会通过服务日志排查问题。然而这种排查问题的方式有时候是低效的,特别是日志比较多,还不知道如何下手的时候,非常麻烦。那让服务主动报告出现的错误不就行了吗?本文将对TARS中的几种信息上报方式进行介绍。

TARS服务信息上报|全方位服务监控

  • 简介

  • 状态统计上报

  • 异常上报

  • 属性统计上报

  • 总结

TARS服务信息上报|全方位服务监控

服务出现异常时,特别是生产环境中,我们需要快速定位并解决问题。而日志排查方式又是低效的,特别是在我们对问题还没有头绪的时候。这时如果能够让服务主动报告出现的问题,会很大程度提高排查问题的效率。

TARS框架中集成了服务信息上报的功能,包含了服务的状态统计上报、异常上报、属性统计上报等三个信息上报统计方式,实现对服务健康程度的多方面监控。这三种信息上报方式分别通过 Stat、Notify、Property 这三个节点实现。如下图:

TARS服务信息上报|全方位服务监控

服务通过向这三个节点报告自身不同维度的信息,实现对服务状态的监控。那么接下来我们来了解这三种信息上报方式吧。

TARS服务信息上报|全方位服务监控

所谓的状态统计上报,就是在 TARS 框架中,服务向 Stat上报自身的调用耗时、超时率、异常率等状态信息并进行统计。

服务调用上报接口后,实际上是先暂存在内存中,当到达某个时间点后才正式上报到 Stat 服务(默认是1分钟上报一次)。我们称两个上报时间点之间的时间为一个统计区间,在一个统计区间相同 key 进行累加、对比等操作。

状态统计上报一般不需用户额外开发,服务在 TARS 框架中正确配置并部署后,即可自动上报。

打开 TarsWeb 的服务管理页面,在具体服务的 服务监控 页面中可以看到对应服务相关的状态信息,包括流量、平均耗时、超时率等,如下图:

TARS服务信息上报|全方位服务监控

TARS服务信息上报|全方位服务监控

服务状态统计上报能够直观地了解服务的状态和健康度。不过实际使用场景中,仅统计一些服务的调用信息是不够的。为了更好监控,TARS 框架支持在服务中将异常直接上报到 Notify,并可以在 TarsWeb 管理页面上查看到,或结合别的告警软件或平台直接通知用户。TARS 不同语言版本中都提供了异常上报方式。本部分将分别基于 TarsCpp 和 TarsGo 举例介绍,其他语言版本类似。

TarsCpp

TarsCpp 中提供了一种异常上报方式,即使用 RemoteNotify::report 来上报异常,用法如下:

TARS服务信息上报|全方位服务监控

参数info为需要上报的异常信息,类型为 string 字符串, 可以直接上报字符串到 Notify,页面可以看到上报的字符串。例如我们创建一个服务名为 Demo.DemoServer.DemoObj 的 TarsCpp 服务,创建命令如下:

TARS服务信息上报|全方位服务监控

项目目录结构如下:

TARS服务信息上报|全方位服务监控

接着在 DemoServer.cpp 的服务初始化函数 DemoServer::initialize 中上报一条信息,这样服务在启动时,就会上报一条 DemoServer Start 的信息,如下:

TARS服务信息上报|全方位服务监控

将服务编译部署后,可以在 TarsWeb 上服务的实时状态中看到服务上报的信息,如下图:

TARS服务信息上报|全方位服务监控

TarsGo

TarsGo 中提供了如下函数来上报异常信息,用法和前面 TarsCpp 的相似。

TARS服务信息上报|全方位服务监控

level指的是异常等级,分为NOTIFY_NORMAL, NOTIFY_WARN, NOTIFY_ERROR,info则为上报的信息。

我们通过以下命令创建一个 TarsGo 服务Demo.NotifyDemo.DemoObj

TARS服务信息上报|全方位服务监控

项目目录结构如下:

TARS服务信息上报|全方位服务监控

同 TarsCpp 相似,我们在demo_imp.cpp的Init中添加异常上报

TARS服务信息上报|全方位服务监控

构建部署该服务后,同样可以在服务实时状态中看到

TARS服务信息上报|全方位服务监控

可见,异常上报是一个主动上报的过程,开发者可以通过异常上报,主动上报服务错误,比如在try...catch捕捉到错误时,进行上报。

TARS服务信息上报|全方位服务监控

除了状态统计上报和异常上报,TARS 中也提供了属性统计的功能,开发者能够上报业务相关属性并进行统计。为了方便业务使用,TARS 目前自带了以下几种统计类型:

  • 求和(sum)

  • 平均(avg)

  • 分布(distr)

  • 最大值(max)

  • 最小值(min)

  • 计数(count)

TarsCpp 中,可以通过 createPropertyReport() 来创建并配置一个属性上报对象,并通过调用该对象的方法 report 来上报属性值。例如,我们想监控一个数组大小的最大值,我们创建一个属性名为 array_size 的属性上报对象,并配置上报方法为 max ,即最大值,可以通过如下步骤实现。

TARS服务信息上报|全方位服务监控

接下来我们以一个 C++ 实现的简单队列服务为例,该服务包含两个队列操作接口

  • pop:用于弹出队列最前端的数字

  • push:用于添加一个数字到队列中

并对服务中队列的大小进行属性统计上报。

首先,我们新建一个服务名为Demo.PropertyDemo.TestObj的服务,并新建文件 Queue.h,项目结构如下:

TARS服务信息上报|全方位服务监控

在 Queue.h 中实现一个简单的线程安全队列类,实现如下:

TARS服务信息上报|全方位服务监控

可以看到 Queue 继承自 TC_Singleton,TC_Singleton是 TarsCpp 中提供的一个单件类组件,通过继承该类,使 Queue 成为单件类。

修改 Test.tars,我们新增两个接口 pop, push 用于操作服务的队列。如下:

TARS服务信息上报|全方位服务监控

然后在 TestImp.h 中添加接口的声明,如下:

TARS服务信息上报|全方位服务监控

并在 TestImp.cpp 中实现这两个接口,如下:

TARS服务信息上报|全方位服务监控

最后,在 PropertyDemo.cpp 中,添加对队列大小的上报,如下:

TARS服务信息上报|全方位服务监控

在 reportFunc 中,我们创建了一个属性 queuelength 的上报对象reportPtr,添加上述的六种统计策略,并定时上报;然后在 main 函数中创建一个线程来运行 reportFunc。

构建并部署服务后,我们就可以在 TarsWeb 页面服务的特性监控中看到属性的统计值了,如下图:

TARS服务信息上报|全方位服务监控

如果看不到统计信息,可以间隔5分钟,监控信息每5分钟同步一次。

从上图中,可以看到六种统计策略的值,分别是Queue中队列大小的求和、最小值、最大值、分布、计数、平均值。通过调用服务的接口pop和push,即向Queue队列中添加或弹出对象,改变队列大小,这些值也会相应的变化。

TARS服务信息上报|全方位服务监控

本文对 TARS 三种信息上报方式及如何使用进行了介绍。通过这三种服务信息上报方式,开发者能够对服务进行多维度的监控,了解服务和业务实时健康状态、异常信息及业务相关属性,帮助开发者更好地管理服务。

TARS 可以在考虑到易用性和高性能的同时快速构建系统并自动生成代码,帮助开发人员和企业以微服务的方式快速构建自己稳定可靠的分布式应用,从而令开发人员只关注业务逻辑,提高运营效率。多语言、敏捷研发、高可用和高效运营的特性使 TARS 成为企业级产品。


TARS基金会是Linux基金会下的非营利性、微服务基金会,致力于建设一个强大而灵活的微服务生态系统。无论你在哪个行业,无论你使用什么技术栈,这里能助你快速实现你的创意。

TARS服务信息上报|全方位服务监控

TARS服务信息上报|全方位服务监控


TARS服务信息上报|全方位服务监控

TARS服务信息上报|全方位服务监控

TARS服务信息上报|全方位服务监控

点“在看”让TARS小姐姐变好看TARS服务信息上报|全方位服务监控

TARS服务信息上报|全方位服务监控

本文分享自微信公众号 - TARS星球(TarsCloud)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
TARS 服务信息上报|全方位服务监控
!(https://ftp.bmp.ovh/imgs/2020/10/b7fb603e17fc6529.jpg)作者|Eaton导语|服务上线运营后,出现异常是难免的事,通常情况下会通过服务日志排查问题。然而这种排查问题的方式有时候是低效的,特别是日志比较多,还不知道如何下手的时候,非常麻烦。那让服务主动报告出现的错误不就
Stella981 Stella981
3年前
Service starting has been prevented by iaware or trustsbase sInfo ServiceInfo 解决方法
问题:ActivityManager:ServicestartinghasbeenpreventedbyiawareortrustsbasesInfoServiceInfo{c50ea35xxx.xxx.xxx.ServiceName}问题描述,该问题再华为部分手机升级到Android10.1之后,启动服务会
Wesley13 Wesley13
3年前
DDD 有价值?
!(https://oscimg.oschina.net/oscnet/491e46fa455e38945de35f686f6c878c1b3.png)4月,InfoQ发布了软件架构与设计的趋势报告。在报告中可以看出,微服务、领域驱动设计等已经非常流行,并成为目前软件开发行业的主流趋势。大家都知道,微服务划分的一个重要理论基础就是领
Stella981 Stella981
3年前
Nepxion Discovery 5.5.0 发布
!(https://oscimg.oschina.net/oscnet/f81c043194ef4732880459d00c1a720e.png)发布日志功能更新:增加基于Opentracing调用链的支持,目前支持UberJaeger,实现在SpringCloudGateway、Zuul和服务上的灰度
Stella981 Stella981
3年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Wesley13 Wesley13
3年前
35岁是技术人的天花板吗?
35岁是技术人的天花板吗?我非常不认同“35岁现象”,人类没有那么脆弱,人类的智力不会说是35岁之后就停止发展,更不是说35岁之后就没有机会了。马云35岁还在教书,任正非35岁还在工厂上班。为什么技术人员到35岁就应该退役了呢?所以35岁根本就不是一个问题,我今年已经37岁了,我发现我才刚刚找到自己的节奏,刚刚上路。
Stella981 Stella981
3年前
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法参考文章:(1)Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.codeprj.com%2Fblo
Java服务总在半夜挂,背后的真相竟然是... | 京东云技术团队
最近有用户反馈测试环境Java服务总在凌晨00:00左右挂掉,用户反馈Java服务没有定时任务,也没有流量突增的情况,Jvm配置也合理,莫名其妙就挂了