DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

Stella981
• 阅读 663

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

背景

随着互联网技术的高速发展,以往单应用的服务架构已经很难处理如山洪般增长的信息数据,随着云计算技术的大规模应用,以微服务、RESTful 为代表的各种软件架构广泛应用,跨团队、跨编程语言的大规模分布式系统也越来越多。相对而言,现在要理解系统行为,追踪诊断性能问题会复杂得多。

在单应用环境下,业务都在同一个服务器上,如果出现错误和异常只需要盯住一个点,就可以快速定位和处理问题;但是在微服务的架构下,功能模块天然是分布式部署运行的,前后台的业务流会经过很多个微服务的处理和传递,就连日志监控都会成为一个大问题(日志分散在多个服务器、无状态服务下如何查看业务流的处理顺序等),更不要说服务之间还有复杂的交互关系。

用户的一个请求在系统中会经过多个子系统(或者多个微服务)的处理,而且是发生在不同机器甚至是不同集群,当发生异常时需要快速发现问题,并准确定位到是哪个环节出了问题。对系统行为进行跟踪必须持续进行,因为异常的发生是无法预料的,有些甚至难以重现。跟踪需要无所不在,否则可能会遗漏某些重要的故障点。

为了解决上述问题,分布式跟踪系统 —— 一种帮助理解分布式系统行为、帮助分析性能问题的工具应运而生。

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

Distributed Tracing and Monitoring System

讨论分布式跟踪,就一定会谈到 Dapper —— Google 公司研发并应用于自己生产环境的一款跟踪系统(设计之初参考了一些 Magpie 和 X-Trace 的理念 )。Dapper 不仅为业内提供了非常有参考价值的实现,同步发表论文的也成为了当前分布式跟踪系统的重要理论基础。

Modern Internet services are often implemented as complex, large-scale distributed systems.These applications are constructed from collections of software modules that may be developed by different teams, perhaps in different programming languages, and could span many thousands of machines across multiple physical facilities. Tools that aid in understanding system behavior and reasoning about performance issues are invaluable in such an environment.

在这篇论文中,Google 提出了关于分布式跟踪系统的一些重要概念:

  • Annotation-based,基于标注或植入点、埋点 在应用程序或中间件中明确定义全局标注(Annotation),一个特殊的ID,通过这个 ID 连接每一条请求记录。当然,这需要代码植入,在生产环境中可以通过一个通用组件开放给开发人员。

  • 跟踪树和span 在 Dapper 跟踪树(Trace tree)中,基本单元是树节点(分配 spanid)。节点之间通过连线表示父子关系,通过 parentId 和 spanId 把所有的关系串联起来,实现记录业务流的作用。

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

Google Dapper 的理念影响了一批分布式跟踪系统的发展,例如 2012 年,Twitter 公司严格按照 Dapper 论文的要求实现了 Zipkin (Scala 编写,集成到 Twitter公司自己的分布式服务 Finagle );Uber 公司基于 Google Dapper 和 Twitter Zipkin 的灵感,开发了开源分布式跟踪系统 Jaeger,例如 Jaeger 规范中同样定义了 Span(跨度, 跨径,两个界限间的距离)。

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

然而,Google Dapper 的定位更准确的说是分析系统,并不能解决从生产服务中提取数据的难题,OpenCensus 项目为此提供了解决方案。

OpenCensus: A framework for distributed tracing

OpenCensus is a framework for stats collection and distributed tracing.

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

OpenCensus 项目是 Google 开源的一个用来收集和追踪应用指标的第三方库。OpenCensus 能够提供了一套统一的测量工具:跨服务捕获跟踪跨度(span)、应用级别指标以及来自其他应用的元数据(例如日志)。OpenCensus 有如下一些主要特点:

  • 标准通信协议和一致的 API :用于处理 metric 和 trace
  • 多语言库,包括Java,C++,Go,.Net,Python,PHP,Node.js,Erlang 和 Ruby
  • 与 RPC 框架的集成,可以提供开箱即用的追踪和指标。
  • 集成的存储和分析工具
  • 完全开源,支持第三方集成和输出的插件化
  • 不需要额外的服务器或守护进程来支持 OpenCensus
  • In process debugging:一个可选的代理程序,用于在目标主机上显示请求和指标数据

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

OpenCensus Concepts

Tags | 标签

OpenCensus 允许系统在记录时将度量与维度相关联。记录的数据使我们能够从各种不同的角度分析测量结果,即使在高度互连和复杂的系统中也能够应付。

Stats | 统计

Stats 收集库和应用程序记录的测量结果,汇总、导出统计数据。

Trace | 跟踪

Trace 是嵌套 Span (跨度)的集合。Trace 包括单个用户请求的处理进度,直到用户请求得到响应。Trace 通常跨越分布式系统中的多个节点。跟踪由 TraceId 唯一标识, Trace 中的所有 Span 都具有相同的 TraceId 。

一个 Span 代表一个操作或一个工作单位。多个 Span 可以是“Trace”的一部分,它代表跨多个进程/节点的执行路径(通常是分布式的)。同一轨迹内的 Span 具有相同的 TraceId。

Span 共有属性:

  • TraceId
  • SpanId
  • Start Time
  • End Time
  • Status

Span 可选属性:

  • Parent SpanId
  • Remote Parent
  • Attributes
  • Annotations
  • Message Events
  • Links

Exporter | 出口商

OpenCensus is vendor-agnostic and can upload data to any backend with various exporter implementations. Even though, OpenCensus provides support for many backends, users can also implement their own exporters for proprietary and unofficially supported backends.

OpenCensus 是独立于供应商的,可以通过各种 Exporter 实现将数据上传到任何后端。尽管OpenCensus 为一些后端服务提供了 API ,但用户也可以实现自己的 Exporter。

Introspection | 内省

OpenCensus 提供在线仪表板,显示进程中的诊断数据。这些页面被称为 z-pages ,它们有助于了解如何查看来自特定进程的数据,而不必依赖任何度量收集器或分布式跟踪后端。

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

创建指标

  • 定义指标类型
  • 定义显示方式

Track Metrics 一般需要考虑服务负载(Server Load)、响应时间(Response Time)、误码率(Error Rates)等。

import (
  "go.opencensus.io/stats"
  "go.opencensus.io/tag"
  "go.opencensus.io/stats/view"
)

var (
  requestCounter             *stats.Float64Measure
  requestlatency             *stats.Float64Measure
  codeKey                    tag.Key
  DefaultLatencyDistribution = view.DistributionAggregation{0, 1, 2, 3, 4, 5, 6, 8, 10, 13, 16, 20, 25, 30, 40, 50, 65, 80, 100, 130, 160, 200, 250, 300, 400, 500, 650, 800, 1000, 2000, 5000, 10000, 20000, 50000, 100000}
)
    codeKey, _ = tag.NewKey("banias/keys/code")
    requestCounter, _ = stats.Float64("banias/measures/request_count", "Count of HTTP requests processed", stats.UnitNone)
    requestlatency, _ = stats.Float64("banias/measures/request_latency", "Latency distribution of HTTP requests", stats.UnitMilliseconds)
    view.Subscribe(
        &view.View{
            Name:        "request_count",
            Description: "Count of HTTP requests processed",
            TagKeys:     []tag.Key{codeKey},
            Measure:     requestCounter,
            Aggregation: view.CountAggregation{},
        })
    view.Subscribe(
        &view.View{
            Name:        "request_latency",
            Description: "Latency distribution of HTTP requests",
            TagKeys:     []tag.Key{codeKey},
            Measure:     requestlatency,
            Aggregation: DefaultLatencyDistribution,
        })

    view.SetReportingPeriod(1 * time.Second)

收集指标数据

  • Call the Record method

    // Go Code Example // 说明:defer 用于资源的释放,会在函数返回之前进行调用。 // 如果有多个 defer表达式,调用顺序类似于栈,越后面的 defer 表达式越先被调用。 func (c *Collector) Collect(ctx *fasthttp.RequestCtx) { defer func(begin time.Time) { responseTime := float64(time.Since(begin).Nanoseconds() / 1000) occtx, _ := tag.New(context.Background(), tag.Insert(codeKey, strconv.Itoa(ctx.Response.StatusCode())), ) stats.Record(occtx, requestCounter.M(1)) stats.Record(occtx, requestlatency.M(responseTime)) }(time.Now()) /*do some stuff */ }

第三方数据接口

OpenCensus 收集和跟踪的应用指标可以在本地显示,也可将其发送到第三方分析工具或监控系统实现可视化,例如:

  • Prometheus|普罗米修斯

  • Stackdriver|适用于 Google Cloud Platform 与 AWS 应用的监控、日志记录和诊断工具 | 示例

  • Zipkin

  • OpenCensus Tracing with Uber’s Jaeger project

    import ( "go.opencensus.io/exporter/prometheus" "go.opencensus.io/exporter/stackdriver" openzipkin "github.com/openzipkin/zipkin-go" "go.opencensus.io/exporter/zipkin" "go.opencensus.io/trace" "go.opencensus.io/stats/view" )

    // Export to Prometheus Monitoring.
    

    Exporter, err := prometheus.NewExporter(prometheus.Options{}) if err != nil { logger.Error("Error creating prometheus exporter ", zap.Error(err)) } view.RegisterExporter(pExporter) // Export to Stackdriver Monitoring. sExporter, err := stackdriver.NewExporter(stackdriver.Options{ProjectID: config.ProjectID}) if err != nil { logger.Error("Error creating stackdriver exporter ", zap.Error(err)) } view.RegisterExporter(sExporter) // Export to Zipkin Monitoring. localEndpoint, err := openzipkin.NewEndpoint("service-A", "127.0.1.1:8080") reporter := http.NewReporter("http://127.0.1.110:9411/api/v2/spans") defer reporter.Close() exporter := zipkin.NewExporter(reporter, localEndpoint) trace.RegisterExporter(exporter)

OpenZipkin 数据可视化示例

  • 函数内容为空(微秒级)

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

  • 串行调用函数方法,内容包括网络访问和持久化操作(毫秒级)

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

  • 并行调用函数方法(Go routine),内容与上同

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

  • 多服务调用

DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

扩展阅读:开源架构技术漫谈

更多精彩内容扫码关注公众号:RiboseYim's Blog DevOps 漫谈:基于OpenCensus构建分布式跟踪系统

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
6个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这