2016运维团队所需解决方案的5个关键因素

Wesley13
• 阅读 632

现在 SaaS 的发展势头已经无法抵挡,只要持有企业信用卡,任何人都可以顺利部署 SaaS 工具,并借助 API,在短短几分钟内连接其他重要应用。并且开发者掌握了许多自动化快捷处理方式——比如说 Application Insight 应用部署和 Mobile Insight 移动应用测试——这极大地节省了推出新应用程序的时间。然而,很多管理应用程序和基础设施的旧方法以及无法跟上 SaaS 发展的步伐。

因此,企业转而采用各种专业监管工具——比如 NagiosZabbixSolarwindsAWS CloudWatch —— 旨在获取对堆栈不同层次的深刻认识。遗憾的是,这些工具难以实现交互的工作方式。各种监管工具的告警便层出不穷,数量之大,几乎让你分不清信号和噪音。

#####如何在噪音中准确寻获信号?

对于运维团队来说,只是单纯的获取告警其实是远远不够的,因为我们得到了太多的告警。事实上,源源不断的告警只会培养运维团队无视告警的能力(无法否认这是事实!)。当噪音很大时,你容易将不常见的信号也当成噪音。这可不是好事。

因此,运维团队需要智能的整体解决方案和可操作数据的解决方案,这样不仅能自动处理超出人工可处理范围的任务,还能在收到可操作告警后知道该如何处理。

2016运维团队所需解决方案的5个关键因素

为实现以上功能,结合告警平台的已上线的功能,以国外的 BigPanda 和国内的 OneAlert 为例,整合了运维团队需要的解决方案应该包括的 5 个关键因素

  1. 时间。运维团队需要掌握实时动态。比起容易过时的快照,运维团队需要轻松地掌握实时动态。但是,快照的优势在于能够让你比较今天和昨天甚至是前一周的数据,OneAlert 最多可提供 1 年的存储数据服务。

  2. 告警等级。如果你识别不了哪一个告警是最重要的,你就不知道轻重缓急。一般分为严重、警告、提醒三个等级。

  3. 告警类型。针对告警目标和内容的关联度及事后影响,了解告警发出的真正原因,从而确定告警类型。

  4. 自动化和集成。当我们无法解决告警的时候(可能是不擅长处理该类问题,还可能是没有时间处理!),我们可以在集成的工单系统中提交工单,对一些简单的可自动化处理的问题,可以直接自动化处理,如重启服务器等。OneAlert 非常重视相关模块的开发。

  5. 剖析大蓝图。今天的 IT 基础设施并不存在任何孤岛。一个应用的告警是其他应用出现问题的信号。运维团队需要了解每一个 IT 难题怎样串联在一起,又是如何相互影响的。剖析大蓝图必不可少。

综合以上 5 个因素,可以总结出提高运维团队维稳效率的 2 个关键因素:时间洞察力和补救时间。

二者之中,时间洞察力更为重要,这个过程耗时越长,企业宕机时间的成本就越高,生产力损失就越大。你有足够的信心去洞察吗?你知道如何才能解决问题吗?原有的监控工具忽略了补救时间的重要性。但是,请记住,如果我们无法衡量它,我们就无法改善它。因此,不断改进是运维团队紧跟时代步伐的唯一方式。

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。

本文转自 OneAPM 官方博客

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法参考文章:(1)Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.codeprj.com%2Fblo
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这