DevOpSec DevOpSec
4年前
CPU负载过高异常排查实践与总结
昨天下午突然收到运维邮件报警,显示数据平台服务器cpu利用率达到了98.94%,而且最近一段时间一直持续在70%以上,看起来像是硬件资源到瓶颈需要扩容了,但仔细思考就会发现咱们的业务系统并不是一个高并发或者CPU密集型的应用,这个利用率有点太夸张,硬件瓶颈应该不会这么快就到了,一定是哪里的业务代码逻辑有问题。1、排查思路1.1 定位高负载进程首先
Stella981 Stella981
3年前
Keepalived高可用、Keepalived+LVS高可用调度器
Keepalived高可用环境准备:准备三台RHEL7虚拟机,2台做Web服务器(部署Keepalived实现Web服务器的高可用),Web服务器的浮动VIP地址为192.168.4.80,1台作为客户端(proxy)。配置主机名、IP和yum源:1.proxy (eth0:192.
Easter79 Easter79
3年前
TiKV 源码解析系列文章(十七)raftstore 概览
第一作者:李建俊,第二作者:杨哲轩,王聪TiKV作为一个分布式KV数据库,使用Raft算法来提供强一致性。Raft算法提供了单一group的一致性,但是单一group无法扩展和均衡。因此,TiKV采用了MultiRaft的方式基于Raft算法提供能兼顾一致性、扩展均衡的KV储存。下文以3.0版本代码为例,讲述raf
Stella981 Stella981
3年前
Linux查看系统负载(CPU和MEM考虑)
查看占用CPU最高的10个进程tidb@:vg_adn_tidbCkhsTest:172.31.30.62~/tidbansible$psaux|grepvPID|sortrnk3|headmysql300496.660.42089525218873436?Sl
Stella981 Stella981
3年前
AI为Kubernetes深度学习工作负载创建首个分布式GPU共享系统
近日,AI这家虚拟化AI基础架构的公司,发布了第一个分数GPU共享系统,用于Kubernetes上的深度学习工作负载。分数GPU系统特别适用于诸如推理之类的轻量级AI任务,透明地使数据科学和AI工程团队能够在单个GPU上同时运行多个工作负载,从而使公司能够运行更多的工作负载,例如计算机视觉,语音识别和在同一硬件上进行自然语言处理,从而降低了成本。对于深度
Stella981 Stella981
3年前
Locust 安装
Locust介绍  Locust是一个易于使用、分布式的负载测试工具,它可以对网站或其他系统进行负载测试,并计算出一个系统能够承受多少的并发用户。Locust完全基于事件,因此可以在一台机器上支持数千名并发用户,与其他基于事件的应用相比,它不使用回调。与jmeter、loadrunner相比,Locust不需要笨重的UI或臃肿的xml
Stella981 Stella981
3年前
Linux集群架构(下)——DR模式、keepalived+LVS
Linux集群架构(下)八、DR模式搭建8.1准备工作试验需求三台机器:分发器,也叫调度器(简写为dir):192.168.112.136ying01rs1:192.168.112.138ying02rs2:
Wesley13 Wesley13
3年前
3.LVS的三种工作模式_TUN模式
1.TUN模式(VirtualServerviaIPTunneling(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.linuxvirtualserver.org%2FVSIPTunneling.html))  采用NAT模式时,由于请求和响应的报文必须通过
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourc
Crane-scheduler:基于真实负载进行调度
作者邱天,腾讯云高级工程师,负责腾讯云TKE动态调度器与重调度器产品。背景原生kubernetes调度器只能基于资源的resourcerequest进行调度,然而Pod的真实资源使用率,往往与其所申请资源的request/limit差异很大,这直接导致了集群负载不均的问题:1.集群中的部分节点,资源的真实使用率远低于resourcerequest,却没有被调度更多的Pod,这造成了比较大的资源浪费;2.而集群中的另外一些节点,其资源的真实使用率事实上已经过载,却无法为调