关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

那年烟雨落申城
• 阅读 577

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

PS:文章中用到的ip和代码已脱敏

1. 环境

请查看这篇文章[https://blog.csdn.net/codeblf2/article/details/122735525?spm=1001.2014.3001.5501)

2. 配置

kafka地址:

kafka_broker_list={
    {host="193.168.1.2",port=9092},
    {host="193.168.1.3",port=9092},
    {host="193.168.1.1",port=9092}
}

发送脚本:

local kafka_broker_list={
    {host="193.168.1.2",port=9092},
    {host="193.168.1.3",port=9092},
    {host="193.168.1.1",port=9092}
}
local kafka_topic_app = "topic_app"
local p = producer:new(kafka_broker_list, {producer_type = "sync",refresh_interval=10000})
local offset, err = p:send(kafka_topic_app, nil, body)

将我的服务打包成docker image,使用的基础镜像是debian10 测试是在某个服务器上安装的docker中进行的

3. 过程

3.1 服务器上启动容器脚本

docker run -d -it -p 0.0.0.0:9000:8080 --name nginx-kafka --privileged=true nginx-kafka:0.0.1 /bin/bash

说明:

  • -p 0.0.0.0:9000:8080 开放ECS(10.11.12.13)的9000端口访问,流量会转发到容器的8080端口
  • --privileged=true 开放特权,否则root账户不可操作iptables

3.2 启动容器后安装iptables

apt-get install iptables -y

3.3 测试与kafka连通性

telnet 192.168.1.1 9092

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

telnet 192.168.1.2 9092

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

telnet 192.168.1.3 9092

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 可以看到容器到3个ip地址和端口都是通的

3.4 postman调用测试

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 可以看到报送请求可以被正确发送到kafka

3.5 封禁容器对 192.168.1.1 的访问

iptables -A OUTPUT -d 192.168.1.1 -j DROP

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

一直在尝试连接

此时nginx的error.log无任何输出。

使用postman调用报送接口: 关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 可以看到发送kafka消息超时了。

3.6 封禁容器对 192.168.1.1,192.168.1.2 的访问

iptables -A OUTPUT -d 192.168.1.2 -j DROP

封禁后测试连通性: 关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

发现已经连接不上了。

此时使用postman测试报送,结果和章节3.5一致。

3.7 封禁容器对 192.168.1.1,192.168.1.2,192.168.1.3 的访问

iptables -A OUTPUT -d 192.168.1.3 -j DROP

封禁后测试连通性: 关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 发现已经连接不上了。

日志中出现了连接192.168.1.1:9092,192.168.1.2:9092,192.168.1.3:9092的报错,也有fetch_metadata的报错

2023/03/22 14:57:56 [error] 51#0: *1450 lua tcp socket connect timed out, when connecting to 192.168.1.1:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:57:56 [error] 51#0: *1450 [lua] client.lua:151: _fetch_metadata(): all brokers failed in fetch topic metadata, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:57:56 [error] 51#0: *1452 lua tcp socket connect timed out, when connecting to 192.168.1.1:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:57:56 [error] 51#0: *1452 [lua] client.lua:151: _fetch_metadata(): all brokers failed in fetch topic metadata, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:57:58 [error] 51#0: *1466 lua tcp socket connect timed out, when connecting to 192.168.1.2:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:58:00 [error] 51#0: *1469 lua tcp socket connect timed out, when connecting to 192.168.1.2:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:58:01 [error] 51#0: *1466 lua tcp socket connect timed out, when connecting to 192.168.1.3:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:58:03 [error] 51#0: *1469 lua tcp socket connect timed out, when connecting to 192.168.1.3:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:58:04 [error] 51#0: *1466 lua tcp socket connect timed out, when connecting to 192.168.1.1:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 14:58:04 [error] 51#0: *1466 [lua] client.lua:151: _fetch_metadata(): all brokers failed in fetch topic metadata, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080

此时使用postman测试报送,结果和章节3.5一致。

3.8 删除封禁 192.168.1.1

iptables -t filter -D OUTPUT -d 192.168.1.1 -j DROP

测试连通性:

关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 发现可以联通了,此时日志输出:

2023/03/22 15:02:22 [error] 51#0: *1912 lua tcp socket connect timed out, when connecting to 192.168.1.2:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 15:02:23 [error] 51#0: *1915 lua tcp socket connect timed out, when connecting to 192.168.1.2:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 15:02:23 [error] 51#0: *1917 lua tcp socket connect timed out, when connecting to 192.168.1.2:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 15:02:25 [error] 51#0: *1912 lua tcp socket connect timed out, when connecting to 192.168.1.3:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 15:02:26 [error] 51#0: *1915 lua tcp socket connect timed out, when connecting to 192.168.1.3:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080
2023/03/22 15:02:26 [error] 51#0: *1917 lua tcp socket connect timed out, when connecting to 192.168.1.3:9092, context: ngx.timer, client: 192.168.1.4, server: 0.0.0.0:8080

使用postman测试: 关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试

奇迹般的可以访问了。

结论

  1. 封禁192.168.1.1,开发其它两个ip访问时埋点报送无法发送至kafka,没能故障转移

  2. 解除192.168.1.1封禁时可以正确的将埋点发送到kafka,可以认为当此ip恢复访问时,kafka可以正确的恢复。

以上结论可以类推某个ip如果一直无法访问就没法将请求消息正确发送到kafka,此ip恢复时即可正确发送到kafka

-------------------------->20230327分界线<------------------------------- 写完这篇文章后,收集了一下资料,也请教了Kafka大佬,上面的测试存在一定的问题,Kafka是一主(leader)多从(follower)架构,当leader节点正常时,metadata数据会一直显示leader节点正常,网络不通不代表leader节点挂了。当leader节点确实挂了后,zk会重新选举新的leader节点,此时client端接收到这个信息后会自动故障转移。 我把上面的测试在作者的github上提了个issue,很开心得到了作者的耐心解答: 关于OpenResty+doujiang24/lua-resty-kafka写入kafka故障转移模拟测试 所以综上,当leader网络从不通变为通畅时,client端还是可以重新连接到leader发消息的。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
apache kafka系列之性能测试报告(虚拟机版)
测试方法在其他虚拟机上使用Kafka自带 kafkaproducerperftest.sh脚本进行测试Kafka写入性能尝试使用 kafkasimpleconsumerperftest.sh脚本测试KafkaConsumer性能,但由于获取到的数据不靠谱,放弃这个测试方法性能数据注:Gzip和Snappy
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Easter79 Easter79
3年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Stella981 Stella981
3年前
Linux日志安全分析技巧
0x00前言我正在整理一个项目,收集和汇总了一些应急响应案例(不断更新中)。GitHub地址:https://github.com/Bypass007/EmergencyResponseNotes本文主要介绍Linux日志分析的技巧,更多详细信息请访问Github地址,欢迎Star。0x01日志简介Lin
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Java服务总在半夜挂,背后的真相竟然是... | 京东云技术团队
最近有用户反馈测试环境Java服务总在凌晨00:00左右挂掉,用户反馈Java服务没有定时任务,也没有流量突增的情况,Jvm配置也合理,莫名其妙就挂了
那年烟雨落申城
那年烟雨落申城
Lv1
男 · 众安科技 · 高级Java开发工程师
是你吧,我能从很远很远的地方一眼认出你来
文章
26
粉丝
0
获赞
1