flinkcdc中checkpoint不成功问题排查

天翼云开发者社区
• 阅读 6

本文分享自天翼云开发者社区《flinkcdc中checkpoint不成功问题排查》,作者:徐****东

使用flink-1.16和flinkcdc-3.0进行数据接入,采用standalone模式。运行一段时间后checkpoint开始失败,但日志中没有报错信息。

flinkcdc中checkpoint不成功问题排查

因savepoint和checkpoint机制一致,使用手动打savepoint断点的方式,尝试查明失败原因。执行指令: /usr/local/flink/bin/flink savepoint ${job_id} /usr/local/flink-cdc/savepoint/

执行后报错,发现如下报错信息。

[1]:Caused by: org.apache.flink.util.SerializedThrowable: java.util.concurrent.ExecutionException: java.io.IOException: Size of the state is larger than the maximum permitted memory-backed state. Size=5325329, maxSize=5242880. Consider using a different checkpoint storage, like the FileSystemCheckpointStorage.

经分析,是作业的state,默认使用内存存储。随着作业的运行,state超出允许的最大内存,所以无法存储,导致checkpoint被cancel进而失败。

直接原因是作业的state,默认使用内存存储。随着作业的运行,state超出允许的最大内存,所以无法存储,导致checkpoint被cancel进而失败。

尝试在flink-conf.yaml中添加如下参数,加大内存限制。发现checkpoint仍会超出内存限制失败。排查源码发现,flink在1.16已去掉该参数。官方建议standalone模式仅作为测试,因此不提供加大内存限制的方式。

state.backend.memory.max-state-size: 10000000 正确解决办法为,使用hdfs存储checkpoint。

点赞
收藏
评论区
推荐文章
Springfox与SpringDoc——swagger如何选择(SpringDoc入门)
本文分享自天翼云开发者社区@《》,作者:才开始学技术的小白0.引言之前写过一篇关于swagger(实际上是springfox)的使用指南(https://www.ctyun.cn/developer/article/371704742199365),涵盖了
Stella981 Stella981
3年前
Flink 专题
CheckPoint1\.checkpoint保留策略默认情况下,checkpoint不会被保留,取消程序时即会删除他们,但是可以通过配置保留定期检查点,根据配置当作业失败或者取消的时候,不会自动清除这些保留的检查点。java:CheckpointConfi
Wesley13 Wesley13
3年前
MySQL数据库InnoDB存储引擎Log漫游(3)
作者:宋利兵来源:MySQL代码研究(mysqlcode)0、导读本文重点介绍了InnoDB的checkpoint和BufferPool管理04–Checkpoint理论上来说,如果MySQL数据库InnoDB存储引擎的buffer足够大,就不需要将数据本身持久化。将全部的redolog重新执行
HDFS目录配额(quota)不足导致写文件失败
本文分享自天翼云开发者社区《》,作者:5m问题背景与现象给某目录设置quota后,往目录中写文件失败,出现如下问题“TheDiskSpacequotaof/tmp/tquota2isexceeded”。omm@18939150115client$hdf
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行
数据治理之构建数据资产目录
本文分享自天翼云开发者社区《》,作者:徐东一、引言现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《》,作者:徐东随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的
离线数仓优化简述
本文分享自天翼云开发者社区《》,作者:徐东1、业务层面计算量太大是不是必须的,是否可以减少参与计算的用户量或者时间跨度;计算逻辑是否过于复杂,是否可以简化。2、模型层面是否有现成的数据可以使用或者基于现成的数据进行加工;是否可以将整个计算逻辑进行合理拆分,
Centos系统云主机中nvme盘不可用解决方法
本文分享自天翼云开发者社区《》,作者:Pn问题描述Linux系统的云主机使用NVMe盘后,出现非预期的慢IO读写,导致系统或者应用程序对于NVMe磁盘的IO操作失败。系统将nvme盘踢出,在系统中通过lsblk查看不到nvme盘,后续的读写操作均失败,从而
在使用Flink CDC时,源表没有主键如何处理
本文分享自天翼云开发者社区《》,作者:5m在FlinkCDC中,当源表没有主键时,需要设置scan.incremental.snapshot.chunk.keycolumn参数来指定一个或多个列作为切分数据流的关键列。这些列用于在获取增量快照时切割数据流,
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
877
粉丝
16
获赞
40