https://ci.apache.org/projects/flink/flink-docs-release-1.6/monitoring/checkpoint_monitoring.html
#监控Checkpoint
Flink的Web界面提供了一个监视作业Checkpoint的选项卡。作业终止后,这些统计数据也可用。有四个不同的选项卡可显示有关Checkpoint的信息:概览,历史,摘要和配置。以下部分将依次介绍所有这些内容。
概述选项卡列出以下统计信息。请注意,JobManager进程结束后,这些指标就会消失,JobManager failover后,这些指标也会被重置。
- checkpoint个数
- 已触发: 自作业启动以来已触发的checkpoint总数。
- 进行中: 当前正在进行的checkpoint数量。
- 已完成: 自作业开始以来成功完成的checkpoint总数。
- 已失败: 自作业启动以来失败的checkpoint总数。
- 已恢复: 自作业启动以来的作业恢复次数。也就是作业重启的次数。请注意,使用savepoint启动作业,也算做一次恢复操作,如果JobManager在操作期间重启,这个指标也会被重置。
- 最新完成的checkpoint: 最新成功完成的checkpoint。单击More details可为您提供子任务级别更详细的统计信息。
- 最新失败的checkpoint: 最新的失败检查点。单击More details可为您提供子任务级别详细的统计信息。
- 最新Savepoint: 最新触发的保存点及其外部存储路径。单击More details可为您提供子任务级别详细的统计信息。
- 最新恢复信息: 有两种类型的还原操作。
- 从Checkpoint恢复:从周期性Checkpoint恢复作业。
- 从Savepoint恢复:从Savepoint恢复作业。
Checkpoint历史记录保留当前正在进行的Checkpoint以及最近触发的Checkpoint的统计信息,包括:
- ID: 触发的Checkpoint的ID。每个Checkpoint的ID都会从1开始累加。
- 状态: 检查点的当前状态,正在进行中(‘转圈’),完成(‘对号’),或失败(‘叉号’)。如果触发的checkpoint是savepoint,您将看到一个‘保存’符号。
- 触发时间: 在JobManager中触发checkpoint的时间。
- 最新确认: 在JobManager上收到最新确认的任何子任务的时间(如果尚未收到确认,则为n/a)。
- 端到端间隔: 从触发时间到最近确认的时间间隔(如果尚未收到确认,则为n/a)。完整checkpoint的端到端持续时间由确认checkpoint的最后一个子任务确定。这个时间通常比单个子任务需要实际checkpoint状态要大。
- 状态值: 所有已确认子任务的状态值。
- 已对齐缓冲量: 所有已确认子任务对齐缓冲的字节数。只有在检查过程中发生流对齐,此值> 0。如果checkpoint模式是AT_LEAST_ONCE这将始终为零,因为至少一次模式不需要流对齐。
您可以通过以下配置键配置设置web上展示的checkpoint个数。默认值是10
.
# Number of recent checkpoints that are remembered
jobmanager.web.checkpoints.history:15
摘要计算在对齐期间缓冲的端到端持续时间,状态大小和字节的所有已完成检查点的简单最小/平均/最大统计数据(有关这些含义的详细信息,请参阅历史记录)。
请注意,这些统计信息不会在JobManager丢失后继续存在,并且在JobManager进行故障转移时被重置。
这个配置列出您的流配置:
- 检查点模式: 恰好一次或至少一次。
- 间隔: 配置的检查点间隔。在此时间间隔内触发检查点。
- 超时: 超时后,JobManager取消检查点并触发新的检查点。
- 检查点之间的最小暂停: 检查点之间所需的最小暂停时间。检查点成功完成后,我们至少等待这段时间才能触发下一个检查点,这可能会延迟定期间隔。
- 最大并发检查点: 可以同时进行的最大检查点数。
- 持久化检查点: 启用或禁用。如果启用,则还列出外部化检查点的清除配置(删除时取消或保留)。