Skip to main content

告警治理

SagooIoT 系统的告警管理模块提供了一套灵活的告警处理机制,包括告警处理、合并、升级、降级等功能。通过合理配置系统参数,可以实现高效的告警治理,提高运维效率。

系统参数配置

以下是需要在 SagooIoT 系统参数配置中添加的告警管理相关参数:

参数名称参数键名默认值说明
告警处理周期alert.process.interval30秒定期处理告警的时间间隔
告警通知周期alert.notification.interval5分钟发送告警通知的最小时间间隔
告警首发后重复次数alert.repetition.count3从发生告警开始多少次后触发告警通知
告警合并时间窗口alert.merge.time.window30秒在此时间窗口内的相同告警将被合并
告警最大合并次数alert.max.merge.count10单个告警最多可以合并的次数
告警升级计数次数alert.upgrade.after.count100告警重复此次数后将升级告警级别
告警级别长时间窗口后升级alert.upgrade.after.long.duration24小时告警持续此时间后将升级到更高级别
告警级别中时间窗口后升级alert.upgrade.after.medium.duration12小时告警持续此时间后将升级到中等级别
告警级别降级时间窗口alert.downgrade.after48小时告警在此时间内未再次触发将降级

参数说明及建议设置

告警处理周期 (alert.process.interval)

  • 说明:系统定期处理告警的时间间隔。
  • 建议:根据系统规模和告警频率进行调整。对于大型系统或告警频繁的环境,可以设置较短的间隔(如 10s-30s);对于小型系统或告警较少的环境,可以适当延长(如 1m-5m)。

告警通知周期 (alert.notification.interval)

  • 说明:发送告警通知的最小时间间隔,用于防止频繁发送通知。
  • 建议:根据运维团队的响应能力和告警重要性来设置。一般可以设置为 5m-15m,确保不会错过重要告警,同时又不会频繁打扰运维人员。

告警首发后重复次数 (alert.repetition.count)

  • 说明:告警首次发生后,告警多少次触发告警通知,用于防止刚开始的误报。
  • 建议:跟据接入设备的情况来设置。一般可以设置为 3-10,确保不会进行初始的误报。

告警合并时间窗口 (alert.merge.time.window)

  • 说明:在此时间窗口内的相同告警将被合并,减少重复告警。
  • 建议:根据系统的告警特性来设置。对于可能快速重复触发的告警,可以设置较短的时间(如 30s-5m);对于变化较慢的指标,可以设置较长的时间(如 10m-30m)。

告警最大合并次数 (alert.max.merge.count)

  • 说明:单个告警最多可以合并的次数,防止过度合并掩盖问题。
  • 建议:通常可以设置为 10-50 之间。过低可能导致告警过于频繁,过高可能导致重要信息被掩盖。

告警升级计数次数 (alert.upgrade.after.count)

  • 说明:告警重复此次数后将升级告警级别,用于突出持续性问题。
  • 建议:可以设置为 50-200 之间。根据系统的稳定性和告警的重要程度来调整。

告警级别长时间窗口后升级 (alert.upgrade.after.long.duration)

  • 说明:告警持续此时间后将升级到更高级别,用于强调长期存在的问题。
  • 建议:可以设置为 12h-48h。根据问题的严重程度和期望的解决时间来调整。

告警级别中时间窗口后升级 (alert.upgrade.after.medium.duration)

  • 说明:告警持续此时间后将升级到中等级别,是一个中间升级步骤。
  • 建议:可以设置为 6h-24h,应小于长时间窗口的值。

告警级别降级时间窗口 (alert.downgrade.after)

  • 说明:告警在此时间内未再次触发将降级,用于减少已解决或不再重要的告警的干扰。
  • 建议:可以设置为 24h-72h。要确保此值大于升级时间,以避免告警级别频繁变化。

配置注意事项

  1. 平衡敏感度:配置这些参数时,需要在及时发现问题和避免过多干扰之间找到平衡。
  2. 定期review:建议定期检查这些配置的效果,并根据实际运维经验进行调整。
  3. 考虑系统规模:大型系统可能需要更频繁的处理和更短的合并窗口,而小型系统可以采用相对宽松的配置。
  4. 告警级别协调:确保升级和降级的时间窗口设置合理,避免告警级别频繁波动。

通过合理配置这些参数,您可以显著提高告警系统的效率,减少误报和重复告警,同时确保重要问题能够及时得到关注和处理。