关于开源监控Hyperic 警报的几个问题

 Hyperic 的警报功能可提供

  • 当用户为资源预先指定的条件满足时,触发该资源警报。
  • 通知指定的人员。
  • 跟踪,解决警报问题的状况。
  • 分析警报及警报的历史操作。

Hyperic 警报机制

对于某一个指定的资源,需要用户为该资源设置一个警报规则:一个度量值或一个事件信号。

当指定的测量或事件报告时,该如何去做;当警报发生时,Hyperic会记录该事件信息,并在Hyperic的用户界面执行您定义的行动,包括发送电子邮件和手机短信通知,产生OpenNMS陷阱,或开始一个升级。

Hyperic警报定义的一般过程

Hyperic根据用户预先建立的警报定义创建资源警报。警报定义指定的条件应该采取主动的警报模式。警报条件涉及到Hyperic收集该资源的度量和事件跟踪。指定一个特定的度量条件和警报发生时应该采取的行动,例如:“可用性小于100%”。指定一个事件跟踪的条件:发生警报时得事件日志,配置文件的变化及应该采取的行动。当一个警报发生时,警报定义也指定了Hyperic应该进行如何操作。你可以在Hyperic用户界面设置警报定义,根据警报提示选择指定的条件和操作。警报发生时,必须设置一个最低警报定义,而行动是可选的。

在HQ用户界面的警报

任何警报发生后会立即把警报状态及历史显示在HQ页面,显示在在仪表盘的最近警报模块。

警报的响应:修复和确认

当一个警报发生时,它的状态为未修复状态,它将一直显示在HQ的界面,直到警报状态更改为修复状态。Hyperic提供了为警报标记为修复状态的机制。你能在Hyperic用户界面标记一个警报为修复状态,如果多个警报因同样的警报定义发生了警报,你可以通过“修复所有”去修复这些警报。

一个升级的警报也有一个“确认”状态。表明有关负责方已经查看到这个问题。当一个升级警报发生时,还是“未确认”状态,直到相关负责人在Hyperic用户界面确认了这个警报。

启用和禁用警报定义

在任何时间,警报的定义都是可以启用或禁用的。当警报定义启用时,HQ的警报引擎计算警报的条件和规则并发生相应的警报。当禁用警报定义时,警报不会发生。HQ提供了启动和禁用警报定义的机制。

警报定义可以启用的状态:

  • 用户在Hyperic用户界面警报是禁用状态。
  • 每次警报发生时,如果警报设置为自动禁用。以及发生的警报标记为“修复”时,重新启用警报定义。
  •  在Hyperic用户界面,全局警报定义设置为禁用状态时。

警报定义可以禁用的状态:

  • 警报定义暂时还处于升级的一个步骤。
  • 如果警报触发,设置禁用警报定义,直到警报被修复后,重新启用警报定义。
  • 在Hyperic用户界面,全局警报定义设置为启用状态时。

控制警报和通知的选项

控制警报和通知量目的是加快检测和解决问题的过程。当多个警报因同样的问题发生或重复的警报通知时,可快速做出检测和响应。当以下情况时,需要降低过度的警报和通知:

  •   警报发生的原因是根本原因之一,而不是很多原因时。                                               
  •   处于“未修复”状态的警报的问题仍然存在时,需要引起注意。
  •   一个单一的问题不会导致多余的通知。

Hyperic 提供了减少报警数量的选择范围。并可以在警报超过管理水平时采取相关行动。

赋予每个重复升级的警报定义最好的办法就是防止重复的警报。一个升级是一系列发送警报通知的日程表。当警报发生时,HQ警报通知会根据升级计划去操作。并在升级期间,不会再次发生警报。只有在升级计划结束之后(因为所有的步骤已经完成或警报被标记为“修复”状态),警报定义才会再次发生。你可以设定重复的升级计划,直到警报被修复。这样可以防止重复同样触发条件的警报。

为防止重复警报的另一种方法是:配置每个警报的定义,设置警报一旦发生后禁用警报。如果这样,一旦警报发生时,就会禁用该警报。并且当警报修复时就会重新启用。

应对警报和通知风暴

如果由于某种原因导致警报的数量或通知失控,你可以立即使用HQ服务器配置全局控制。

  •   禁用所有的警报定义:所有资源的警报不会再发生,并且在升级过程中的通知定义也将完成。
  •   禁用所有的通知:不会发送任何警报通知。目前正在进行的升级也会停止,不再进行任何通知。