良玉的博客 点点滴滴,积水成河_良玉的博客_页游、手游linux运维工程师之路

nagios结合omsa监控服务器硬件

dell服务器可以安装omsa对服务器的硬件设备进行web界面的查看和管理
nagios监控omsa的报警主要是通过check_openmanage这个插件进行监控,安装omsa网上有很多方法,google一下即可,当我运用check_openmanage的时候,发现了很多问题,网上的博文均讲的不够清楚,
很是伤脑筋,比如添加到nagios commands.cfg中的自定义服务,都没有说清监控的是什么东东,而且全部把详细内容指向到check_openmanage的插件官网,貌似转载居多,不假思索。
首先,请通过google去查询下omsa的安装方法,omsa是同事装的,我只是看了下check_openmanage的文档。 check_openmanage的下载地址 “wget http://folk.uio.no/trondham/software/files/check_openmanage-3.7.3.tar.gz”
下载以后是一个压缩包,里面有一个check_openmanage的插件,我们就是用这个插件对omsa进行监控。
一般在安装完omsa的服务器上,同时会对snmp进行设置。
check_openmanage可以通过nrpe(local模式)和snmp(远程模式)进行使用。
我这里使用snmp远程使用方法。
先把check_openmanage这个插件cp到你的nagios插件目录,然后修改commands.cfg添加自定义模块
  1. define command{

  2. command_name omsa_status

  3. command_line $USER1$/check_openmanage -H $HOSTADDRESS$

  4. }

  5. #对mosa进行整体检测

  6. define command{

  7. command_name omsa_cpu

  8. command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only cpu -p

  9. }

  10. #检测cpu硬件

  11. define command{

  12. command_name omsa_temp

  13. command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only temp -w $ARG1$ -c $ARG2$ -P

  14. }

  15. #对服务器的温度进行监控,同时自定义阀值

  16. define command{

  17. command_name omsa_storage

  18. command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only srotage -p

  19. }

  20. #对存储设备进行监控

  21. define command{

  22. command_name omsa_intrusion

  23. command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only intrusion -p

  24. }

  25. #对服务器机箱锁状态进行监控

  26. define command{
            command_name    omsa_fans
            command_line    $USER1$/check_openmanage -H $HOSTADDRESS$ --only fans -p
    }

  27. #监控服务器风扇速度(如何自定义阀值还没有弄明白,如果有知道的朋友留言啊)

下一步定义services.cfg
  1. define service {

  2.         use test

  3.         host_name           test01

  4.         service_description omsa_status

  5.         check_command omsa_status

  6. }

  7. define service {
            use                 test
            host_name           test01
            service_description  omsa_cpu
            check_command       omsa_cpu

  8. }

  9. define service {
            use                 test
            host_name           test01
            service_description  omsa_temp
            check_command       omsa_temp!"0=30/15"!"0=3510"

  10. }

  11. define service {
            use                 test
            host_name           test01
            service_description  omsa_storage
            check_command       omsa_storage

  12. }

  13. define service {
            use                 test
            host_name           test01
            service_description  omsa_intrusion
            check_command       omsa_intrusion

  14. }

  15. define service {
            use                 test
            host_name           test01
            service_description  comsa_fans
            check_command       omsa_fans

  16. }

手动执行./check_openmanage -H x.x.x.x 
  1. OK - System: 'PowerEdge R410', SN: 'XXXXXXX', 24 GB ram (6 dimms), 1 logical drives, 2 physical drives

如果需要隐藏SN  可以加上参数“-hide-servicetag” 

GENERAL OPTIONS:

   -f, --config         Specify configuration file   指定配置文件路径
   -p, --perfdata       Output performance data [default=no]    输出全部信息
   -t, --timeout        Plugin timeout in seconds [default=30]   超时时间
   -c, --critical       Custom temperature critical limits       严重报警阀值
   -w, --warning        Custom temperature warning limits        警告阀值
   -F, --fahrenheit     Use Fahrenheit as temperature unit
   -d, --debug          Debug output, reports everything         debug查看
   -h, --help           Display this help text                   帮助
   -V, --version        Display version info                     查看版本

SNMP OPTIONS:

   -H, --hostname       Hostname or IP (required for SNMP)       指定IP
   -C, --community      SNMP community string [default=public]   
   -P, --protocol       SNMP protocol version [default=2]
   --port               SNMP port number [default=161]           默认端口
   -6, --ipv6           Use IPv6 instead of IPv4 [default=no]
   --tcp                Use TCP instead of UDP [default=no]

OUTPUT OPTIONS:

   -i, --info           Prefix any alerts with the service tag   
   -e, --extinfo        Append system info to alerts
   -s, --state          Prefix alerts with alert state
   -S, --short-state    Prefix alerts with alert state abbreviated
   -o, --okinfo         Verbosity when check result is OK
   -B, --show-blacklist Show blacklistings in OK output
   -I, --htmlinfo       HTML output with clickable links

CHECK CONTROL AND BLACKLISTING:

   -a, --all            Check everything, even log content      显示全部
   -b, --blacklist      Blacklist missing and/or failed components    黑名单功能
   --only               Only check a certain component or alert type   只检查某一项
   --check              Fine-tune which components are checked
   --no-storage         Don't check storage
在commands.cfg中我到的是--only
--only支持的项目有
  1. critical     Only output critical alerts. It is possible to use the --check option together with this option to adjust checks.
    warning     Only output warning alerts. It is possible to use the --check option together with this option to adjust checks.
    chassis     Only check chassis components, i.e. everything but storage and log content.
    storage     Only check storage components
    memory     Only check memory modules
    fans     Only check fans
    power     Only check power supplies
    temp     Only check temperatures
    cpu     Only check processors
    voltage     Only check voltage probes
    batteries     Only check batteries
    amperage     Only check power usage
    intrusion     Only check chassis intrusion
    sdcard     Only check removable flash media
    esmhealth     Only check ESM log health
    esmlog     Only check ESM log content
    alertlog     Only check alertlog content

同样我也附上官方的说明“http://folk.uio.no/trondham/software/check_openmanage.html”
nrpe的模式会降低nagios监控主机的性能的消耗。
temp的监控可以通过修改阀值来测试,其他的等出现故障再说吧


标签: nagiosomsa监控dell

作者:良玉 分类:Nagios 浏览:594 评论:0
留言列表
发表评论
来宾的头像