Tuesday, May 21st 2013, 6:35pm UTC+2

You are not logged in.

  • Login
  • Register

ThSpeck

Beginner

Posts: 16

Birthday: Feb 8th 1969 (44)

Gender: male

Occupation: Dipl. Informatiker

Nagios Version: NA

Icinga Version: 1.6.1 - 1.8

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: 300

Number of services: 8000

OS: Ubuntu (10.04 LTS, 12.04 LTS)

Plugin Version: 1.4.15

1

Friday, August 3rd 2012, 11:44am

Problem mit Acknowledge und Scheduled Downtime

Hiho

Bei einer meiner Icingainstallationen ist heute nacht etwas seltsames passiert, und zwar wurden Acknowledgements und (nachdem die nicht gegriffen haben) Versuche, die Services in scheduled Downtimes zu setzen, ignoriert.

Im Eventlog taucht das ganz zwar auf, aber die Services haben trotzdem die ganze Zeit weiter Notifikations verschickt.

Nachdem das grundlegende Problem dann heute morgen behoben wurde, bevor ich im Büro war, kann ich mit den speziell betroffenen Services nichts mehr sehen.

Bei anderen Problemen funktioniert im Moment aber alles wie es soll.

Hat von euch schon mal jemand etwas ähnliches erlebt, und wenn ja, was kann man dagegen tun?

Die eingesetzte Icingaversion ist 1.6.1 mit der klassischen Oberfläche, das drunterliegende OS ist Ubuntu 10.04 LTS.

Edit: Die Services waren aufgrund eines Timeouts bei der Abfrage (das waren ESXI Checks auf einem ESXi Host, dessen Management Dienst abgeschmiert war) im Zustand UNKNOWN. Ich bin mir im Moment nicht ganz sicher, ob das evtl. etwas mit dem Problem zu tun hat.

Andereseits habe ich gerade zwei SNMP-Checks in UNKNOWN, bei denen ACKs funktionert habe (und nachdem ich diese gelöscht habe) auch wieder funktionieren.

This post has been edited 1 times, last edit by "ThSpeck" (Aug 3rd 2012, 11:50am)


dnsmichi

Super Moderator

Posts: 5,981

Birthday: May 30th 1983 (29)

Gender: male

Location: Nürnberg

Occupation: Consultant / Developer beim besten Arbeitgeber der Welt @netways

Number of monitoring servers: Icinga: 4x dev, 10++ prod, Icinga2: 2x dev

Nagios Version: s/nagios/icinga/

Icinga Version: 1.9.0 / GIT

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1000+

Number of services: 15000+

OS: RHEL, Debian, SUSE

Plugin Version: 1.4.16

IDO-Version: 1.9.0 / GIT MySQL/Postgresql/Oracle

Other Addons: Icinga Web, PNP, check_multi, inGraph, EventDB, LConf

2

Friday, August 3rd 2012, 1:23pm

entsprechende (beispiel)configs und logs zur naeheren erlaeuterung des problems waeren hilfreich.
+++ Icinga / LConf Developer +++ Senior Consultant at []NETWAYS> +++
+++ Icinga 1.9 || Icinga 2 +++ Icinga Support || IRC +++

ThSpeck

Beginner

Posts: 16

Birthday: Feb 8th 1969 (44)

Gender: male

Occupation: Dipl. Informatiker

Nagios Version: NA

Icinga Version: 1.6.1 - 1.8

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: 300

Number of services: 8000

OS: Ubuntu (10.04 LTS, 12.04 LTS)

Plugin Version: 1.4.15

3

Friday, August 3rd 2012, 7:35pm

entsprechende (beispiel)configs und logs zur naeheren erlaeuterung des problems waeren hilfreich.
Einer der betroffenen Services:

define service {
#NAGIOSQL_CONFIG_NAME chk_esxi
hostgroup_name cat_srv_esx,cat_srv_esxi
service_description chk_esxi_cpuusage
display_name chk_esxi_cpuusage
use sh_standard_service,srv-pnp
check_command check_esxi!-l cpu -s usagemhz
register 1
}

Und die benutzten Templates:

define service {
name sh_standard_service
max_check_attempts 3
check_interval 5
retry_interval 5
check_period 24x7
notification_interval 30
notification_period 24x7
contact_groups admins
register 0
}

define service {
name srv-pnp
action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=$SERVICEDESC$' class='tips' rel='/pnp4nagios/index.php/popup?host=$HOSTNAME$&srv=$SERVICEDESC$
register 0
}

Wobei die Checks ja genau das getan haben wie sie sollten, nur das Acknowledgen und Schduled Downtimes nicht funktioniert haben.

Im (bereinigten, ich habe Meldungen, die für andere Hosts/Services kamen rausgefiltert, sowie Notifikationen, die nicht an mich bzw. Icingaadmin gingen) Event Log stellt sich das so dar:

Service Notification[08-03-2012 01:49:37] SERVICE NOTIFICATION: icingaadmin;srv_vms5_ka;chk_esxi_cpuusage;UNKNOWN;notify-service-by-email;(Service Check Timed Out)Service Notification[08-03-2012 01:49:37] SERVICE NOTIFICATION: sh_benzj;srv_vms5_ka;chk_esxi_cpuusage;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:49:37] SERVICE NOTIFICATION: sh_speckt;srv_vms5_ka;chk_esxi_cpuusage;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:49:36] SERVICE NOTIFICATION: sms_speckt;srv_vms5_ka;chk_esxi_cpuusage;UNKNOWN;notify-service-by-email;(Service Check Timed Out)External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_vmfs;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_status;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_mem;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_io;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpuusage;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:28:02] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpu;1343950069;1343975269;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_vmfs;2;1;0;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_status;2;1;0;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_mem;2;1;0;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_io;2;1;0;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpuusage;2;1;0;Icinga Admin;
External Command[08-03-2012 01:27:34] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpu;2;1;0;Icinga Admin;
Service Notification[08-03-2012 01:25:27] SERVICE NOTIFICATION: icingaadmin;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:25:27] SERVICE NOTIFICATION: sh_speckt;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:25:26] SERVICE NOTIFICATION: sms_speckt;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_vmfs;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_status;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_mem;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_io;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpuusage;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:25:14] EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpu;1343949901;1343975101;1;0;7200;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_vmfs;2;1;0;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_status;2;1;0;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_mem;2;1;0;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_io;2;1;0;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpuusage;2;1;0;Icinga Admin;
External Command[08-03-2012 01:24:43] EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpu;2;1;0;Icinga Admin;
Service Notification[08-03-2012 01:21:57] SERVICE NOTIFICATION: icingaadmin;srv_vms5_ka;chk_esxi_status;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:21:56] SERVICE NOTIFICATION: sh_speckt;srv_vms5_ka;chk_esxi_status;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Service Notification[08-03-2012 01:21:56] SERVICE NOTIFICATION: sms_speckt;srv_vms5_ka;chk_esxi_status;UNKNOWN;notify-service-by-email;(Service Check Timed Out)

Bis dato habe ich bei Icinga eigentlich an jeden Ausfall ein ACK bzw. eine scheduled Downtime setzen können, sowas wie heute nacht ist uns noch nie passiert.

Ich habe dann heute im Laufe des Tages auch nochmal versucht, mit dem User des Kollegen, der heute nacht Bereitschaft hatte ACk zu setzen und auch das hat wieder einwandfrei funktioniert.

Edit: kann man die Umwandlung von ";"+"(" in das ;( Smiley eigentlich verhindern?

ThSpeck

Beginner

Posts: 16

Birthday: Feb 8th 1969 (44)

Gender: male

Occupation: Dipl. Informatiker

Nagios Version: NA

Icinga Version: 1.6.1 - 1.8

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: 300

Number of services: 8000

OS: Ubuntu (10.04 LTS, 12.04 LTS)

Plugin Version: 1.4.15

4

Friday, August 3rd 2012, 7:46pm

Gerade nochmal etwas gesucht, auch in /var/log/messages finde ich nichts, was mir einen Begrüdung liefern würde, warum die Befehle nicht ausgeführt wurden:

Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpu;2;1;0;Icinga Admin;
Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpuusage;2;1;0;Icinga Admin;
Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_io;2;1;0;Icinga Admin;
Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_mem;2;1;0;Icinga Admin;
Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_status;2;1;0;Icinga Admin;
Aug 3 01:24:43 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_vmfs;2;1;0;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpu;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpuusage;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_io;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_mem;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_status;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:14 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_vmfs;1343949901;1343975101;1;0;7200;Icinga Admin;
Aug 3 01:25:26 icinga-ka icinga: SERVICE NOTIFICATION: sms_speckt;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Aug 3 01:25:27 icinga-ka icinga: SERVICE NOTIFICATION: sh_speckt;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Aug 3 01:25:27 icinga-ka icinga: SERVICE NOTIFICATION: icingaadmin;srv_vms5_ka;chk_esxi_mem;UNKNOWN;notify-service-by-email;(Service Check Timed Out)
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpu;2;1;0;Icinga Admin;
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_cpuusage;2;1;0;Icinga Admin;
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_io;2;1;0;Icinga Admin;
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_mem;2;1;0;Icinga Admin;
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_status;2;1;0;Icinga Admin;
Aug 3 01:27:34 icinga-ka icinga: EXTERNAL COMMAND: ACKNOWLEDGE_SVC_PROBLEM;srv_vms5_ka;chk_esxi_vmfs;2;1;0;Icinga Admin;
Aug 3 01:27:36 icinga-ka icinga: SERVICE ALERT: srv_sa1_ka;chk_cpu;WARNING;SOFT;1;WARNING: 1m: average load 91% > warning
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpu;1343950069;1343975269;1;0;7200;Icinga Admin;
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_cpuusage;1343950069;1343975269;1;0;7200;Icinga Admin;
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_io;1343950069;1343975269;1;0;7200;Icinga Admin;
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_mem;1343950069;1343975269;1;0;7200;Icinga Admin;
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_status;1343950069;1343975269;1;0;7200;Icinga Admin;
Aug 3 01:28:02 icinga-ka icinga: EXTERNAL COMMAND: SCHEDULE_SVC_DOWNTIME;srv_vms5_ka;chk_esxi_vmfs;1343950069;1343975269;1;0;7200;Icinga Admin;