Thursday, May 23rd 2013, 11:16am UTC+2

You are not logged in.

  • Login
  • Register

figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

1

Friday, August 13th 2010, 2:59pm

Nagios Performance

HI ihr alle,

ich vermute ich habe mit meinem Nagios Server Performance Probleme, ich bekomme immer wieder Warnungen von von meinen Services "Check NRPE timeout after 10 seconds".
Der load von meinem Nagios Server ist auch immer wieder ziemlich hoch, z.b. 3.56, 2.64, 2.28.

Leider kann ich mit den Performance Infos aus der Weboberfläche nicht sehr viel anfangen. Könnt Ihr mir da eine Hilfestellung geben, damit ich dem Problem näher auf die Sprünge komme!

Hier meine Performance Werte aus der Weboberfläche:

Source code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Program-Wide Performance Information 
Services Actively Checked: Time FrameServices Checked <= 1 minute:65 (4.7%)<= 5 minutes:636 (46.1%)<= 15 minutes:1242 (90.0%)<= 1 hour:1377 (99.8%)Since program start: 1379 (99.9%)

MetricMin.Max.Average Check Execution Time: 0.01 sec9.66 sec0.827 sec Check Latency:0.00 sec7.94 sec0.515 sec Percent State Change:0.00%16.12%0.02% 


Services Passively Checked: Time FrameServices Checked <= 1 minute:0 (0.0%)<= 5 minutes:0 (0.0%)<= 15 minutes:0 (0.0%)<= 1 hour:0 (0.0%)Since program start: 0 (0.0%)

MetricMin.Max.Average Percent State Change: 0.00%0.00%0.00% 


Hosts Actively Checked: Time FrameHosts Checked <= 1 minute:3 (1.6%)<= 5 minutes:175 (91.6%)<= 15 minutes:191 (100.0%)<= 1 hour:191 (100.0%)Since program start: 191 (100.0%)

MetricMin.Max.Average Check Execution Time: 4.01 sec4.50 sec4.054 sec Check Latency:0.07 sec8.01 sec1.105 sec Percent State Change:0.00%7.63%0.04% 


Hosts Passively Checked: Time FrameHosts Checked <= 1 minute:0 (0.0%)<= 5 minutes:0 (0.0%)<= 15 minutes:0 (0.0%)<= 1 hour:0 (0.0%)Since program start: 0 (0.0%)

MetricMin.Max.Average Percent State Change: 0.00%0.00%0.00% 


Check Statistics: TypeLast 1 MinLast 5 MinLast 15 Min Active Scheduled Host Checks6174551Active On-Demand Host Checks015Parallel Host Checks6174552Serial Host Checks000Cached Host Checks014Passive Host Checks000Active Scheduled Service Checks686041926Active On-Demand Service Checks000Cached Service Checks000Passive Service Checks000External Commands000


Buffer Usage: TypeIn UseMax UsedTotal Available External Commands 004096


Wie immer bin ich über jeden Hinweis dankebar, bin leider überhaupt nicht der Linux kenner.

Viele Grüße

Figo

wal

Intermediate

Posts: 311

Gender: male

Location: Essen

Number of monitoring servers: 2

Nagios Version: -

Icinga Version: Icinga 1.0.3

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: ~250

Number of services: ~2200

OS: Lenny

Plugin Version: 1.4.14

NagVis Version: 1.5

Other Addons: PNP 0.6.6 - livestatus+check_mk GIT

2

Friday, August 13th 2010, 3:14pm

bring's doch bitte noch in eine lesbarere Form :\

figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

3

Friday, August 13th 2010, 3:22pm

Hallo Wal,

sorry, anbei ein Sreenshot.

Ich hoffe das man es so besser lesen kann.

Viele Grüße

Figo


figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

4

Monday, September 13th 2010, 3:35pm

Hi,

kann mir einer bezüglich Performance ein paar Tipps geben?

Inzwischen ist mein Hauptproblem dass ich ständig Checks habe die in ein Check_NRPE: socket Timeout after 10 seconds laufen.
Da ich jetzt nicht der Linux Speziallist bin, habe ich mal einen Kollegen auf den Server schauen lassen, der hat gemeint, dass das Problem wohl sei dass zum Teil 20 bis 40 Checks gleichzeitig ausgeführt werden und die CPU (Intel Xeon 3,0 GHZ) das nicht schafft.
Ein anderer freundlicher Kollege meinte, dass es nicht an der CPU liegen könnte, er meint das die Scripte bestimmt von mir falsch eingerichtet worden sind. Die CPU müsste auch 400 Checks gleichzeitig locker packen. :S

Was meint Ihr dazu? ?(

Figo

tesso

Professional

Posts: 625

Gender: male

Number of monitoring servers: 1

Nagios Version: 3.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 88

Number of services: 690

OS: Debian etch

Plugin Version: 1.4.14

NagVis Version: 1.4.rc3

NDO Version: 1.4b7

Other Addons: NSClient++ ,PNP 0.4.13,NPCD,dokuwiki

5

Monday, September 13th 2010, 5:28pm

Nach deinem Screenshots macht dein Server weniger Checks als meiner. Nur habe ich einen P4 damit beauftragt. Das der Xeon-Prozessor der Schuldige sein soll, wage ich stark zu bezweifeln.

figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

6

Tuesday, September 14th 2010, 4:16pm

Hi Tesso,

okay also da läuft wirklich wo anders was schief. Habe nun einen 2. Prozessor eingebaut und den RAM erweitert. Zusätzlich hab ich das mitloggen der Performance Daten ausgeschaltet und ich habe den parameter max_conrurrent_checks in der nagios.cfg auf 10 gestellt und das verhalten bleibt das gleiche. Ich bekomme ständig NRPE_NT Timeouts.

Auf den Servern wo dieses Timeout erscheint bekomm ich immer folgende Fehlermeldung:

Source code

1
 2010-09-14 16:02:25; 2104; 4;Error: reached max retry on SSL_accept, aborting. 2:-1 


Habe dazu ja auch schon ein 2 Thread gemacht.

Kann es daran liegen, dass ich sehr viele Standard checks habe, die ich über Gruppen und Templates auf vielen Servern eingerichtet habe und diese gleichzeitig versuchen zu checken? Oder hat jm. eine Idee was ich mit dieser Fehlermeldung anfangen kann :( ?(

*ich könnt echt heulen* Nagios lief so gut und ich habe eine super gute Akzeptanz des Nagios bei den Kollegen hinbekommen. Da ich leider jetzt an diesem Problem schon zu lange rumsuche, geht die akzeptanz natürlich in Keller und Sie sind am überlegen "was professionelles" anzuschaffen *grrr* :cursing:

Also bin für jeden Tip zu haben!

Figo

tesso

Professional

Posts: 625

Gender: male

Number of monitoring servers: 1

Nagios Version: 3.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 88

Number of services: 690

OS: Debian etch

Plugin Version: 1.4.14

NagVis Version: 1.4.rc3

NDO Version: 1.4b7

Other Addons: NSClient++ ,PNP 0.4.13,NPCD,dokuwiki

7

Tuesday, September 14th 2010, 4:33pm

Bist du sicher das die betreffenden Server sauber konfiguriert sind? Nagios IP erlaubt? Passwort das selbe? Keine Tippfehler? etc.....

Kopier doch mal zum testen eine Konfiguration von einem funktionierenden Server als Vorlage.

Ich bin mir fast sicher, daß der Fehler auf den Clients zu finden ist.

figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

8

Tuesday, September 14th 2010, 4:55pm

Hi,

ich hoffe das sie sauber konfiguriert sind. Das Problem kommt ja auch erst seit ca 4 Wochen auf davor kam es noch nicht. Die Meldung tritt bei allen Servern mit NRPE überwachung auf. Meist 1x mal und beim nächste retry_check ist wieder alles gut! Dann kommt es bei einem anderen Server und anderem Check vor. Also bunt gemischt immer bei verschiedenen Servern und bei unterschiedlichen Checks! :?: :wacko:

Da es ja meist funktioniert gehe ich nicht von einem Passwort Tippfehler aus.
Nagios IP stimmt.

Hier mal ne Konfig des NRPE von einem Server. An dem es gerade nicht ging. (der Pagefile check ging nicht).

Source code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
#############################################################################
# Sample NRPE Config File korrekt 
#
# NOTES:
# This is a sample configuration file for the NRPE_NT service.  It needs to be
# located on the remote host that is running the NRPE_NT service, not the host
# from which the check_nrpe client is being executed.
#############################################################################



# PORT NUMBER
# Port number we should wait for connections on.

server_port=5666

# SERVER ADDRESS
# Address that nrpe should bind to in case there are more than one interface
# and you do not want nrpe to bind on all interfaces.

#server_address=192.168.1.1

# ALLOWED HOST ADDRESSES
# This is a comma-delimited list of IP address of hosts that are allowed
# to talk to the NRPE daemon.
#
# NOTE: The daemon only does rudimentary checking of the client's IP
#   	address.

allowed_hosts=172.30.1.35

# COMMAND ARGUMENT PROCESSING
# This option determines whether or not the NRPE_NT service will allow clients
# to specify arguments to commands that are executed
# *** ENABLING THIS OPTION IS A SECURITY RISK! *** 
#
# Values: 0=do not allow arguments, 1=allow command arguments

dont_blame_nrpe=0

# DEBUGGING OPTION
# This option determines whether or not debugging messages are logged to the
# eventlog.
# Values: 0=debugging off, 1=debugging on

debug=1

# COMMAND TIMEOUT
# This specifies the maximum number of seconds that the NRPE_NT service will
# allow plugins to finish executing before killing them off.

command_timeout=30

# INCLUDE CONFIG FILE
# This directive allows you to include definitions from an external config file.

#include=<somefile.cfg>

# INCLUDE CONFIG DIRECTORY
# This directive allows you to include definitions from config files (with a
# .cfg extension) in one or more directories (with recursion).
#NOTE: This option is currently ignored with NRPE_NT!
#include_dir=<somedirectory>
#include_dir=<someotherdirectory>

# LOGLEVEL / NRPE_NT only
# severity of events logged to nrpe_nt.log if debug = 1
# Useful Values:
# 1: Log Critical 
# 4: Log Errors (Default)
# 6: Log Informational 
# 7: Log Debug 
loglevel=4

# USE_WIN_METACHARS / NRPE_NT only
# use NASTY_METACHARS_WIN, allow \ and " to allow easier passing of 
# pathnames as parameter
# Values: 0=use default NASTY_METACHARS definition, 1=use relaxed NASTY_METACHARS_WIN definition 
use_win_metachars=1

# COMMAND DEFINITIONS
# Command definitions that this daemon will run.  Definitions
# are in the following format:
#
# command[<command_name>]=<command_line>
#
# When the daemon receives a request to return the results of <command_name>
# it will execute the command specified by the <command_line> argument.
#
# Unlike Nagios, the command line cannot contain macros - it must be
# typed exactly as it should be executed.
#
# Note: Any plugins that are used in the command lines must reside
# on the machine that this daemon is running on!  The examples below
# assume that you have plugins installed in a D:\NRPE_NT
# directory.  Also note that you will have to modify the definitions below
# to match the argument format the plugins expect.  Remember, these are
# examples only!

# The following examples use no command arguments...

#command[check_hallo]=D:\NRPE_NT\hallo.exe
#command[check_perl]=D:\bin\perl.exe D:\NRPE_NT\test.pl
command[disk-c]=c:\Programme\nagios\nrpe\bin\diskspace_nrpe_nt.exe c: 90 95
command[disk-d]=c:\Programme\nagios\nrpe\bin\diskspace_nrpe_nt.exe d: 90 95
command[cpu]=c:\Programme\nagios\nrpe\bin\cpuload_nrpe_nt.exe 85 99
command[pagefile]=C:\Programme\nagios\nrpe\bin\nagiosplugincol-v0.3-bin-win32\check_pagefile.exe --used-warn-percent=60% --used-crit-percent=80%


command[nt_service_CTX_XML]=c:\Programme\nagios\nrpe\bin\service_nrpe_nt.exe "Citrix XML Service"
command[nt_service_CTX_DRUCK]=c:\Programme\nagios\nrpe\bin\service_nrpe_nt.exe "Citrix Druckmanagerdienst"
command[nt_service_CTX_IMA]=c:\Programme\nagios\nrpe\bin\service_nrpe_nt.exe "Citrix Independent Management Architecture"
command[nt_service_WIN_UPDATE]=c:\Programme\nagios\nrpe\bin\service_nrpe_nt.exe "Automatische Updates"

command[nt_citrix_load]=c:\Perl\bin\perl.exe c:\Programme\nagios\nrpe\bin\check_generic.pl -e "c:\Programme\nagios\nrpe\bin\citrix-load.bat" -w ">9999" -c ">10000" "Citrix Server Status" 
command[nt_USER_COUNT]=c:\Perl\bin\perl.exe c:\Programme\nagios\nrpe\bin\check_generic.pl -e "c:\Programme\nagios\nrpe\bin\citrix-user-anzahl.bat" -w ">40" -c ">50" "User auf dem Server" 

command[restart_CTX_XML]=c:\Programme\nagios\nrpe\bin\ctx-xml-dienst-starten.bat
command[restart_CTX_DRUCK]=c:\Programme\nagios\nrpe\bin\ctx-print-dienst-starten.bat
command[restart_CTX_IMA]=c:\Programme\nagios\nrpe\bin\ctx-ima-dienst-starten.bat
command[restart_WIN_UPDATE]=c:\Programme\nagios\nrpe\bin\win-update-dienst-starten.bat



# The following examples allow user-supplied arguments and can
# only be used if NRPE_NT  was compiled with support for 
# command arguments *AND* the dont_blame_nrpe directive in this
# config file is set to '1'...

#command[check_arg]=D:\NRPE_NT\testarg.cmd $ARG1$
#command[check_arg]=D:\NRPE_NT\testarg.exe -H $ARG1$ -p $ARG2$

tesso

Professional

Posts: 625

Gender: male

Number of monitoring servers: 1

Nagios Version: 3.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 88

Number of services: 690

OS: Debian etch

Plugin Version: 1.4.14

NagVis Version: 1.4.rc3

NDO Version: 1.4b7

Other Addons: NSClient++ ,PNP 0.4.13,NPCD,dokuwiki

9

Tuesday, September 14th 2010, 5:13pm

Ich kenne nrpe_nt nicht. Die Version auf sourceforge ist von 2006. Ich nutze auf allen Windowsmaschinen nsclient++.


Du könntest auf alle Fälle mal das Loglevel hochsetzen und schauen ob mehr Infos kommen. Ich sehe auch in deiner cfg nichts von SSL.

Posts: 34

Birthday: Jul 5th

Gender: male

Location: Offenbach

Occupation: Administrator für Systemmanagement

Number of monitoring servers: einen echten Server, 2 Virtuelle Server via XEN

Hobbies: Sportfotografieren

Nagios Version: Version 3.2.1 + 3.2.3 OMD 0.52

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: ca. 2000 geplant ca. 2400

Number of services: Testserver 9500 , Prod.Serv.. 13000 bis max. 25000

OS: Server Suse 10.2 + SUSE 11.1, Clients Linux von Suse8 bis Suse 11, Redhat 5,Debian, WIndows

Plugin Version: nagios-plugins-1.4.14+15+16, fuer USV(via snmp),

NagVis Version: Nagvis 1.5

Other Addons: nrpe 2.12, pnp4nagios 0.6.13, nsca-2.7.2 (auch haendisch Puffer erweitert) jetzt auch 2.9.1, check_multi 0.20, nsclient++ 0.3.8 32bit + 64bit,

10

Tuesday, September 14th 2010, 5:48pm

Einbindung nrpe ueber xinetd

Hallo,

ist der nrpe auf den NagiosServer ueber xinetd eingebunden, dann lohnt es sich mal mit dem Parameter cps am ende zu versuchen:
# cat /etc/xinetd.d/nrpe
# default: on
# description: NRPE (Nagios Remote Plugin Executor)
service nrpe
{
flags = REUSE
socket_type = stream
port = 5666
wait = no
user = netmon
group = netadm
server = /usr/local/nagios/bin/nrpe
server_args = -c /usr/local/nagios/etc/nrpe.cfg --inetd
log_on_failure += USERID
disable = no
only_from = 127.0.0.1
cps = 9999 1
}
das sind die gleichzeitig offenen Session und bei ueberschreitung die Auszeit.
Keine gewähr, aber ein Versuch.


Dann xinetd neustarten.


Gruß

Thomas Schäfer

figo

Trainee

Posts: 138

Birthday: Nov 15th 1986 (26)

Gender: male

Location: Stuttgart

Occupation: Fachinformatiker für Systemintegration

Nagios Version: keine

Icinga Version: 1.7.2

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 246

Number of services: 1746

OS: Debian 6.0.6

Plugin Version: 1.4.15

Other Addons: OMD

11

Tuesday, January 24th 2012, 4:27pm

ich habe inzwischen einen großen Performance Killer gefunden:

Wir haben bei uns in der Firma nagstamon im Einsatz und es kommt immer wieder vor, vorallem unter win7, dass die Anfragen von diesem Tool den Nagiosserver zu spamen. Dann die Abfrageintervalle im Nagstamon hochsetzten und es ist alles gut! :D

Gruß