Monday, May 20th 2013, 1:55am UTC+2

You are not logged in.

  • Login
  • Register

Dear visitor, welcome to Monitoring-Portal.
Although this is a german monitoring forum, please don't hesitate to post in English. Nearly everybody here understands you and will answer in English as well.
If this is your first visit here, please read the Help. It explains how this page works. You must be registered before you can use all the page's features. Please use the registration form to register here or read more information about the registration process. If you are already registered, please login here.

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

1

Saturday, May 14th 2011, 12:27pm

neues Tutorial: OMD-Cluster mit Pacemaker

Hallo zusammen,

ich habe mich in der Firma zuletzt damit auseinandergesetzt, OMD im Cluster aufzubauen. Zunächst hatte ich nur in unserem internen Wiki dokumentiert - vielleicht aber interessiert dieses Projekt auch andere, sodass ich mich entschlossen habe, die Doku als Tutorial umzuschreiben und zu veröffentlichen.

Hier gehts zum Teil 1 von 6:
Tutorial: Nagios/OMD-Cluster mit Pacemaker/DRBD – Teil 1

Das Tutorial startet bei Null (=bei der Installation der Nodes) und führt Schritt für Schritt durch Installation und Konfiguration aller benötigten Pakete und erkärt dann, wie nebst Service-IP, DRBD-Master etc. auch die OMD-Sites als Cluster-Ressourcen abgelegt werden können.

Würde mich natürlich freuen, wenn etwas Feedback zurückkommt :)

Grüße & bis zum Workshop

Simon

This post has been edited 1 times, last edit by "simmerl" (May 14th 2011, 12:32pm)


usauerbrey

Beginner

Posts: 30

Birthday: Jul 1st 1954 (58)

Gender: male

Location: Dortmund

Number of monitoring servers: 2

Nagios Version: OMD 0.46

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: 20

Number of services: 240

OS: Ubuntu 10.04

Plugin Version: OMD 0.46

NagVis Version: OMD 0.46

2

Saturday, May 14th 2011, 3:53pm

Hallo Simon

Das Tutorial ist wirklich klasse. Ist genau der Level, den ich für sowas brauche ("Das Tutorial startet bei Null").

Danke Uwe

pitchfork

Administrator

Posts: 18,436

Location: Kassel

Occupation: Sysadmin SAP / Linux / AIX

Number of monitoring servers: 2

Hobbies: Motorrad fahren, wenns die Zeit erlaubt :-)

Nagios Version: 3.2.3 ( OMD )

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 360

Number of services: 6700

OS: Debian 6.0

Plugin Version: 1.4.x

Other Addons: SNMPTT, NagTrap, check_mk, PNP-0.6.x. Thruk

3

Saturday, May 14th 2011, 9:29pm

Hallo Simon,

sehr gutes Tutorial! Sauber aufgebaut und sehr gut verständlich.

2 Fragen habe ich noch.

Wie hast du die drei Netzwerk Interfaces separiert? Wie verhinderst du eine Split Brain Situation?
Wie robust ist DRBD falls es zum Split Brain kommt?

Hätte nicht auch /opt/omd komplett eine DRBD Resource sein können?

Jörg

PS: Kannst du das Cluster Buch zum Workshop mitbringen?
+++ PNP Developer +++ PNP 0.6.21 ist online ! +++
Hilfreiche Infos gefunden? Dann schnell ein paar Cent flattrn
OMD - Open Monitoring Distribution

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

4

Saturday, May 14th 2011, 11:32pm

Hi Jörg,

danke, freut mich! Split Brain - das gebe ich gern zu - kommt in meinem Tutorial etwas zu kurz, was u.a. daran liegt, dass es in meinen ganzen Tests (ich habe das Szenario insg. 4x nachgebaut) nie vorkam. Ist aber ein Thema, über das ich sicher noch separat schreiben werde.
Die größte Nuss, die zu knacken war - und damit will ich Deine andere Frage beantworten - war, wie ich OMD clusterfähig, bzw. die Sites als Ressourcen einrichten kann. /opt/omd war in meinem ersten Versuch tatsächlich komplett im DRBD. Mir fiel aber dann auf, dass OMD auf dem sekundären Node dann total verkrüppelt ist - Du hast z.b. Einträge in /etc/alternatives, die ausführbaren Dateien sind aber auf dem inaktiven Node nicht mehr da, sondern im DRBD, das gefiel mir nicht. Das versions-Verzeichnis gehört imho auf jeden Host.
Ebenfalls noch zu kurz kommt, wie ein korrektes Update von OMD auszusehen hat - auf dem inaktiven Node zeigen ja die Symlinks für apache und sites ins Nirvana. Da schreibe ich gern noch mal gesondert zu.

Danke für den Hinweis mit den NICs. Ich vergaß zu erwähnen, dass eth0 ins LAN reicht, eth1 und eth2 hingegen ein isoliertes Netzwerk bilden (im Virtualbox-Jargon: internal Network). eth1 und eth2 meines Produktivsystems sind direkt per Netzwerkkabel auf den anderen Node verbunden. Wer es übertreiben will, kann diese beiden Karten ganz dem redundanten Corosync-Ring überlassen, und eine vierte Karte (eth3) zur DRBD-Synchronisation verwenden. Oder man bondet... oder ... oder... :)

Grüße,
Simon

P.S.: Buch bringe ich mit.

Posts: 6

Birthday: Mar 11th 1981 (32)

Gender: male

Location: Oberösterreich

Occupation: IT Manages Services

Number of monitoring servers: 2

Nagios Version: 3.2.1

Distributed monitoring: Nein

Redundant monitoring: Ja

Number of hosts: ~ 170

Number of services: ~ 1000

OS: Ubuntu 10 LTS

Plugin Version: 1.4.15

NDO Version: 2

Other Addons: NagiosQL, pnp4nagios,

5

Thursday, May 19th 2011, 8:48am

Guten Morgen,

Super Guide, einfach und verständlich.

Jedoch war es mir nicht möglich den OCF-Agent zu downloaden. Oder stell ich mich einfach nur zu "patschert" an?
Bekomme immer nur den Inhalt des fehlerhaften Skripts, aber nicht das Skript selbst.

Gibt es dieses Skript sonst noch wo zum download oder könnte es mir jemand zukommen lassen?

Edit: dieser hier ist gemeint:

Source code

1
http://blog.simon-meggle.de/wp-content/uploads/2011/05/OMD.sh


lg
Festi

stefanok

Beginner

Posts: 34

Birthday: Mar 1st 1969 (44)

Gender: male

Location: Uruguay

Occupation: Selbstständig

Number of monitoring servers: 1

Hobbies: Pferde

Nagios Version: omd 0.48

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: -

Number of services: -

OS: Debian Squeeze

Plugin Version: -

NagVis Version: -

NDO Version: -

IDO-Version: -

Perfparse Version: -

Other Addons: -

6

Saturday, May 21st 2011, 4:11am

Hola Simon

Kompliment, sehr sauber dokumentiert und ein sehr interessantes Thema.

Für mich gerade zum richtigen Zeitpunkt.

Gibt es einen speziellen Grund für die Benutzung von Ubuntu ?

Saludos
Stefano

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

7

Sunday, May 22nd 2011, 1:27pm

Hallo,
danke für die Rückmeldungen.
Gibt es dieses Skript sonst noch wo zum download oder könnte es mir jemand zukommen lassen?

Ich bin nun zurück aus dem Urlaub und habe den OCF-Downlod-Link gefixt:
http://blog.simon-meggle.de/wp-content/uploads/2011/05/OMD

Gibt es einen speziellen Grund für die Benutzung von Ubuntu ?

Nein, es gibt keinen speziellen Grund - natürlich lässt sich dieses Szenario genauso mit OpenSuse, CentOS etc. nachbauen - da ich persönlich gern zu Ubuntu bzw. Debian greife, habe ich das Tutorial einfach darauf aufgebaut.

Grüße!

Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

8

Friday, June 10th 2011, 1:27pm

Hallo zusammen,

zu aller erst einmal recht herzlichen Dank für das Tutorial!

Ich habe ein Problem mit Corosync. Als ich es starten wollte hat er zu erst einmal gemeckert, dass keine authkey Datei existiert, das fehlt ggfs. noch im Tutorial. Nachdem ich diese dann angelegt habe (sudo corosync-keygen) kriege ich folgenden Error beim Start von Corosync:

Source code

1
2
3
4
5
6
invoke-rc.d corosync start
 * Starting corosync daemon corosync                                            Jun 10 13:23:48 corosync [MAIN  ] Corosync Cluster Engine ('1.2.0'): started and ready to provide service.
Jun 10 13:23:48 corosync [MAIN  ] Corosync built-in features: nss
Jun 10 13:23:48 corosync [MAIN  ] Successfully read main configuration file '/etc/corosync/corosync.conf'.
Jun 10 13:23:48 corosync [MAIN  ] parse error in config: This totem parser can only parse version 2 configurations.
Jun 10 13:23:48 corosync [MAIN  ] Corosync Cluster Engine exiting with status -9 at main.c:1359.


Kann mir da jemand helfen?

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

9

Friday, June 10th 2011, 1:47pm

fixed.

Es fehlte ein simples "version: 2" in der corosync.conf.

Leider habe ich ein neues Problem. und zwar kommen die cluster hosts nicht "online" im DMC.

Source code

1
2
3
4
5
6
7
8
9
corosync-cfgtool -s
Printing ring status.
Local node ID 33620234
RING ID 0
        id      = 10.1.1.2
        status  = ring 0 active with no faults
RING ID 1
        id      = 10.1.2.2
        status  = ring 1 active with no faults


das scheint soweit ok, aber wenn ich "crm_mon" eingebe kommt:

Source code

1
Attempting connection to the cluster......................


und dann gehts nicht weiter.

Das corosync log zeigt die ganze zeit noch:

Source code

1
2
3
4
Jun 10 14:00:50 corosync [CONFDB] lib_init_fn: conn=0x8b3bec8
Jun 10 14:00:50 corosync [CONFDB] exit_fn for conn=0x8b3bec8
Jun 10 14:01:05 corosync [CONFDB] lib_init_fn: conn=0x8b3bec8
Jun 10 14:01:05 corosync [CONFDB] exit_fn for conn=0x8b3bec8


Ok, ich habe nun auch das gefixed, könnte man auch im Tutorial adden:

Die Datei etc/corosync/service.d/pcmk muss angelegt werden, mit folgendem Inhalt:

Source code

1
2
3
4
5
service {
	# Load the Pacemaker Cluster Resource Manager
	name: pacemaker
	ver:  0
}


Danach corosync neustarten!

This post has been edited 2 times, last edit by "Tommel" (Jun 10th 2011, 2:09pm)


simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

10

Monday, June 13th 2011, 1:19pm

Hi Tommel,

danke für die Rückmeldungen. Bin gestern erst aus dem Urlaub gekommen, deshalb die späte Antwort.

Es fehlte ein simples "version: 2" in der corosync.conf.

Die Datei etc/corosync/service.d/pcmk muss angelegt werden


Ups, kann gut sein, dass mir da ein paar Zeilen beim copy/paste runtergefallen sind. Beim "Version: 2" bin ich mir sicher. Was Du in die "etc/corosync/service.d/pcmk" eingetragen hast, steht bei mir vermutlich in der corosync.conf.

Morgen bin ich wieder in der Fabrik und schaue nach.

Grüße!
Simon

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

11

Tuesday, June 14th 2011, 9:59am

Der Abschnitt in Teil 2 des Tutorials, in dem die corosync.conf erwähnt wird, war vielleicht etwas missverständlich formuliert. Das Snippet zeigte die zu ändernden Zeilen, nicht die komplette Datei. Fügt man nur den Ausschnitt ein, fehlen sowohl der "version"-Eintrag als auch die "service"-Deklaration.

Der Klarheit halber habe ich nun die komplette Datei eingefügt.

Grüße,
Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

12

Monday, June 20th 2011, 11:18am

Vielen Dank :)

Hatte letzte Woche leider keine Zeit. Jetzt bekomme ich andere Fehler und musste DRBD neu installieren, ich habe alles direkt nach deinem Tutorial gemacht, allerdings bekomme ich bei der eingabe von lsmod | grep drbd keine ausgabe. Das modul wurde also nicht geladen.

Eine Idee woran das liegen kann?

MfG

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

13

Monday, June 20th 2011, 11:27am

Lässt sich der Ausgabe von
module-assistant auto-install drbd8
etwas entnehmen?

Grüße,
Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

14

Monday, June 20th 2011, 11:31am

Hilft das?

Source code

1
2
3
4
Erstelle symbolischen Link...
Der Symlink /usr/src/linux konnte nicht erstellt werden!
...
find: "/usr/src/modules/drbd8*": Datei oder Verzeichnis nicht gefunden


Ansonsten habe ich nichts entdecken können.

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

15

Monday, June 20th 2011, 12:03pm

Wurden neue Kernelheader installiert?
Versuch mal diesen Dreisatz:

Source code

1
2
3
module-assistant prepare 
module-assistant update
module-assistant auto-install drbd8 


Lass mich bitte wissen, ob das funkktioniert hat.
Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

16

Monday, June 20th 2011, 12:59pm

Hey,

ich habe vorhin testesweise einfach mal ein "module-assistant auto-install drbd" ohne der 8 am Ende eingegeben, dann kam folgender Error:

Source code

1
2
3
4
5
6
7
-module-assistant, Fehlermeldung--------------------+
    ¦ Installation des Quellcodes von drbd fehlgeschlagen.               ¦
    ¦                                                                    ¦
    ¦ Das Paket wird ignoriert. Möglicherweise muss etwas in die Datei  ¦
    ¦ sources.list einfgefügt werden, zum Beispiel contrib- und         ¦
    ¦ non-free-Archive.                                                  ¦
    ¦                                                     


Danach habe ich wieder geschaut und das DRBD Module war geladen... Daher habe ich jetzt deine Variante nicht mehr ausprobiert.

Soll ich trotzdem noch was machen?

Grüße

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

17

Monday, June 20th 2011, 1:12pm

Zeig mal, was

Source code

1
modinfo drbd | grep version


nun bringt...
Grüße
Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

18

Monday, June 20th 2011, 1:20pm

Source code

1
2
3
4
~# modinfo drbd | grep version
version:        8.3.11rc2
srcversion:     956480E925AED3759CCB4AF
vermagic:       2.6.32-32-generic-pae SMP mod_unload modversions 586TSC


Bis auf srcversion ist die Ausgabe auf beiden Nodes identisch.

Habe aber auch noch ein weiteres Problem und zwar kriege ich die Nodes im Cluster nicht online:

Source code

1
2
3
4
5
6
7
8
9
============
Last updated: Mon Jun 20 13:19:13 2011
Stack: openais
Current DC: NONE
2 Nodes configured, 2 expected votes
1 Resources configured.
============

OFFLINE: [ omdn1 omdn2 ]


Die Corosync log sagt:

Source code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Jun 20 13:19:50 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:19:50 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:19:50 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 18 (30 max) times
Jun 20 13:19:52 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:19:52 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:19:52 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 19 (30 max) times
Jun 20 13:19:54 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:19:54 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:19:54 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 20 (30 max) times
Jun 20 13:19:56 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:19:56 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:19:56 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 21 (30 max) times
Jun 20 13:19:58 corosync [CONFDB] lib_init_fn: conn=0x9b8cfa8
Jun 20 13:19:58 corosync [CONFDB] exit_fn for conn=0x9b8cfa8
Jun 20 13:19:58 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:19:58 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:19:58 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 22 (30 max) times
Jun 20 13:20:00 omdn1 crmd: [7088]: info: crm_timer_popped: Wait Timer (I_NULL) just popped!
Jun 20 13:20:00 omdn1 crmd: [7088]: WARN: lrm_signon: can not initiate connection
Jun 20 13:20:00 omdn1 crmd: [7088]: WARN: do_lrm_control: Failed to sign on to the LRM 23 (30 max) times


Im DMC stehen beide Nodes als "offline"

Grüße

simmerl

Professional

Posts: 1,194

Gender: male

Location: München

Occupation: Sysadmin / Network Monitoring Consultant

Number of monitoring servers: viele

Nagios Version: mehrere

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 100

Number of services: 2000

OS: OpenSuSe, Ubuntu, CentOS

Plugin Version: -

19

Monday, June 20th 2011, 1:58pm

Gibt es etwas, was in Deinem Setup vom Tutorial abweicht (Distribution, 32/64 Bit, Installationsmethode...)?

Welche Berechtigungen sind auf /var/run/heartbeat gesetzt?

Grüße,
Simon

Tommel

Intermediate

Posts: 173

Gender: male

Number of monitoring servers: 2

Nagios Version: 3.2.0

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 1+

Number of services: 1+

OS: OpenSuSE 11.1

Plugin Version: 1.4.13

NagVis Version: 1.5

Other Addons: PNP

20

Monday, June 20th 2011, 2:15pm

Source code

1
drwxr-xr-x  3 root      root       60 2011-06-20 13:15 heartbeat


Ich habe ein 32bit System. Vom Tutorial weicht ab, dass ich nur eine Platte anstatt zwei habe, dafür halt dementsprechend partioniere und ich habe nur eine Netzwerkkarte mit eben 3 Interfaces (eth0, eth0:1, eth0:2).

Ich hatte die Systeme ja schonmal online, hatte dann letzte Woche etwas anderes zutun und als ich mich dem heute wieder widmete und die VMs gestartet habe, wollten sie sich nicht mehr verbinden.