aber ihrgendwas läuft da immer noch nicht ganz rund.
lassen wir der maschine noch mal paar minuten... so langsam wird es wieder normal.
systemctl --failed
hat mir gezeigt das ein paar services nicht gestartet wurden.
diese habe ich von hand gestartet, aber immer noch läuft srv01 bescheiden (nginx).
journalctl -b
zeigte mir das wie immer php5-fpm und einige andere dingen icht hoch bekommen sind nach dem reboot heute nacht.
wieso eigendlich ein reboot?
wurde der manuell gemacht oder der srv01 alleine?
/lib/systemd/system/php5-fpm.service
habe ich bearbeitet, wasi ch gemacht habe steht kommentiert drin,
ich mache mal einen (kontrollierten) reboot
um zu sehen ob jetzt alles hoch kommt.
ich bin weiter dran.
auch nach dem reboot kammen einige servies nicht hoch.
die mussten von hand gestartet werden.
php5-fpm, zerobin, spamassassin
journalctl -b
Dez 23 13:52:14 srv01.ffnw.de cron[836]: Error: bad username; while reading /etc/cron.d/partkeepr
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: Configuration file /etc/smartd.conf was parsed, found DEVICESCAN, scanning devices
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: Problem creating device name scan list
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: In the system's table of devices NO devices found to scan
Dez 23 13:52:21 srv01.ffnw.de rc.local[838]: sh: 0: Can't open /etc/fastd/ffol/up.sh
Dez 23 13:52:21 srv01.ffnw.de systemd[1]: rc-local.service: control process exited, code=exited status=127
Dez 23 13:52:21 srv01.ffnw.de systemd[1]: Failed to start /etc/rc.local Compatibility.
Dez 23 13:52:21 srv01.ffnw.de systemd[1]: Unit rc-local.service entered failed state.
Dez 23 13:52:14 srv01.ffnw.de cron[836]: Error: bad username; while reading /etc/cron.d/partkeepr
habe erstmal "root" eingetragen.
es sollte einen eigenen user geben, root hat zu viel rechte.
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: Configuration file /etc/smartd.conf was parsed, found DEVICESCAN, scanning devices
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: Problem creating device name scan list
Dez 23 13:52:15 srv01.ffnw.de smartd[821]: In the system's table of devices NO devices found to scan
war er, bei 1k pings war der Avg bei ~200ms.
deswegen auch im anderen tread hilkos odoo sei kapput
viel wichtiger ist aber was machen wir mit den services die nicht hoch
kommen?
php5-fpm.service start operation timed out. Terminating.
spamassassin.service start operation timed out. Terminating.
das Problem kann ich nachvollziehen. Ein paar Ideen:
* Ist die Maschine auf der die VM läuft überlastet? CPU Steal in Munin
anschauen. Sieht normal bzw. quasi nicht vorhanden aus. Da dürfte alles ok
sein.
* Problem fühlt sich nach disk io an. In Munin mal die disk io der Server
vergleichen. Srv01 hat eine 2-3x höhere IO als andere Server. Sieht für mich
noch nicht kritisch aus, könnte aber ein Grund sein.
** Netmon läuft wieder soweit ich weiß. Ich weiß aber nicht wo, ich sehe nur
die DB-Requests auf srv07. Netmon generiert RRDs, die massiv disk io erzeugen.
Ich hatte das mal mit rrdcached gelöst, weiß aber nicht wie da der Stand ist.
** Munin selbst generiert ja auch einiges an rrds. Wird hier rrdcached
verwendet? Wenn nein, ist das auch eine Quelle für hohes disk io
* Andere Möglichkeiten:
** Es sieht so aus als würde der Server HTTP Anfragen nur einzeln beantworten.
Gibts im nginx Probleme mit irgendeiner Einstellung a la MaxConnections oder
MaxParallelRequests?
Das ist erstmal nur ins Blaue geraten, weil ich einen konkreten Verursacher
gestern auch nicht direkt ausmachen konnte.
Zitat von Clemens John <clemens.john@floh1111.de>:
erstmal vielen dank das du dich beteiligst!
hier zeigen sich mir probleme die ich bis dato noch nie gesehen habe bei linux
auf einer art nett, aber auf der anderen art hilf los.
* Problem fühlt sich nach disk io an. In Munin mal die disk io der Server
vergleichen. Srv01 hat eine 2-3x höhere IO als andere Server. Sieht für mich
noch nicht kritisch aus, könnte aber ein Grund sein.
das vermute ich auch.
können wir auf der VM ihrgendwie das problem weiter eingrenzen?
"nmon" hilft sonst immer sehr gut, weil es alles auf einen blick zeigt.
** Munin selbst generiert ja auch einiges an rrds. Wird hier rrdcached
verwendet? Wenn nein, ist das auch eine Quelle für hohes disk io
gute idee, aber das problem hatten wir ja vor monaten gelöst.
picard@srv01 ~ % systemctl status rrdcached.service
● rrdcached.service - LSB: start the RRDtool data caching daemon
Loaded: loaded (/etc/init.d/rrdcached)
Active: active (running) since Mi 2015-12-23 19:26:15 CET; 5 days ago
CGroup: /system.slice/rrdcached.service
└─1155 /usr/bin/rrdcached -s munin -B -b /var/lib/munin/ -F -j /va...
picard@srv01 ~ % systemctl status rrdcached.service
● rrdcached.service - LSB: start the RRDtool data caching daemon
Loaded: loaded (/etc/init.d/rrdcached)
Active: active (running) since Di 2015-12-29 13:52:29 CET; 2s ago
und arbeitet immer noch.
* Andere Möglichkeiten:
** Es sieht so aus als würde der Server HTTP Anfragen nur einzeln beantworten.
Gibts im nginx Probleme mit irgendeiner Einstellung a la MaxConnections oder
MaxParallelRequests?
hast du an der nginx.conf was geändert?
dort ist eine änderung drin, von wann ist die?
ich habe heute den hebel worker_connections 2048; geändert.
aber das scheint auch nichts zu bewirken.
können wir gemeinsam noch mal überlegen ob oder was haben wir vor dem 23 o. 22.12 geändert?
nicht das wir beim support als deppen da stehen.