Difference between revisions of "Havarie-Plan"
(→Havarie-Plan) |
(→Havarie-Plan) |
||
| Line 3: | Line 3: | ||
== Werkzeugkasten == | == Werkzeugkasten == | ||
| − | == Systemzustand & Ressourcen (CPU, RAM, Load)== | + | == 1. Systemzustand & Ressourcen (CPU, RAM, Load) == |
| − | |||
| − | + | === Grundlegend === | |
| − | + | <code>top</code> / <code>htop</code> – laufende Prozesse, CPU/RAM | |
| − | + | <code>atop</code> – sehr detailliert (CPU, RAM, I/O, Netzwerk) | |
| − | + | <code>uptime</code> – Load Average | |
| − | + | <code>free -h</code> – Speicherübersicht | |
| − | + | <code>vmstat 1</code> – CPU, I/O, Speicher | |
| − | Tiefergehend | + | === Tiefergehend === |
| − | pidstat – Prozessbezogene | + | <code>pidstat</code> – Prozessbezogene Statistiken |
| − | mpstat – CPU-Auslastung pro Core | + | <code>mpstat</code> – CPU-Auslastung pro Core |
| − | numactl, numastat – NUMA-Analyse | + | <code>numactl</code>, <code>numastat</code> – NUMA-Analyse |
| − | + | == 2. Storage & I/O == | |
| − | |||
| − | + | === Übersicht === | |
| − | + | <code>df -hT</code> – Dateisysteme & Typen | |
| − | + | <code>du -sh *</code> – Speicherverbrauch | |
| − | + | <code>lsblk -f</code> – Blockgeräte | |
| − | + | <code>mount</code>, <code>findmnt</code> | |
| − | + | === I/O-Analyse === | |
| − | + | <code>iostat -xz 1</code> – Latenz, I/O-Wait | |
| − | + | <code>iotop</code> – Disk-Last pro Prozess | |
| − | + | <code>blktrace</code>, <code>blkparse</code> – Low-Level | |
| − | + | === Dateisysteme === | |
| − | + | <code>fsck</code> | |
| − | + | <code>tune2fs</code>, <code>dumpe2fs</code> | |
| − | + | <code>xfs_repair</code>, <code>xfs_growfs</code> | |
| − | |||
| − | + | == 3. Netzwerk == | |
| − | + | === Basis === | |
| − | + | <code>ip a</code>, <code>ip r</code>, <code>ip n</code> | |
| − | + | <code>ss -tulpn</code> | |
| − | + | <code>ping</code>, <code>tracepath</code>, <code>traceroute</code> | |
| − | + | <code>arp</code>, <code>ip neigh</code> | |
| − | + | === Traffic & Debugging === | |
| − | + | <code>tcpdump</code> | |
| − | + | <code>termshark</code> | |
| − | + | <code>iftop</code> | |
| − | + | <code>nload</code> | |
| − | + | <code>ethtool</code> | |
| − | + | === Erweiterte Tools === | |
| − | + | <code>conntrack</code> | |
| − | + | <code>tc</code> | |
| − | |||
| − | + | <code>mtr</code> | |
| − | + | == 4. Logs & Events == | |
| − | + | === Standard === | |
| − | / | + | <code>journalctl -xe</code> |
| − | + | <code>journalctl -u <service></code> | |
| − | + | <code>dmesg -T</code> | |
| − | + | <code>/var/log/syslog</code>, <code>/var/log/messages</code> | |
| − | + | === Analyse === | |
| − | + | <code>grep</code>, <code>egrep</code>, <code>rg</code> | |
| − | + | <code>awk</code>, <code>sed</code> | |
| − | + | <code>less +F</code> | |
| − | + | === Audit & Logrotation === | |
| − | |||
| − | + | <code>logrotate -d</code> | |
| − | + | <code>ausearch</code>, <code>auditctl</code> | |
| − | + | == 5. Prozesse & Services == | |
| − | systemd | + | === systemd === |
| − | + | <code>systemctl status</code> | |
| − | + | <code>systemctl list-units --failed</code> | |
| − | + | <code>systemctl show</code> | |
| − | + | <code>systemd-analyze blame</code> | |
| − | + | <code>systemd-analyze critical-chain</code> | |
| − | + | === Debugging === | |
| − | + | <code>strace -p <PID></code> | |
| − | |||
| − | + | <code>lsof</code> | |
| − | + | <code>pstree -ap</code> | |
| − | + | <code>coredumpctl</code> | |
| − | + | == 6. Hardware & Kernel == | |
| − | + | <code>lscpu</code>, <code>lsmem</code> | |
| − | + | <code>lsusb</code>, <code>lspci</code> | |
| − | + | <code>dmidecode</code> | |
| − | + | <code>uname -a</code> | |
| − | / | + | <code>lsmod</code>, <code>modprobe</code> |
| − | + | <code>sysctl -a</code> | |
| − | + | == 7. Sicherheit == | |
| − | + | <code>last</code>, <code>lastlog</code>, <code>who</code> | |
| − | + | <code>faillog</code> | |
| − | + | <code>getenforce</code>, <code>sestatus</code> | |
| − | iptables -L -nv / | + | <code>iptables -L -nv</code> |
| − | + | <code>nft list ruleset</code> | |
| − | + | == 8. Performance & Spezialtools == | |
| − | + | <code>perf</code> | |
| − | + | <code>bpftrace</code> | |
| − | + | <code>sysdig</code> | |
| − | + | <code>dstat</code> | |
| − | + | <code>sar</code> | |
| − | |||
| − | + | == 9. Container & Virtualisierung == | |
| − | + | === Docker === | |
| − | docker | + | <code>docker stats</code> |
| − | + | <code>docker inspect</code> | |
| − | + | <code>docker logs</code> | |
| − | + | === Kubernetes === | |
| − | kubectl | + | <code>kubectl describe</code> |
| − | + | <code>kubectl logs</code> | |
| − | + | <code>kubectl top</code> | |
| − | + | === Virtualisierung === | |
| − | + | <code>virsh</code> | |
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | </ | ||
| + | <code>virt-top</code> | ||
| + | |||
| + | == 10. Typische Probleme == | ||
| + | |||
| + | {| class="wikitable" | ||
| + | |||
| + | ! Problem !! Werkzeuge | ||
| + | Server langsam | ||
| + | - | ||
| + | Netzwerkprobleme | ||
| + | - | ||
| + | Disk voll | ||
| + | - | ||
| + | Service startet nicht | ||
| + | - | ||
| + | Kernel-Fehler | ||
| + | } | ||
Revision as of 13:02, 15 January 2026
Havarie-Plan
== Werkzeugkasten ==
== 1. Systemzustand & Ressourcen (CPU, RAM, Load) ==
=== Grundlegend ===
<code>top</code> / <code>htop</code> – laufende Prozesse, CPU/RAM
<code>atop</code> – sehr detailliert (CPU, RAM, I/O, Netzwerk)
<code>uptime</code> – Load Average
<code>free -h</code> – Speicherübersicht
<code>vmstat 1</code> – CPU, I/O, Speicher
=== Tiefergehend ===
<code>pidstat</code> – Prozessbezogene Statistiken
<code>mpstat</code> – CPU-Auslastung pro Core
<code>numactl</code>, <code>numastat</code> – NUMA-Analyse
== 2. Storage & I/O ==
=== Übersicht ===
<code>df -hT</code> – Dateisysteme & Typen
<code>du -sh *</code> – Speicherverbrauch
<code>lsblk -f</code> – Blockgeräte
<code>mount</code>, <code>findmnt</code>
=== I/O-Analyse ===
<code>iostat -xz 1</code> – Latenz, I/O-Wait
<code>iotop</code> – Disk-Last pro Prozess
<code>blktrace</code>, <code>blkparse</code> – Low-Level
=== Dateisysteme ===
<code>fsck</code>
<code>tune2fs</code>, <code>dumpe2fs</code>
<code>xfs_repair</code>, <code>xfs_growfs</code>
== 3. Netzwerk ==
=== Basis ===
<code>ip a</code>, <code>ip r</code>, <code>ip n</code>
<code>ss -tulpn</code>
<code>ping</code>, <code>tracepath</code>, <code>traceroute</code>
<code>arp</code>, <code>ip neigh</code>
=== Traffic & Debugging ===
<code>tcpdump</code>
<code>termshark</code>
<code>iftop</code>
<code>nload</code>
<code>ethtool</code>
=== Erweiterte Tools ===
<code>conntrack</code>
<code>tc</code>
<code>mtr</code>
== 4. Logs & Events ==
=== Standard ===
<code>journalctl -xe</code>
<code>journalctl -u <service></code>
<code>dmesg -T</code>
<code>/var/log/syslog</code>, <code>/var/log/messages</code>
=== Analyse ===
<code>grep</code>, <code>egrep</code>, <code>rg</code>
<code>awk</code>, <code>sed</code>
<code>less +F</code>
=== Audit & Logrotation ===
<code>logrotate -d</code>
<code>ausearch</code>, <code>auditctl</code>
== 5. Prozesse & Services ==
=== systemd ===
<code>systemctl status</code>
<code>systemctl list-units --failed</code>
<code>systemctl show</code>
<code>systemd-analyze blame</code>
<code>systemd-analyze critical-chain</code>
=== Debugging ===
<code>strace -p <PID></code>
<code>lsof</code>
<code>pstree -ap</code>
<code>coredumpctl</code>
== 6. Hardware & Kernel ==
<code>lscpu</code>, <code>lsmem</code>
<code>lsusb</code>, <code>lspci</code>
<code>dmidecode</code>
<code>uname -a</code>
<code>lsmod</code>, <code>modprobe</code>
<code>sysctl -a</code>
== 7. Sicherheit ==
<code>last</code>, <code>lastlog</code>, <code>who</code>
<code>faillog</code>
<code>getenforce</code>, <code>sestatus</code>
<code>iptables -L -nv</code>
<code>nft list ruleset</code>
== 8. Performance & Spezialtools ==
<code>perf</code>
<code>bpftrace</code>
<code>sysdig</code>
<code>dstat</code>
<code>sar</code>
== 9. Container & Virtualisierung ==
=== Docker ===
<code>docker stats</code>
<code>docker inspect</code>
<code>docker logs</code>
=== Kubernetes ===
<code>kubectl describe</code>
<code>kubectl logs</code>
<code>kubectl top</code>
=== Virtualisierung ===
<code>virsh</code>
<code>virt-top</code>
== 10. Typische Probleme ==
{| class="wikitable"
! Problem !! Werkzeuge
Server langsam
-
Netzwerkprobleme
-
Disk voll
-
Service startet nicht
-
Kernel-Fehler
}
== zuviele Zugriffe ==
<pre>
var/run/openvpn
.status auf undef prüfen, ob es zuviele sind
cat *.status | grep UNDEF | wc -l (zählt die undef)
wenn ja, kann in der Einstellung die Anmeldungen pro Zeiteinheit herunter gesetzt werden
var/lcportal/persistent/dc/openvpn/server-tun0.conf
connect-freq 10 2 ( 10 Anmeldungen pro 2 sek)
Systemauslastung
htop