Havarie-Plan

From
Revision as of 12:59, 15 January 2026 by Tom (talk | contribs) (Havarie-Plan)
Jump to: navigation, search

Havarie-Plan

== Werkzeugkasten ==

== Systemzustand & Ressourcen (CPU, RAM, Load)==
Grundlegend

top / htop – laufende Prozesse, CPU/RAM-Last

atop – sehr detailliert, inkl. I/O & Netzwerk

uptime – Load Average

free -h – Speicherbelegung

vmstat 1 – CPU-Wait, I/O, Speicher

watch -n1 free -h

Tiefergehend

pidstat – Prozessbezogene CPU/RAM/I/O-Statistik

mpstat – CPU-Auslastung pro Core

numactl, numastat – NUMA-Analyse (Server!)

2️⃣ Storage & I/O-Probleme
Klassiker

df -hT – Dateisysteme & Typen

du -sh * – Speicherfresser

lsblk -f – Blockgeräte & Mounts

mount, findmnt

I/O-Analyse

iostat -xz 1 – Latenz & I/O-Wait (sehr wichtig)

iotop – Prozesse mit hoher Disk-Last

blktrace, blkparse – Low-Level (Expertenmodus)

Dateisysteme

fsck – Konsistenzprüfung

tune2fs, dumpe2fs

xfs_repair, xfs_growfs

3️⃣ Netzwerk-Analyse & Connectivity
Basis

ip a, ip r, ip n

ss -tulpn – Ports & Services

ping, tracepath, traceroute

arp, ip neigh

Traffic & Debugging

tcpdump – unverzichtbar

termshark – TUI-Frontend für tcpdump

iftop – Live-Traffic pro Verbindung

nload – Gesamttraffic

ethtool, ethtool -k/-S

Erweiterte Tools

conntrack, conntrack-tools

tc – Traffic Control

mtr – Ping + Traceroute kombiniert

4️⃣ Logs & Events (oft der Schlüssel 🔑)
Standard

journalctl -xe

journalctl -u <service>

dmesg -T

/var/log/syslog, /var/log/messages

Analyse & Suche

grep, egrep, rg (ripgrep)

awk, sed

less +F (Live-Follow)

Log-Probleme

logrotate -d

ausearch, auditctl (Auditd)

5️⃣ Prozesse, Services & Abstürze
Systemd

systemctl status

systemctl list-units --failed

systemctl show <service>

systemd-analyze blame

systemd-analyze critical-chain

Debugging

strace -p <PID>

lsof -p <PID> / lsof -i

pstree -ap

coredumpctl

6️⃣ Hardware & Kernel
Hardwareinfos

lscpu, lsmem

lsusb, lspci

dmidecode

free, numactl

Kernel & Treiber

uname -a

modprobe, lsmod

sysctl -a

/proc, /sys

7️⃣ Sicherheit & Zugriffe

last, lastlog, who

faillog

getenforce, sestatus (SELinux)

ausearch, auditctl

iptables -L -nv / nft list ruleset

8️⃣ Performance- & Spezialtools (optional, aber stark)

perf – Kernel/CPU-Profiling

bpftrace – moderne Live-Analyse

sysdig – Events & Container

dstat – Alles auf einmal

sar / sysstat – Historische Performance

9️⃣ Container & Virtualisierung (falls relevant)
Docker

docker stats

docker inspect

docker logs

Kubernetes

kubectl describe

kubectl logs

kubectl top

Virtualisierung

virsh

virt-top

🔟 Typische Fehlerfälle → Tool-Empfehlung
Problem	Tools
Server „lahm“	top, vmstat, iostat, atop
Netzwerk spinnt	ip, ss, tcpdump, mtr
Disk voll	df, du, lsof +L1
Service startet nicht	systemctl, journalctl
Sporadische Hänger	sar, perf, bpftrace
Kernel-Fehler	dmesg, journalctl -k


zuviele Zugriffe

 
var/run/openvpn

.status auf undef prüfen, ob es zuviele sind

cat *.status | grep UNDEF | wc -l   (zählt die undef)

wenn ja, kann in der Einstellung die Anmeldungen pro Zeiteinheit herunter gesetzt werden

var/lcportal/persistent/dc/openvpn/server-tun0.conf

connect-freq 10 2    ( 10 Anmeldungen pro 2 sek)


Systemauslastung

htop