Difference between revisions of "Havarie-Plan"

From
Jump to: navigation, search
(Havarie-Plan)
(Havarie-Plan)
Line 3: Line 3:
 
== Werkzeugkasten ==
 
== Werkzeugkasten ==
  
== Systemzustand & Ressourcen (CPU, RAM, Load)==
+
== 1. Systemzustand & Ressourcen (CPU, RAM, Load) ==
Grundlegend
 
  
top / htop – laufende Prozesse, CPU/RAM-Last
+
=== Grundlegend ===
  
atop sehr detailliert, inkl. I/O & Netzwerk
+
<code>top</code> / <code>htop</code> laufende Prozesse, CPU/RAM
  
uptime Load Average
+
<code>atop</code> sehr detailliert (CPU, RAM, I/O, Netzwerk)
  
free -h Speicherbelegung
+
<code>uptime</code> Load Average
  
vmstat 1 – CPU-Wait, I/O, Speicher
+
<code>free -h</code> – Speicherübersicht
  
watch -n1 free -h
+
<code>vmstat 1</code> – CPU, I/O, Speicher
  
Tiefergehend
+
=== Tiefergehend ===
  
pidstat – Prozessbezogene CPU/RAM/I/O-Statistik
+
<code>pidstat</code> – Prozessbezogene Statistiken
  
mpstat – CPU-Auslastung pro Core
+
<code>mpstat</code> – CPU-Auslastung pro Core
  
numactl, numastat – NUMA-Analyse (Server!)
+
<code>numactl</code>, <code>numastat</code> – NUMA-Analyse
  
2️⃣ Storage & I/O-Probleme
+
== 2. Storage & I/O ==
Klassiker
 
  
df -hT – Dateisysteme & Typen
+
=== Übersicht ===
  
du -sh * Speicherfresser
+
<code>df -hT</code> Dateisysteme & Typen
  
lsblk -f Blockgeräte & Mounts
+
<code>du -sh *</code> Speicherverbrauch
  
mount, findmnt
+
<code>lsblk -f</code> – Blockgeräte
  
I/O-Analyse
+
<code>mount</code>, <code>findmnt</code>
  
iostat -xz 1 – Latenz & I/O-Wait (sehr wichtig)
+
=== I/O-Analyse ===
  
iotop Prozesse mit hoher Disk-Last
+
<code>iostat -xz 1</code> Latenz, I/O-Wait
  
blktrace, blkparse Low-Level (Expertenmodus)
+
<code>iotop</code> Disk-Last pro Prozess
  
Dateisysteme
+
<code>blktrace</code>, <code>blkparse</code> – Low-Level
  
fsck – Konsistenzprüfung
+
=== Dateisysteme ===
  
tune2fs, dumpe2fs
+
<code>fsck</code>
  
xfs_repair, xfs_growfs
+
<code>tune2fs</code>, <code>dumpe2fs</code>
  
3️⃣ Netzwerk-Analyse & Connectivity
+
<code>xfs_repair</code>, <code>xfs_growfs</code>
Basis
 
  
ip a, ip r, ip n
+
== 3. Netzwerk ==
  
ss -tulpn – Ports & Services
+
=== Basis ===
  
ping, tracepath, traceroute
+
<code>ip a</code>, <code>ip r</code>, <code>ip n</code>
  
arp, ip neigh
+
<code>ss -tulpn</code>
  
Traffic & Debugging
+
<code>ping</code>, <code>tracepath</code>, <code>traceroute</code>
  
tcpdump – unverzichtbar
+
<code>arp</code>, <code>ip neigh</code>
  
termshark – TUI-Frontend für tcpdump
+
=== Traffic & Debugging ===
  
iftop – Live-Traffic pro Verbindung
+
<code>tcpdump</code>
  
nload – Gesamttraffic
+
<code>termshark</code>
  
ethtool, ethtool -k/-S
+
<code>iftop</code>
  
Erweiterte Tools
+
<code>nload</code>
  
conntrack, conntrack-tools
+
<code>ethtool</code>
  
tc – Traffic Control
+
=== Erweiterte Tools ===
  
mtr – Ping + Traceroute kombiniert
+
<code>conntrack</code>
  
4️⃣ Logs & Events (oft der Schlüssel 🔑)
+
<code>tc</code>
Standard
 
  
journalctl -xe
+
<code>mtr</code>
  
journalctl -u <service>
+
== 4. Logs & Events ==
  
dmesg -T
+
=== Standard ===
  
/var/log/syslog, /var/log/messages
+
<code>journalctl -xe</code>
  
Analyse & Suche
+
<code>journalctl -u <service></code>
  
grep, egrep, rg (ripgrep)
+
<code>dmesg -T</code>
  
awk, sed
+
<code>/var/log/syslog</code>, <code>/var/log/messages</code>
  
less +F (Live-Follow)
+
=== Analyse ===
  
Log-Probleme
+
<code>grep</code>, <code>egrep</code>, <code>rg</code>
  
logrotate -d
+
<code>awk</code>, <code>sed</code>
  
ausearch, auditctl (Auditd)
+
<code>less +F</code>
  
5️⃣ Prozesse, Services & Abstürze
+
=== Audit & Logrotation ===
Systemd
 
  
systemctl status
+
<code>logrotate -d</code>
  
systemctl list-units --failed
+
<code>ausearch</code>, <code>auditctl</code>
  
systemctl show <service>
+
== 5. Prozesse & Services ==
  
systemd-analyze blame
+
=== systemd ===
  
systemd-analyze critical-chain
+
<code>systemctl status</code>
  
Debugging
+
<code>systemctl list-units --failed</code>
  
strace -p <PID>
+
<code>systemctl show</code>
  
lsof -p <PID> / lsof -i
+
<code>systemd-analyze blame</code>
  
pstree -ap
+
<code>systemd-analyze critical-chain</code>
  
coredumpctl
+
=== Debugging ===
  
6️⃣ Hardware & Kernel
+
<code>strace -p <PID></code>
Hardwareinfos
 
  
lscpu, lsmem
+
<code>lsof</code>
  
lsusb, lspci
+
<code>pstree -ap</code>
  
dmidecode
+
<code>coredumpctl</code>
  
free, numactl
+
== 6. Hardware & Kernel ==
  
Kernel & Treiber
+
<code>lscpu</code>, <code>lsmem</code>
  
uname -a
+
<code>lsusb</code>, <code>lspci</code>
  
modprobe, lsmod
+
<code>dmidecode</code>
  
sysctl -a
+
<code>uname -a</code>
  
/proc, /sys
+
<code>lsmod</code>, <code>modprobe</code>
  
7️⃣ Sicherheit & Zugriffe
+
<code>sysctl -a</code>
  
last, lastlog, who
+
== 7. Sicherheit ==
  
faillog
+
<code>last</code>, <code>lastlog</code>, <code>who</code>
  
getenforce, sestatus (SELinux)
+
<code>faillog</code>
  
ausearch, auditctl
+
<code>getenforce</code>, <code>sestatus</code>
  
iptables -L -nv / nft list ruleset
+
<code>iptables -L -nv</code>
  
8️⃣ Performance- & Spezialtools (optional, aber stark)
+
<code>nft list ruleset</code>
  
perf – Kernel/CPU-Profiling
+
== 8. Performance & Spezialtools ==
  
bpftrace – moderne Live-Analyse
+
<code>perf</code>
  
sysdig – Events & Container
+
<code>bpftrace</code>
  
dstat – Alles auf einmal
+
<code>sysdig</code>
  
sar / sysstat – Historische Performance
+
<code>dstat</code>
  
9️⃣ Container & Virtualisierung (falls relevant)
+
<code>sar</code>
Docker
 
  
docker stats
+
== 9. Container & Virtualisierung ==
  
docker inspect
+
=== Docker ===
  
docker logs
+
<code>docker stats</code>
  
Kubernetes
+
<code>docker inspect</code>
  
kubectl describe
+
<code>docker logs</code>
  
kubectl logs
+
=== Kubernetes ===
  
kubectl top
+
<code>kubectl describe</code>
  
Virtualisierung
+
<code>kubectl logs</code>
  
virsh
+
<code>kubectl top</code>
  
virt-top
+
=== Virtualisierung ===
  
🔟 Typische Fehlerfälle → Tool-Empfehlung
+
<code>virsh</code>
Problem Tools
 
Server „lahm“ top, vmstat, iostat, atop
 
Netzwerk spinnt ip, ss, tcpdump, mtr
 
Disk voll df, du, lsof +L1
 
Service startet nicht systemctl, journalctl
 
Sporadische Hänger sar, perf, bpftrace
 
Kernel-Fehler dmesg, journalctl -k
 
</pre>
 
  
 +
<code>virt-top</code>
 +
 +
== 10. Typische Probleme ==
 +
 +
{| class="wikitable"
 +
 +
! Problem !! Werkzeuge
 +
Server langsam
 +
-
 +
Netzwerkprobleme
 +
-
 +
Disk voll
 +
-
 +
Service startet nicht
 +
-
 +
Kernel-Fehler
 +
}
  
  

Revision as of 13:02, 15 January 2026

Havarie-Plan

== Werkzeugkasten ==

== 1. Systemzustand & Ressourcen (CPU, RAM, Load) ==

=== Grundlegend ===

<code>top</code> / <code>htop</code> – laufende Prozesse, CPU/RAM

<code>atop</code> – sehr detailliert (CPU, RAM, I/O, Netzwerk)

<code>uptime</code> – Load Average

<code>free -h</code> – Speicherübersicht

<code>vmstat 1</code> – CPU, I/O, Speicher

=== Tiefergehend ===

<code>pidstat</code> – Prozessbezogene Statistiken

<code>mpstat</code> – CPU-Auslastung pro Core

<code>numactl</code>, <code>numastat</code> – NUMA-Analyse

== 2. Storage & I/O ==

=== Übersicht ===

<code>df -hT</code> – Dateisysteme & Typen

<code>du -sh *</code> – Speicherverbrauch

<code>lsblk -f</code> – Blockgeräte

<code>mount</code>, <code>findmnt</code>

=== I/O-Analyse ===

<code>iostat -xz 1</code> – Latenz, I/O-Wait

<code>iotop</code> – Disk-Last pro Prozess

<code>blktrace</code>, <code>blkparse</code> – Low-Level

=== Dateisysteme ===

<code>fsck</code>

<code>tune2fs</code>, <code>dumpe2fs</code>

<code>xfs_repair</code>, <code>xfs_growfs</code>

== 3. Netzwerk ==

=== Basis ===

<code>ip a</code>, <code>ip r</code>, <code>ip n</code>

<code>ss -tulpn</code>

<code>ping</code>, <code>tracepath</code>, <code>traceroute</code>

<code>arp</code>, <code>ip neigh</code>

=== Traffic & Debugging ===

<code>tcpdump</code>

<code>termshark</code>

<code>iftop</code>

<code>nload</code>

<code>ethtool</code>

=== Erweiterte Tools ===

<code>conntrack</code>

<code>tc</code>

<code>mtr</code>

== 4. Logs & Events ==

=== Standard ===

<code>journalctl -xe</code>

<code>journalctl -u <service></code>

<code>dmesg -T</code>

<code>/var/log/syslog</code>, <code>/var/log/messages</code>

=== Analyse ===

<code>grep</code>, <code>egrep</code>, <code>rg</code>

<code>awk</code>, <code>sed</code>

<code>less +F</code>

=== Audit & Logrotation ===

<code>logrotate -d</code>

<code>ausearch</code>, <code>auditctl</code>

== 5. Prozesse & Services ==

=== systemd ===

<code>systemctl status</code>

<code>systemctl list-units --failed</code>

<code>systemctl show</code>

<code>systemd-analyze blame</code>

<code>systemd-analyze critical-chain</code>

=== Debugging ===

<code>strace -p <PID></code>

<code>lsof</code>

<code>pstree -ap</code>

<code>coredumpctl</code>

== 6. Hardware & Kernel ==

<code>lscpu</code>, <code>lsmem</code>

<code>lsusb</code>, <code>lspci</code>

<code>dmidecode</code>

<code>uname -a</code>

<code>lsmod</code>, <code>modprobe</code>

<code>sysctl -a</code>

== 7. Sicherheit ==

<code>last</code>, <code>lastlog</code>, <code>who</code>

<code>faillog</code>

<code>getenforce</code>, <code>sestatus</code>

<code>iptables -L -nv</code>

<code>nft list ruleset</code>

== 8. Performance & Spezialtools ==

<code>perf</code>

<code>bpftrace</code>

<code>sysdig</code>

<code>dstat</code>

<code>sar</code>

== 9. Container & Virtualisierung ==

=== Docker ===

<code>docker stats</code>

<code>docker inspect</code>

<code>docker logs</code>

=== Kubernetes ===

<code>kubectl describe</code>

<code>kubectl logs</code>

<code>kubectl top</code>

=== Virtualisierung ===

<code>virsh</code>

<code>virt-top</code>

== 10. Typische Probleme ==

{| class="wikitable"

! Problem !! Werkzeuge
Server langsam
-
Netzwerkprobleme
-
Disk voll
-
Service startet nicht
-
Kernel-Fehler
}


== zuviele Zugriffe ==
<pre> 
var/run/openvpn

.status auf undef prüfen, ob es zuviele sind

cat *.status | grep UNDEF | wc -l   (zählt die undef)

wenn ja, kann in der Einstellung die Anmeldungen pro Zeiteinheit herunter gesetzt werden

var/lcportal/persistent/dc/openvpn/server-tun0.conf

connect-freq 10 2    ( 10 Anmeldungen pro 2 sek)


Systemauslastung

htop