Analyse de performance Linux en 60 secondes
Source : Netflix Tech Blog – Linux Performance Analysis in 60,000 ms (2015)
Introduction
L’équipe Performance Engineering de Netflix a publié une méthode rapide d’analyse de performance sous Linux permettant d’obtenir une vision claire de l’état d’un serveur en seulement 60 secondes. L’objectif est d’exécuter une série de commandes simples pour identifier rapidement les goulots d’étranglement et orienter l’enquête vers les causes les plus probables.
1. Vérification de la charge système
Commande :
uptime
Affiche le temps depuis le dernier démarrage, le nombre d’utilisateurs connectés et la charge moyenne (1, 5 et 15 minutes). Une charge supérieure au nombre de cœurs CPU peut indiquer une saturation.
2. Erreurs système récentes
Commande :
dmesg | tail
Permet d’afficher les derniers messages du noyau pour identifier des erreurs matérielles, disques ou autres anomalies. Sur certains systèmes, l’équivalent journalctl -k -n 10
est recommandé.
3. Vue d’ensemble du système
Commande :
vmstat 1 5
Donne des informations sur la mémoire, le swap, le nombre de processus et l’activité CPU. La colonne %wa
(I/O wait) élevée peut indiquer un problème d’accès disque.
4. Utilisation CPU par cœur
Commande :
mpstat -P ALL 1 5
Affiche la répartition de l’utilisation CPU par cœur. Cela permet de détecter un déséquilibre ou un CPU saturé.
5. Processus consommateurs de ressources
Commande :
pidstat 1 5
Montre quels processus utilisent le plus de CPU et de mémoire. Permet d’identifier rapidement les services problématiques.
6. Activité disque
Commande :
iostat -xz 1 3
Indique le débit lecture/écriture, le temps d’attente (await) et l’utilisation du disque (%util). Une valeur proche de 100 % signale une saturation.
7. Utilisation réseau par interface
Commande :
sar -n DEV 1 3
Permet de mesurer les débits entrant et sortant par interface réseau.
8. État des connexions TCP
Commande :
sar -n TCP,ETCP 1 3
Affiche le nombre de connexions actives, passives et le taux de retransmissions. Un taux élevé de retransmissions indique des pertes de paquets ou un problème réseau.
9. Profilage CPU (optionnel)
Si la charge CPU est anormale, il est possible d’utiliser perf
pour analyser les fonctions consommatrices de ressources.
perf top
Ou pour un profil complet :
perf record -a -- sleep 30 perf report
Conclusion
En moins d’une minute, cette série de commandes fournit une vision globale de la santé du système. Elle permet d’orienter rapidement l’analyse vers le CPU, la mémoire, les disques ou le réseau, et de prendre les premières actions correctives.
Références
-
Brendan Gregg, spécialiste performance Linux chez Netflix