Seuil d'alerte pour serveur Citrix

Bonjour dans le cadre de notre projet de supervision, je dois définir des seuils d’alertes sur plusieurs critères :



% RAM disponible

% SWAP utilisé

% Espace HDD occupé

% CPU utilisé



En gros, nous avons défini ces valeurs à surveiller pour nos serveurs XenApp. Le seul problème c’est que je n’ai qu’une vague idée des seuils a définir.



% RAM disponible - S’il reste - de 20% de RAM libre alors on envoi une alerte

% SWAP utilisé - Si la taille de la SWAP est à + de 70% alors on envoi une alerte

% Espace HDD occupé - Si l’on est à + de 80% d’espace disque utilisé alors on envoi une alerte

% CPU utilisé - Si l’on est à + de 90% d’utilisation de CPU (pendant + de 10sec) alors on envoi une alerte.



Quelqu’un pourrait il, svp m’aider sur la définition de ces seuils (par rapport à sa propre expérience) ?



De la même manière, je dois définir les seuils mais aussi la durée car il est évident que pour le CPU par exemple on peut avoir un pic, mais si l’utilisation du CPU est à 90% pendant 5min, il faut qu’on sache pourquoi et donc envoyer une alerte.



Si jamais vous voyez d’autres valeurs critiques à ajouter, merci d’avance de me le faire savoir. ;D



Merci d’avance

la méthode classique est de surveiller le comportement d’un serveur dans une journée type durant la production pour voir comment il réagit.

le mieux est donc de faire un log perfmon sur les compteurs que tu souhaites mettre en place



en revanche, est-ce vraiment utile le % de place sur le HDD ?

tu devrais, sur au moins un des serveurs de la ferme, avoir une alerte sur les échecs de communication avec le DataStore et avec le serveur de licences Citrix

Je rajouterais le % context switches



Thin, le compteur sur le HDD c’est utile, pour avoir vu des serveurs qui explosent en vol ;D

ah? je pensais naivement que vu la taille des HDD actuels SCSI … avec un disque système et un autre disque pour les applis par exemple…

Je te rassure c’est arrivé récemment mais sur des serveurs anciens avec 36 go de disques et une appli qui s’est mis à générer du log (5 go par user).

Le % interrupt Time sur le processeur est pas mal non plus, une fois que tu as réussi à déterminer les valeurs qui te conviennent ::). Lorsque notre antivirus fait des siennes ou que notre san subi un ralentissement, c’est cette valeur là qui nous alerte le plus rapidement.

"Gregorator77" wrote:
Le % interrupt Time sur le processeur est pas mal non plus, une fois que tu as réussi à déterminer les valeurs qui te conviennent ::). Lorsque notre antivirus fait des siennes ou que notre san subi un ralentissement, c'est cette valeur là qui nous alerte le plus rapidement.

Je rebondis sur ce que tu viens de dire car c'est un peu notre problème actuellement.

A savoir, nous sommes sur une infra des XenApp hostés sur du XenServer et streamés via PVS.
En ce moment, nous avons eu régulièrement des blocages et des gros problèmes de performances avec notre Antivirus (Trend Micro).

Lorsqu'on coupe le scan Temps réel, tout revient dans l'ordre... (on a aussi une MAJ de version à faire... :o)

Notre problèmatique principale actuellement est de savoir comment détecter qu'un ou plusieurs serveurs ont ou vont avoir des baisses de performances... Vive la proactivité.

Quels compteurs sont vraiment pertinent, peux tu m'en dire plus ?

L'idée que nous avons est de remonté via des scripts personnalisés des alertes dans NAGIOS en se basant sur les compteurs de performances Windows (perfmon mon ami).

Actuellement voici les valeurs (perfmon) que l'on monitore :

Processor % Processor Time (All Instances)
Memory Available MBytes
Logical Disk Current Disk Queue Length (C:)
Logical Disk Current Disk Queue Length (D:)
Logical Disk % Free Space (D:)

Quels sont selon vous, les valeurs interessant a monitorer pour prévenir des problèmes de performance sur des infra Virtuel XenApp (5.0) ?