Saturation / Plantage Serveur PS4.5

Bonjour,



je me casse les dents sur un problème de sarturation / plantage sur mes serveurs PS4.5.

Tres peu de logs remontés, d’où mes difficultés. Je vais essayer d’être concis… :wink:



Mon environnement:

  • Une ferme de 4 serveurs W2K3SP2 PS4.5 (HotFix PSF450W2K3R02), 3 serveurs IBM3550 8Go, le quatrieme IBM235 4Go (ce quatrieme serveur a été installé bc plus tard que les autres et n’a jamais connu de plantage).
  • Un serveur AD W2K3 et un serveur de fichier W2K3 hébergeant les profils itinerants.
  • Les clients XP / Wyse sont tous distants (liaison MPLS), une trentaine d’utilisateurs sur chacun des 3 premiers serveurs



    Symptome:

    Le phénomène ne se produit que sur les 3 premiers serveurs de maniere aléaoire (un serveur à la fois) et ce 1 à 3 fois par semaine.

    Quand le problème se produit, une partie des utilisateurs connectés sur ce serveur est éjectée ou figée, avec impossibilité de se reconnecter. Le reste des utilisateurs continuent à travailler. Il devient alors impossible même pour le compte administrateur du domaine d’ouvrir une session distante RDP ou ICA ou même en console. L’écran reste bleu après la saisie du login mot de passe.

    Une connexion locale au serveur (hors domaine) fonctionne, mais on ne peut pratiquement rien faire (gros ralentissements).

    Impossible de killer les sessions et les process sur le serveur qui est entrain de planter.

    La seule solution que nous ayons actuellement est de rebooter (Hard) le serveur. Il repart stable.



    Notre principale difficulté est que nous n’arrivons pas à trouver d’alertes ou de message d’erreurs récurrents et significatifs d’un plantage à l’autre. Peu de messages logués juste avant le problème.



    Ce que nous constatons dans les journaux windows peu de temps avant le blocage complet:

    • Metaframe 9907 et 9006: echec de la reconnexion auto

    • Metaframeevents 1200: Atteinte de limite de connexion pour tel utilisateurs (1 connexion simultanné autorisée)

    • Metaframeevents 1106: des créations automatique d’imprimantes ont échouées

    • Netlogon 5719 (parfois)

    • Dans les journaux d’événements sécurité quand le problème se produit nous constatons des ouvertures/fermetures pour plusieurs utilisateurs dans la même seconde



    L’outils CDFControl montre, avant un plantage, que la résolution du DevicePath DeviceHarddiskVolume1 en lettre de lecteur échoue lors d’une mise veille de session

    et apres le plantage que Le “Listener” Citrix est occupé et les nouvelles ouvertures de session sont impossibles.



    Nous avons recréé tous les profils itinérants et réinstallé les 3 premiers serveurs. Le problème persiste.



    Auriez vous une piste , une idée svp?

    Merci

Bon, je te propose pas de miracle, mais déjà des pistes pour essayer de resserrer l’étaux autour du problème.

As tu une base resource manager, ou mieux EdgeSight d’installer sur tes serveurs ?

Il serait intéressant de mettre en place ce système sur plusieurs compteurs de performance :

-CPU

-RAM

-SWAP

-I/O du HDD

-Utilisation des NIC

-Utilisateurs ICA



Si les lenteurs excessives sont présentes avec un compte local, je pencherais déjà par éliminé ton AD/profils, mais dans le doute, essaye de voir la charge réseau de ton serveur de fichier lors d’un plantage afin d’éliminer un goulot d’étranglement de celui-ci





les serveurs sont ils à jour en terme de drivers ? ( équivalent du PSP chez HP )

avez vous essayé de mettre un des 3 serveurs à jour au niveau des update windows ?

avez vous un antivirus ( si oui est t-il bien paramètré pour citrix ? )

avez vous un logiciel d’image à chaud ?

avez vous vérifié la taille de vos base de registre ?

avez vous essayé de relancer les services citrix sans rebooter le serveur ( par contre impossible pour TSE )

avez vous essayé de déconnecter tout les utilisateurs voir si la fluidité revenait ( j’ai bien suivi que c’était impossible par la console , si les utilisateurs restant connecter sont expulsés lors d’un hard reboot, autant essayer de tous les déconnecter en enlevant le câble réseau ),

la gestion CPU/RAM de citrix est elle activé ? ( si non, je vous conseille de le faire, ça éviterais qu’un process utilisateur ne prenne la main sur tout ses collègues )

Bonjour Flo,

merci pour ta réponse rapide et pour ces pistes.



Je n’ai pas de base ressource manager ni de edgesight. Je pense essayer de monter edgesight dans les semaines qui viennent.

Au niveau compteur de perf, j’avais déjà checké la cpu et la ram, je ne me souviens plus pour les autres. Je vais remettre ces compteurs en place.



Pour la charge réseau du serveur de fichier, ça me parait bisare, s’il y avait un goulet d’etrangelement, tous les serveurs citrix serait impactés en même temps non? je vais qd meme checké ça.



Les serveur sont à jour en terme de driver (UpdateXpress IBM) et windows.

L’antivirus est Trend Micro avec les zone d’exclusion qui vont bien…



Qu’entends tu par logiciel d’image à chaud? j’ai snapshotde mais pas utilisé.



LA taille de la base de registre est d’environ 150 Mo.



Lors d’un plantage si j’essaie de redémarrer les services citrix, cela ne marche pas soit ils ne s’arrettent pas soit il ne redemarre pas (avec erreur de timed out)

J’avais essayer à distance de deconnecter les utilisateurs un par un mais j’ai remarqué qu’une fois toutes les sessions user fermées la plupart des process user continuaient de tourner et ne pouvaient être killés.



La gestion CPU/Ram est elle également dispo pour les versions Advanced?



Merci

"ase13" wrote:
Bonjour Flo,
merci pour ta réponse rapide et pour ces pistes.

Je n'ai pas de base ressource manager ni de edgesight. Je pense essayer de monter edgesight dans les semaines qui viennent.
Au niveau compteur de perf, j'avais déjà checké la cpu et la ram, je ne me souviens plus pour les autres. Je vais remettre ces compteurs en place.

Pour la charge réseau du serveur de fichier, ça me parait bisare, s'il y avait un goulet d'etrangelement, tous les serveurs citrix serait impactés en même temps non? je vais qd meme checké ça.

Les serveur sont à jour en terme de driver (UpdateXpress IBM) et windows.
L'antivirus est Trend Micro avec les zone d'exclusion qui vont bien...

Qu'entends tu par logiciel d'image à chaud? j'ai snapshotde mais pas utilisé.

LA taille de la base de registre est d'environ 150 Mo.

Lors d'un plantage si j'essaie de redémarrer les services citrix, cela ne marche pas soit ils ne s'arrettent pas soit il ne redemarre pas (avec erreur de timed out)
J'avais essayer à distance de deconnecter les utilisateurs un par un mais j'ai remarqué qu'une fois toutes les sessions user fermées la plupart des process user continuaient de tourner et ne pouvaient être killés.

La gestion CPU/Ram est elle également dispo pour les versions Advanced?

Merci
il faut effectivement au minimum l'edition Enterprise pour la gestion du CPU
de ce que tu me décris, j'ai plus l'impression que ton serveur à bcp trop de demande en attente ( time out des services, kill des process non effectif de suite etc etc )
dans les compteur de perf, tu rajouteras aussi le processor queue lenght et le processor interrupt

pour rappel :

Processor% Interrupt Time This measures the time the processor spends receiving and servicing hardware interruptions during specific sample intervals. This counter indicates a possible hardware issue if the value is greater than 15 percent.
SystemProcessor Queue Length This indicates the number of threads in the processor queue. The server doesn't have enough processor power if the value is more than two times the number of CPUs for an extended period of time.

pour la taille de la base de registre, il te faut la comparer avec la limite fixé, voici de quoi faire en wmi :
ManagementObjectSearcher mgmtObjects =
new ManagementObjectSearcher("Select * from Win32_Registry");

foreach (var item in mgmtObjects.Get())
{
Console.WriteLine(string.Format("Current Size: {0}MB", item["CurrentSize"]));
Console.WriteLine(string.Format("Maximum Size: {0}MB", item["MaximumSize"]));
}

Merci.



Je n’ai pas bien compris la partie WMI avec le script VB



Slts