[W2K3][CPS45] Problème de load balancing / XML ?

Bonjour tout le monde,



Je rencontre des problèmes sur une de mes batteries Citrix au niveau du load balancing et je n’arrive pas à mettre le doigt sur un début de résolution.



Un petit résumé de mon infrastructure :

  • Deux salles infos
  • CPS 4.5 Platinum
  • 4 serveurs Webinterface derrière un loadbalancer matériel (donc VIP + nom DNS unique)
  • 2 Data Store (un actif, l’autre en secours avec une copie de la base).
  • 2 Data Collector qui n’ont que ce rôle (c’est eux aussi qui apparaissent dans la section 'Gérer les batteries de serveurs sur la webinterface).
  • 40 serveurs applicatifs



    J’ai deux problèmes distinct sur ce sujet :



    1- Des serveurs ne distribuent plus d’application de temps à autre depuis la mise en place de l’architecture (2008-2009). Le redémarrage des services IMA / SMA / XML n’y change rien, je suis dans l’obligation de redémarrer, après tout reviens dans l’ordre. Lorsque l’erreur se produit, ces serveurs font toujours partie de l’équilibrage de charge et ne me remontent aucune erreur particulière dans les journaux…

    2- Depuis peu (mise en place de 6 nouvelles lames IBM HS22 en W2K3 enterprise / CPS 4.5), j’ai des serveur qui se retrouvent en dehors de l’équilibrage de charge (qfarm /lboff). J’ai tenté de modifier les valeurs du test du service XML comme indiqué dans des CTX, sans succès. J’ai positionner l’action sur ‘alerter uniquement’ aujourd’hui pour tester.



    Pour les deux cas, TOUS les serveurs applicatifs sont touchés qu’ils soient récent, ancien, en W2K3 standard ou Enterprise.



    Le cas n°1 était relativement aléatoire (surtout depuis la mise en place d’un reboot automatique des serveurs au moins une fois par semaine), hors depuis quelques jours c’est relativement souvent, je dirais qu’on est passé d’un cas toutes les deux semaines à un cas par jour ou tous les deux jours. Obligation de reboot le ou les serveurs en cause. Le problème de ce cas précis, c’est que les serveurs étant toujours dans l’équilibrage de charge, ça me génère des erreurs côté utilisateur vu que la ferme cherche à nous lancer les applis sur ces serveurs (les moins chargés du coup).



    Pour le cas n°2, c’est presque tous les jours que j’ai plusieurs serveurs qui sortent de l’équilibrage de charge, une simple commande ENABLELB règle le soucis…



    Pour info :


  • environs 750 utilisateurs simultanés
  • Je n’ai jamais configuré la base de synthèse (je ne sais pas si ça peut influer).
  • Depuis la mise en place en production je n’ai jamais pu installer les mises à jour, n’ayant aucune ferme de test, je n’ai jamais osé installé quoique ce soit vu l’importance du logiciel publié… (obligation d’accès 24/24). Je suis donc en R03





    En dehors des patchs, voyez-vous quelque chose qui pourrait expliquer que d’un coup j’ai des serveurs ont ce comportement. C’est d’autant plus étrange que ça fonctionnait bien jusqu’à maintenant (en gros jusqu’à ce que je rajoutes les 6 derniers serveurs applicatifs).



    D’avance merci de votre aide, ou des pistes que vous pourrez apportez.



    Olivier

J’ai déjà rencontré un problème similaire avec les tests HMR. Sur des serveurs anciens (dans la batterie), le test de check du LHC sur le data collector faisait “hanger” le service XML qui engendrait une non réponse dans l’affichage de la liste des apps de la batterie.



Le contournement est possible selon plusieurs axes :

  • Désactiver les HMR et supprimer tous les tests configurés dans la batterie. c’est violent mais tu n’est plus emmerdé
  • Changer la périodicité du test de LHC et mettre à jour les tests LHC sur tous les serveurs (http://support.citrix.com/article/CTX123197)
  • Vérifier l’intégrité des LHC des serveurs via dsmaint verifylhc



    J’ai toujours des difficultés à mesurer l’intérêt des HMR sur l’amélioration de la stabilité de l’environnement.



    En tâche de fond, tu pourrais proposer le service XML via les load balancer qui permettent normalement de vérifier intelligemment la réponse du service XML. C’est ce que propose nativement le Netscaler, cela peux s’ajouter sur les F5.

Merci pour votre réponse.



Pour le moment j’ai choisi de revenir aux valeurs par défaut pour les HMR, mais sur le test XML, je suis resté sur alerter uniquement et ça à l’air de fonctionner. J’ai bien des alertes qui apparaissent quelques fois par jours sur 4 ou 5 serveurs (jamais les mêmes), mais les applications fonctionnent.



Par contre, ce matin, j’ai eu un de ces serveurs qui a quand même était enlevé du loadbalacing comme si il n’avait pas pris la nouvelle configuration (dans les journaux d’évènements, le message d’erreur liées à l’erreur 2005 indique bien que la règle est de supprimer le serveur de l’équilibrage de charge au lieu de alerter uniquement).



J’ai donc attendu que plus personne ne soit connectés, et au lieu de juste faire un enablelb, je me suis dit que j’allais plutôt recréer proprement le LHC + reboot.



Procédure :

  • Arrêt du service IMA (SMA et WMI Citrix)
  • DSMAINT RECREATELHC
  • Redémarrage des services
  • DSMAINT VERIFYLHC (ok)
  • Reboot



    Le serveur apparaissant toujours dans la liste Lboff
  • enablelb CITRXBR19 (avec succès d’après le message)



    … Mais le serveur apparaît toujours dans la liste LBOFF (et X dans la colonne LBOFF avec la commande qfarm /online). MAIS le serveur fonctionne et distribue bien les applications et apparait normalement avec la command qfarm /load



    Je n’y comprends rien.



    Olivier



    [EDIT 19/07/2012]



    Et voilà, j’arrive ce matin et tout est revenu à la normale. Allez comprendre…

Soit tu vires les HMR, soit tu mets tout au carré en installant la dernière version des tests et en changeant la valeur du test de check LHC à 24h.