Après 8 ans de recherche et développement dans le domaine des bases de données objets, J-Y ORIOT a intégré la société HP en tant qu'architecte. Il fut ensuite responsable pour Consulting du département infrastructure, stockage, serveur, solution de business Continuity jusqu’en 2003. Il a participé à ce titre à l’élaboration de solutions d’infrastructure pour des grands groupes français parmi lesquels Carrefour, EDF, Philips, Belgacom,…. En 2003, il a rejoint la société New’Arch en tant qu’associé où il exerce le métier d’architecte conseil pour des grands groupes français.
 

Sujet: Reprise/continuité de service après sinistre - 27/06/2006

1- Que peut-on comprendre par le mot sinistre pour le système d’information d’une entreprise ? Est ce un incident qui touche partiellement ou globalement le système informatique ? Ou bien tout ce qui mène au disfonctionnement de celui-ci ?
M. J-Y O: Le mot « sinistre » est a opposé au mot « incident ». La différence au niveau de la classification se fait sans doute au niveau de la probabilité de ces événements. Les DSI sont bien préparées à la gestion des incidents car leur fréquence les oblige à avoir une réaction rapide. On parle sinistre quand survient un événement improbable touchant tout ou partie du système d’information et dont l’impact sur le business est important. Exemples de sinistre : - Panne électrique générale dans un Datacenter - Indisponibilité du système de stockage - Corruption de données non détectée
 
2- Pour voir l’importance de la continuité de services et pour justifier sa nécessité au sein des organisations, veuillez nous rappeler les différentes menaces qui guettent les entreprises et les sinistres qui pourraient en découler.
M. J-Y O: Une classification des menaces simples et communément admise (clusif) est la suivante :
  • 1. Accidents "naturels" : Cette catégorie regroupe tous les sinistres comme les incendies, dégâts des eaux, explosions, catastrophes naturelles, etc. Certains de ces risques ne peuvent être raisonnablement pris en compte (ex. effondrement causé par la présence d'une ancienne carrière souterraine), d'autres peuvent être prévenus ou combattus (ex. incendie), l'informatique n'étant alors qu'un des aspects du problème. Enfin, des mesures simples permettent de limiter les conséquences de certains accidents (ex. si la salle informatique est située au premier étage, on évitera la perte du matériel en cas d'inondation, même si celle-ci ne peut être combattue). La portée de ce type de risque est plus ou moins importante. On parle de risque local (Incendie), de risque régional (Tremblement de terre, Inondation).
  • 2. Perte de services essentiels : On range dans cette catégorie les coupures de courant, de télécommunications, les ruptures de stocks de fournitures essentielles, etc. Il existe des moyens permettant de palier à ces problèmes, notamment la redondance, les techniques statistiques et les alarmes. Quelques exemples concrets : -Onduleur et éventuellement groupe électrogène doublant le réseau EDF -Liaison satellite doublant la ligne spécialisée -Choix de fournitures disponibles auprès de multiples sources (et pas seulement de multiples fournisseurs d'une seule source) -Programmation d'interventions ou de remplacements préventifs Ces mesures ont évidemment un coût, mais lorsqu'il s'agit d'un service vital, ce coût est de très loin préférable aux conséquences d'une perte de service ! Remarquez que les pannes matérielles peuvent entrer dans cette catégorie : c'est évident pour les serveurs, mais les imprimantes d'une société de VPC ou d'affacturage peuvent également mériter certains égards ! Par contre une panne affectant un poste de travail banalisé n'a aucune importance : le remplacement d'un PC ne pose aucun problème et la panne n'affecte pas sérieusement la productivité de l'entreprise.
 
3- Erreurs
M. J-Y O: L'erreur est humaine et peut affecter tous les stades de l'activité informatique : analyse, conception, réalisation, mise en œuvre, utilisation. Les conséquences des erreurs peuvent être désastreuses, surtout si elles sont restées longtemps inaperçues et qu'elles ont provoqué de graves pertes ou altérations de données. L'établissement de procédures (de travail, de validation), le test et la validation des logiciels, l'adhésion à des groupes d'utilisateurs, la veille technologique, et plus généralement rigueur, bon sens et vérification croisée permettent de réduire les erreurs dans les étapes sur lesquelles on a une influence, mais on se trouve fort démuni face aux erreurs venant de l'amont (ex. bug "An 2000" dans un logiciel standard de comptabilité). En conclusion, une bonne assurance reste indispensable pour se prémunir contre les conséquences des erreurs.
 
4- Malveillance
M. J-Y O:
  • 4.1. Vol, vandalisme
  • Ces problèmes sont la plupart du temps marginaux, sauf dans les grandes entreprises, l'administration et les établissements d'enseignement où les vols ou dégradations sont généralement commis par les personnes fréquentant habituellement les lieux (personnel, étudiants). Ces problèmes sont loin d'être propres à l'informatique et les solutions existantes sont simples :
    • Installation d'alarmes et de dispositifs de télésurveillance
    • Fixation du matériel au mobilier et verrouillage des boîtiers
    • Utilisation de cartes internes pour les clés électroniques
    • Utilisation de matériel spécifique anti-vandalisme
  • 4.2. Fuites d'informations
  • Soyons clairs : il n'est pas possible d'empêcher les fuites d'informations, seulement de les rendre difficiles, parfois de les détecter. Citons en exemple les récentes fuites de numéro de carte bancaire dans une chaine de restauration française.
 
5- Dans la terminologie de la continuité de service, on distingue les termes : PRA, PCA, RTO, RPO. Que veulent dire ces termes ?
M. J-Y O: PRA, PCA Plan: Ensemble organisé des modalités et moyens de tout ordre (Processus, procédures, mécanismes, moyens matériels, humains de gestion, prévention, détection, couverture, assurance) de l’ensemble des risques identifiés pesant sur la disponibilité l’accessibilité et le bon fonctionnement de l’ensemble des composants concourant à l’exercice des activités de l’entreprise. Objectif: Garantir en toutes circonstances soit la Continuité (pas d’interruption) dans ce cas on parle PCA, soit la Reprise dans un délai défini limitant les préjudices à un niveau acceptable dans ce CAS on parle de PRA. RTO : Recovery Time Objective : En combien de temps il faut redémarrer l’activité. RPO : Recovery Point Objective : Quelle est la quantité d’information que l’on accepte de perdre.
 
6- Quelles sont les phases essentielles dans l’établissement d’un plan de PRA/PCA ?
M. J-Y O: Elles sont les suivantes:
  • 1) Business Impact Analysis : Quel est l’impact sur mon business d’une interruption de services ?
  • 2) Le risque assesment : Quels sont les risques et leurs probabilités ?
  • 3) La strategie : Quelle est ma stratégie de mitigation ?
  • 4) Le choix d’une solution : Comment faire ?
  • 5) Implémentation : Phase projet classique de build
  • 6) Rehearsal Plan : Exercice permettant de valider que le système reste opérationnel
 
7- Peut-on considérer un projet PRA comme tout autre projet de production dans une entreprise ?
M. J-Y O: Non, car on est dans le domaine de l’assurance. Ces projets n'ont pas de valeur ajoutée pour l’entreprise. Il faut donc qu’il soit fortement sponsorisé au niveau de la direction générale des entreprises ou des décideurs dans le cadre d’une administration. Ces projets ne sont de plus jamais finis, ils doivent être maintenu en condition opérationnelle. Plus qu’un projet c’est un processus continuel qui doit permettre une reprise d’activité réelle.
 
8- Comment peut-on limiter les dégâts, surtout en perte de données, après qu’un sinistre a touché une entreprise ?
M. J-Y O: Dans ce domaine, il n’y pas de secret seule l’externalisation des données est de nature à garantir leur protection. Une politique de sauvegardes strictes et adaptées permet d’assurer la protection des données. Celle-ci ne sert néanmoins à rien si on ne peut reprendre les traitements.
 
9- Pensez-vous que les entreprises, aujourd’hui, se préparent convenablement pour gérer la situation en cas de sinistre ?
M. J-Y O: A part quelques banques qui fonctionnent en site alterné, j’estime qu’aujourd’hui les entreprises européennes, asiatiques et africaines, malgré les risques connus sont très mal protégées et que la plupart ne résisteraient pas à un sinistre majeur touchant le cœur de leur système d’information, par manque de moyen, le plus souvent dû à un manque de préparation et d’exercices.
 
10- Existe-il des solutions de sécurité, méthodes/outils qui pourraient aider l’entreprise à rétablir ses données et ses services, après un sinistre ? Si oui quelles sont les plus importantes ?
M. J-Y O: Les solutions existent, les méthodologies et Best Pratices aussi. Le savoir faire est aujourd’hui maitrisé la norme ISO 20000 et les méthodologies proposées par les cabinets de conseil ou par les grands intégrateurs / constructeurs sont réelles. Ce qui manque ce sont soit les moyens, soit le plus souvent le manque de volonté.
 
11- Les coûts exigés par les projets de continuité de service sont-ils la principale raison de fuite en avant des responsables pour mener ce genre de projets ?
M. J-Y O: Entre autres, n’oublions pas que dans les grandes sociétés les objectifs financiers des CIOs sont énormes. Ils sont essentiellement mesurés sur l’adéquation du budget avec le service qu’ils doivent rendre. En regardant de plus près, leur durée de vie dans ces postes est extrêmement courte comparée à la durée de vie des entreprises. Ils n’ont donc pas intérêt à investir sur ces solutions sauf si cela fait partie des objectifs fixés par les actionnaires. Je ne néglige néanmoins pas le manque d’informations des dirigeants quant à leur dépendance vis-à-vis de leur système d’information.
 
12- Dans la plupart des entreprises, la qualité de service prime sur la sécurité préventive. Quel est votre constat à ce propos ?
M. J-Y O: Le mélange entre la disponibilité et la continuité est évident. Tant que les problèmes seront abordés par les mêmes équipes, il y aura toujours un manque de prise de conscience sur la gestion du risque informatique.
 
13- La non-maturité d’une entreprise dans ce domaine peut-elle être un handicap pour une intégration technologique « sans dangers »?
M. J-Y O: Un danger ou une chance, Si le problème est traité en amont, il est possible de créer des systèmes d’information réellement sécurisés, alors que le réalignement d’un système existant est en général très complexe. Les entreprises asiatiques qui sont extrêmement dynamiques sont très en retard sur ce thème (sauf le Japon). N’oublions pas néanmoins que la première mission d’une entreprise est d’exister et de survivre. Il ne sert donc a rien de développer une stratégie de Business Continuity si cette stratégie met en danger la survie de l’entreprise ou son dynamisme.
 
14- Pour conclure, votre parole pour les entreprises algériennes sur ce sujet
M. J-Y O: Le premier facteur de succès de ces plans réside dans la qualité des ressources humaines qui les opèrent. Il faut savoir s’entourer des compétences adéquates et surtout de les gérer de manière à garantir que le plan construit ne repose pas uniquement sur la compétence individuelle de personnes clé. Dans ce contexte, les entreprises algériennes doivent s’assurer de la pérennité des expertises employées. Face aux risques de tremblement de terre, aux risques politiques, les entreprises algériennes doivent s’assurer que le plan fonctionnera avec les hommes qui resteront fidèles à l’entreprise pour opérer le plan en dépit des événements extérieurs.