News - 08.04.2020

Covid-19 et modélisation statistique : Prédire? Agir?

Covid-19 et modélisation statistique : Prédire ? Agir ?

Par Abdelhamid Hassairi, Professeur fondateur du Laboratoire de Probabilités et Statistique Facultés des Sciences de Sfax - Face aux menaces de la pandémie covid-19, au confinement total et aux pressions psychologiques auxquelles les citoyens sont exposés, les gens s'interrogent sur l'issue de cette épidémie et ils se demandent quand et comment elle prendra fin.  Ils souhaitent avoir des réponses à leurs questions qui mettent fin à leur confusion, et ils veulent que ces réponses soient exactes émises par des spécialistes dans les domaines scientifiques qui peuvent contribuer à la compréhension de ce phénomène. Parmi les questions légitimes, une question s'adresse aux spécialistes des mathématiques : peuvent-ils modéliser le phénomène et s'appuyer sur la modélisation pour anticiper ce qui va se passer ?

Il convient de souligner d'emblée que toutes les variables liées à cette épidémie ne sont pas des variables déterministes mais ils sont plutôt des variables aléatoires au sens mathématique du terme, disons pour simplifier qu’elles sont imprévisibles. Par exemple, nous attendons chaque jour le communiqué du ministère de la santé, et on ne peut pas prévoir à l'avance le pourcentage de tests positifs, ainsi que le nombre de personnes qui doivent être soumises ce jour là à une quarantaine. Par conséquent, toute approche mathématique de ce phénomène ne peut être que probabiliste et statistique, c'est-à-dire qu'elle entre dans le domaine de la théorie des probabilités et utilise les outils de la statistique.

Les théories des probabilités et de la statistique, contrairement à ce que certains imaginent, représentent deux domaines des sciences mathématiques (exactes) qui traitent avec toute la rigueur mathématique des phénomènes aléatoires. La statistique mathématique ne se réduit pas aux données présentées par des tableaux ou par des graphiques qui sont parfois  interprétés de différentes manières selon les objectifs de l’utilisateur, mais elle est beaucoup plus profonde que cela. Il faut donc veiller au respect des règles scientifiques dans toutes les étapes d’une étude statistique, de la collecte de données, à leur traitement, et  leur analyse, jusqu’à l'interprétation des résultats. Il est nécessaire de s’assurer des sources des informations statistiques afin de ne pas se laisser entraîner par ce qui vient de certains amateurs ou intrus.

Dans ce contexte et en lien avec le Covid-19, il y a quelques jours, j'ai suivi une émission sur l'une des chaînes de télévision, l’animateur a déclaré que le contenu du programme serait scientifique et que pour cela il a invité un statisticien.

Dès sa première intervention, ce statisticien a montré son livre et ses diapositives et a déclaré que la situation en Tunisie est meilleure que la situation en Algérie et au Maroc. C'est peut-être vrai, mais comment cela est scientifiquement justifié, il a dit que ce qui le prouve, c'est que ce jour là, il n'y a en Tunisie que 3 décès causés par l’épidémie, alors qu'au Maroc il y en a 4 et en Algérie 17. Avec la même naïveté on peut inverser et dire qu'en Tunisie il y a 3 décès sur 11 millions et demi et au Maroc 4 décès sur 35 millions. Ensuite, il a parlé de prévision en sens statistique du terme, je dis bien prévision et il montre trois courbes très différentes et assez éloignées l’une de l’autre qu'il appelle modèles, et il dit : "on verra selon quel courbe les choses se développent en Tunisie".

Je me demande de quelle prédiction il parle, il y a confusion entre prévision ou prédiction ou projection dans leurs sens scientifiques et statistiques précis et la perception de différents scénarios basés sur des suppositions sans fondement scientifique. Ceci n’est qu’un exemple dans lequel le langage et la terminologie de la statistique ont été utilisés, et qui du point de vue des approches scientifiques de la théorie de la statistique indique soit une ignorance soit une falsification intentionnelle et ce pour des raisons publicitaires. Les prédictions statistiques concernant un phénomène ne sont ni des suppositions, ni une connaissance préalable de l'invisible, mais plutôt des projections de l'avenir au sens mathématique du mot et plus précisément au sens géométrique dans une géométrie qui ne diffère pas dans ses fondements de la géométrique euclidienne, sur l'espace engendré par les informations disponibles sur ce phénomène dans le passé et le présent.

Revenons à la question de la modélisation statistique du phénomène de l'épidémie Covis-19  et à son utilisation pour prédire ce qui se passera dans les jours, les semaines, voire les mois à venir. Ici, il faut souligner que ce qui est important est de suivre l'évolution du phénomène dans le temps et donc la modélisation doit être effectuée par des processus stochastiques qui sont des variables aléatoires qui changent avec du temps. On note dans ce contexte qu'il existe des centaines de livres et des milliers de publications sur différents types de processus classés selon des propriétés définies à partir de l’observation des différents phénomènes qu’on rencontre dans tous les domaines.

Certains processus s’adaptent mieux à la finance, d’autres à la communication, d’autres au commerce, et d’autres à la biologie etc. Les premiers modèles épidémiologiques sont déterministes, ils ont commencé à paraître en 1927, mais l’aspect aléatoire des épidémies a très rapidement, une année après, conduit au développement de modèles épidémiologiques stochastiques. Ces modèles sont relativement compliqués, ils se formulent par un système d’équations différentielles stochastiques qui font intervenir différents types de processus stochastiques dont les plus importants sont les processus de Markov et les processus de branchement. En ce qui concerne la covid-19, il y a déjà un certain nombre de travaux de modélisation stochastique qui ont été réalisés au cours des deux derniers mois, aussi bien sur sa propagation dans le monde que sur son évolution dans certains pays tels que la Chine, le Japon, la France, l’Arménie, le Canada et les USA. 

Les principaux processus qui interviennent dans toute modélisation stochastique d’une épidémie sont :

S(t) : Nombre de personnes susceptibles jusqu’à l’instant t.
E(t): Nombre de personnes exposées jusqu’à l’instant t. 
Q(t): Nombre de personnes mises sous quarantaine jusqu’à l’instant t. 
IN(t): Nombre de personnes infectées, symptomatiques et non hospitalisées jusqu’à l’instant t. 
IH(t): Nombre de personnes infectées, symptomatiques et hospitalisées jusqu’à l’instant t. 
G(t): Nombre de cas de guérison signalés jusqu’à l’instant t.
M(t): Nombre de morts jusqu’à l’instant t.

A l’instant t, chaque individu de la population est classé dans l’un de ces sept états. Pour avoir des informations plus précises, parfois un état est divisé en sous états.

Il est clair que les sept états ne sont pas indépendants, d’ailleurs leur somme est égale à la taille de la population qui est supposée être constante.

Bien que l'état de l'épidémie change d'un instant à l'autre et de façon continue, pour simplifier, on peut prendre le jour comme unité de temps, l’instant t est alors remplacé par le jour j, jusqu’à l’instant t devient jusqu’à la fin du jour j. On a ainsi les processus Sj, Ej, Qj, INj, IHj, Gj et Mj, et dans ce cas les dérivées qui apparaissent dans le système d’équations différentielles sont remplacées par des accroissements.

Sans entrer dans les détails techniques, le système d’équations dépend de certains paramètres inconnus qui sont en fait les paramètres des lois de probabilités qui gouvernent le passage des individus d’un état à l’autre. Ces lois sont en général des lois de Poisson et des lois binomiales, et chacune de ces lois dépend d’un paramètre inconnu.

Le plus grand défi est l’estimation de ces paramètres. En effet leur connaissance permet d’obtenir les expressions des processus, ce qui permet par la suite de faire des prédictions. Dans le cas de l'épidémie covid-19 en Tunisie, pour l’estimation des paramètres, il nous faut observer et mesurer les sept  processus pendant un nombre raisonnable de jours. Les observations se font sur des échantillons, et dans une démarche statistique correcte, il faut que :

1. Les échantillons soient aléatoires, ce qui signifie qu’il faut que les dépistages soient effectués sur des personnes choisies au hasard.
Dans ce contexte, il est à noter que les chiffres donnés quotidiennement par le ministère de la santé sont basés sur des échantillons ciblés et non sur des échantillons aléatoires. Certes, les informations sur le nombre de cas actifs découverts au fil du temps par cette forme de dépistage sont importantes car dans une pandémie l’objectif des équipes médicales est de s’assurer que le sommet de la courbe représentative reste en dessous de la capacité du système de santé.  Cependant, à l’exception des données qui ne dépendent pas des résultats des tests de dépistages ciblés tels le nombre de décès et le nombre de cas de guérison, les autres données ne peuvent pas être utilisées pour produire de sérieux résultats statistiques.

2. Les échantillons doivent être représentatifs. Si on veut que la modélisation stochastique concerne tout le pays, il faut que le nombre de tests effectués par jour soit de quelques centaines dans chaque délégation.

3. Le nombre de jours j doit être suffisant pour refléter les tendances des processus. Il n’est pas nécessaire que les jours soient consécutifs, mais il vaut mieux avoir une fréquence raisonnable déterminée par des virologues.

Toutes ces conditions sont nécessaires pour fournir les informations les plus faibles nécessaires pour déterminer un modèle statistique qui permet de réaliser une prédiction avec le minimum d’erreur. Cela me parait difficile à réaliser avec les capacités humaines et matérielles disponibles actuellement, mais il reste possible si de nouvelles méthodes de dépistage massif sont utilisées. La fausse négativité causée par ce type de test aura peu d'impact sur la modélisation qui est l’objectif de l’étude statistique du phénomène. Evidemment, il faut faire attention à ses autres implications.

Dans tous les cas, nous devons être conscients de la nature très particulière de cette pandémie qui diffère radicalement des autres phénomènes naturels, biologiques, socioéconomiques, monétaires, financiers, culturels, etc.

La pandémie est un phénomène inattendu et surprenant. Rien n’a été préparé pour y faire face, en particulier, on ne dispose pas de moyens nécessaires pour faire des dépistages massifs suffisants pour réaliser une modélisation statistique.
Une enquête statistique sur pandémie covis-19 nécessite des compétences et des moyens particuliers tant dans le domaine médical que dans le domaine statistique. 
Le phénomène épidémiologique se caractérise par son développement et sa transmission rapides, tandis que les autres phénomènes mentionnés précédemment concernent des aspects de notre vie quotidienne qui s’étendent avec le temps. Il existe souvent des structures étatiques ou non étatiques chargées de les surveiller en permanence et de rassembler des informations les concernant.
Le fait que la pandémie covid-19 soit dangereuse a aussi un impact direct sur la méthodologie de son traitement statistique. En effet, la mise en quarantaine des cas positifs chaque jour implique un changement de la population au sens statistique du terme, car ces cas ne sont plus pris en considération dans le choix de l’échantillon aléatoire du jour suivant.  Ceci représente quelque chose d’inhabituel, car en général on doit avoir une population de référence sur la base de laquelle les proportions sont calculées. Ainsi les résultats de l’enquête statistique dépendent des mesures prises.

Revenons au choix du modèle stochastique qui lui peut soulever une controverse similaire à celle soulevée par les essaies de traitement de la maladie à la covis-19.  Il n'existe pas de modèle stochastique spécifique pour la pandémie covid-19 qui prend en compte toutes ses particularités. Différents modèles sont proposés, certains ont moins d’équations que d’autres, dans certains, les paramètres sont supposés constants, dans d’autres, ils sont considérés comme fonctions du temps. Ceci nous mène au problème de l’estimation des paramètres. L’estimation se fait avec une marge d'erreur qu’on peut déterminer mathématiquement ainsi que sa probabilité de façon précise en fonction de la taille des échantillons. Plus la taille des échantillons augmente, plus l’intervalle d'erreur est petit. Si on veut minimiser les risques, on doit minimiser l’erreur et donc augmenter la taille des échantillons.

Personne ne peut nier l’importance des données et de l’information à l'ère du big-data et de la data-science, mais les informations ont un coût et rien ne se fait sans penser à son utilité. Ainsi l'intérêt accordé à la collecte d’informations statistiques sur n'importe quel phénomène et dans n'importe quel domaine a ses motivations. Les informations sont souvent utilisées pour définir des objectifs urgents et des objectifs à moyen et à long terme. Ceci mène à l’élaboration d’une stratégie, puis à la prise de décisions et ensuite à leur mise en œuvre.

En ce qui concerne le phénomène épidémique causé par le covid-19, l'approche ne peut être que différente à cause de la durée de vie de ce phénomène. Cette durée doit être courte car il est impératif que toutes les mesures soient prises pour combattre le corona virus et l'éliminer. En effet, avec cette épidémie, il n’y a qu’un seul objectif arriver le plus rapidement possible au jour j où INj+IHj=0 avec le minimum de décès. Il n’y a donc pas lieu d’attendre les résultats d’une étude statistique pour discuter de l’objectif car l'achèvement d’une telle étude selon les conditions scientifiques précédemment évoquées doit prendre plusieurs jours voire plusieurs semaines. Quant à la stratégie et aux décisions, une modélisation statistique de l'épidémie, si elle est réalisée, elle ne peut être considérée qu’à titre indicatif, car malheureusement, pour toutes les raisons que j’avais expliquées, les modèles ne reflètent pas vraiment ce que nous allons voir en réalité. Les expériences dans plusieurs pays, je cite en particulier l’Angleterre, montre cela. Toutefois, il est incontestablement important de réaliser une étude statistique sous les conditions scientifiques requises ne serait ce que pour des fins purement cognitives.

De toutes les façons, que le modèle soit exact ou non, les transitions rapides et soudaines de l'épidémie et la gravité des erreurs imposent un suivi continu de la situation avec une stratégie flexible et des prises de décisions pragmatiques concertées.

En conclusion, la pandémie covid-19 pose un grand défi à la recherche dans presque tous les domaines allant des sciences dures jusqu’à la philosophie en passant par les sciences biologiques et médicales et les sciences économiques et sociales. A l’heure actuelle, nous n’avons pas les informations nécessaires pour réaliser une modélisation stochastique sérieuse de l'épidémie covid-19 qui permet de faire des projections, et nous ne disposons pas des moyens qui permettent de les obtenir. Dans ce contexte, j’insiste encore une fois sur la nécessité de se méfier des modèles et des prévisions que certains intrus publient sur les réseaux sociaux ou sur d’autres médias profitant de la pandémie pour faire de la publicité.

En ce moment, ne cherchons pas à prédire, nous devons agir pour:

Augmenter de façon significative le nombre de dépistages du Covid-19 et les répartir de manière équitable entre les régions afin de trouver tous les cas confirmés, les isoler et surtout les soigner suivant un protocole efficace.
Maintenir les mesures de confinement total et les faire respecter avec plus de fermeté.
Eviter un assouplissement trop précoce des mesures car cela pourrait conduire à des secondes vagues de transmission du virus.

Abdelhamid Hassairi
Professeur fondateur du Laboratoire de Probabilités et Statistique
Facultés des Sciences de Sfax
Membre de l’Académie Tunisienne des Sciences des Lettres et des Arts



 

Vous aimez cet article ? partagez-le avec vos amis ! Abonnez-vous
commenter cet article
1 Commentaire
Les Commentaires
Elias Maherzi - 09-04-2020 10:00

Très pointu mais instructif. Il manque à mon sens un élément dans la modélisation, le X(t)= nombre de cas infectés mais non déclarés parmi lesquels x(t)= nombre de décès probablement dus au Corona virus !

X

Fly-out sidebar

This is an optional, fully widgetized sidebar. Show your latest posts, comments, etc. As is the rest of the menu, the sidebar too is fully color customizable.