GDR Statistique et Santé

Les thèmes du GDR

 

Modèles dynamiques en épidémiologie

Responsable : Daniel Commenges (INSERM EMI 03-38), Aurélien Latouche (Cnam)

Beaucoup d'études épidémiologiques recueillent des données relatives à un suivi de sujets dans le temps. En effet, les phénomènes biologiques évoluent dans le temps comme tous les phénomènes physiques, et la causalité est étroitement liée au temps. Les modèles développés pour traiter ces données peuvent avoir une interprétation causale plus ou moins poussée. Dans la plupart des études épidémiologiques classiques, on se contente de parler de facteurs de risques : ce sont des facteurs qui pourraient avoir un rôle causal sans que l'on connaisse les détails du mécanisme. Dans les études d'observation, on ne peut que rarement être sûr de ce caractère causal ; dans les essais randomisés on peut parler de causalité avec plus d'assurance. Enfin on peut développer des modèles basés sur la connaissance de mécanismes biologiques : on connaît par exemple les lois de diffusion de molécules dans le corps et cette connaissance est utilisée dans les modèles pharmacocinétiques ; on connaît pour certaines maladies les virus responsables et l'on peut modéliser l'interaction de ces virus et du système immunitaire de l'hôte. Les modèles dynamiques lorsqu'il sont bien construits permettent d'approcher les relations causales.

Un second volet de ce thème concerne la prise en compte dans les modèles de régression pour des données de survie multivariées du caractère évolutif des paramètres au cours du temps. Les développements récents portent sur l'estimation des effets de facteurs pronostiques dépendants du temps et l'inclusion de covariables, dites dynamiques, incluant les évènements passés.

Modélisation en pharmacologie

Responsable : France Mentré (INSERM U738)

Le développement de nouveaux médicaments est un processus long et coûteux. Il se divise en plusieurs étapes avec notamment la découverte d'une nouvelle entité chimique, les essais in vitro puis chez les animaux. Vient ensuite ce qu'on appelle le développement clinique, c'est à dire chez l'homme, avec ses différentes phases. Les statisticiens sont impliqués à tous les niveaux pour l'évaluation des données collectées au cours de ces essais et pour aider à planifier les études suivantes en fonction des résultats obtenus. Un de leurs rôles importants est l'analyse des essais thérapeutiques randomisés conduits en Phase III qui visent à montrer la supériorité du nouveau produit par rapport à un traitement de référence ou un placebo. Plus récemment, s'est développée une discipline appelée « pharmacométrie », qui vise à mieux analyser l'ensemble des données physiologiques (concentrations, biomarqueurs, effets pharmacologiques, effets indésirables) ainsi que leur évolution au cours du temps et leur variabilité entre les patients notamment à partir des données collectées lors des essais plus précoces de phases I et II. Il s'agit de mieux comprendre l'ensemble de la relation dose-réponse afin d'aider, notamment par simulation, à planifier les essais cliniques suivants en prenant mieux en compte les sources de variabilité et d'incertitude. Ces analyses reposent sur des modèles physiologiques plus ou moins simplifiés et nécessitent des outils statistiques plus complexes comme la modélisation non-linéaire à effets mixtes. De nombreux développements statistiques autour de ces méthodes et de leurs applications au cours du développement des médicaments mais aussi en pharmacologie clinique sont en cours. Ces approches nécessitent une collaboration étroite entre statisticiens, modélisateurs, pharmacologues et médecins. Elles font l'objet de recommandations récentes par l'agence de mise sur le marché des médicament aux Etats-Unis (FDA) afin de tenter de pallier aux problèmes auxquels fait face l'industrie pharmaceutique pour le développement de nouvelles molécules, industrie qui a pendant longtemps utilisé les mêmes outils statistiques.

Statistique et génome

Responsable : Stéphane Robin (UMR 518), Sophie Schbath (INRA MIG)


Imagerie cérébrale

Responsable : Jean-Baptiste Poline (CEA-SHFJ)

Les images fonctionnelles du cerveau donnent une information cruciale pour des domaines tels que les sciences cognitives, la neurologie ou la psychiatrie. L'imagerie par résonance magnétique fonctionnelle (IRMf) est actuellement en plein essor vu les perspectives qu'elle a ouvertes dans l'étude du fonctionnement du cerveau : elle permet d'identifier de façon totalement non-invasive et avec une haute résolution spatiale les zones du cortex qui sont activées lors d'une stimulation donnée. L'IRMf mesure les perturbations des propriétés magnétiques locales, dues à l'augmentation du flux sanguin dans les zones du cortex impliquées dans une tâche cognitive donnée. Si l'IRMf est un outil technologique extraordinaire, les méthodes statistiques utilisées pour extraire l'information fonctionnelle restent généralement assez rudimentaires. En effet, le volume de données (des enregistrements de plusieurs centaines de données, mesurés sur plusieurs dizaines de milliers de voxels) est tel qu'une des priorités a toujours été d'utiliser des méthodes statistiques simples, permettant d'obtenir des résultats dans un temps raisonnable. On est donc amené à de nombreuses approximations sur le modèle, en négligeant par exemple les non linéarités.

Traitement statistique de signaux médicaux et réduction de dimension

Responsable : Sophie Lambert-Lacroix (UMR 5525)

Les avancées de la biologie moléculaire moderne ont été largement soutenues par des progrès techniques permettant l'émergence d'une biologie dite "à haut débit". Ce terme désigne l'inflation des variables enregistrées pour chaque individu. A titre d'exemple, la spectrométrie de masse est une technologie émergente qui permet en particulier une mesure directe de la signature de certaines protéines et promet des avancées considérables pour le diagnostic et le traitement de maladies. Elle a récemment été utilisée pour identifier des protéines qui sont différentiellement exprimées dans le cancer du colon. L'analyse de ce type de données constitue désormais l'étape limitante car elle pose des problèmes méthodologiques nouveaux. Une des principales caractéristiques de ce type de données est que le nombre d'observations est relativement faible (de l'ordre de la centaine) par rapport à la dimension de ces données elles-mêmes (le nombre des variables enregistrées avoisine souvent la dizaine de milliers). Même si les questions posées restent standards (découverte de groupes, discrimination/prédiction, analyse de survie), ce fléau de dimension nécessite le développement de nouvelles méthodes statistiques, car sans réduction de la dimension, les méthodes standards de classification (par exemple) ne sont pas très performantes.

Modélisation des données environnementales

Responsable : Chantal Guihenneuc-Jouyaux (EA4064 - Université Paris Descartes)

La modélisation des données environnementales est un domaine en plein essor. L'étude des variations géographiques d'indicateurs de santé a pour principal objectif l'évaluation, au niveau des populations, des associations entre les variations géographiques d'indicateurs de santé et d'exposition à des facteurs de risque environnementaux. Différentes situations existent et demandent à chaque fois, des réponses spécifiques.

Une première situation concerne la modélisation de variables (indicateurs de santé et facteurs de risque) qui sont mesurées à l'échelon de groupes (unités géographiques), leurs analyses sont alors dites " écologiques ". Le but d'une étude écologique est la recherche de contrastes entre les unités géographiques. La mise en évidence de tels contrastes permet de guider la recherche de caractéristiques des populations par rapport à ces variations. D'un point de vue étiologique, les études écologiques permettent de mettre en parallèle les variations de pathologies avec les variations géographiques de variables partagées par des groupes et, ainsi, d'examiner les éventuelles corrélations entre ces variations. Les principales difficultés méthodologiques sont, d'une part, la présence d'autocorrélation des variables entre les unités géographiques et d'autre part, le manque d'information sur les relations individuelles impliquée par le caractère groupé des données.

Une seconde situation traite de modèles entre une variable de santé et plusieurs expositions environnementales (appelées souvent multi-polluants). Les souvent grandes corrélations entre les variables d'exposition rendent peu raisonnables l'utilisation classique des modèles linéaires généralisés. D'autres approches comme les méthodes de classification, les modèles à classe latente ou plus récemment les modèles de régression sur des profils d'exposition sont alors intéressantes à étudier. Enfin, des bases de données d'exposition sont élaborées à des échelles spatiales de plus en plus fines et fournissent un nouveau support intéressant à exploiter en association avec des indicateurs de santé (taux de mortalité, incidence...).

Recherche clinique

Responsable : Nicolas SAVY (UMR 5219)

Aujourd'hui, tout résultat de recherche médicale résulte d'une expérimentation (clinique ou biologique) dont la preuve s'appuie sur une méthodologie statistique rigoureuse. L'outil et la démarche statistique sont incontournables pour aider à une meilleure connaissance médicale et améliorer la pratique médicale dans ses aspects décisionnels (choix du meilleur examen, optimisation de la thérapeutique, choix du traitement le mieux adapté, preuve de concept). La recherche clinique est devenue un enjeu majeur, elle est un moyen d'accéder aux innovations fournies par les industriels du médicament bien sûr mais aussi les fabricants de dispositifs médicaux, de compléments alimentaires, de cosmétiques,... La diversité des questions posées par la recherche clinique pousse les statisticiens à réfléchir à de nouvelles méthodologies (essais précoces, essais adaptatifs, détection d'effets tardifs/précoces, essais de prévention,...). La statistique se situe maintenant au cœur de réflexion sur la recherche clinique. Ce fait est de mieux en mieux identifié dans les hôpitaux (Unités de Recherche Clinique, Centres d'Investigations Cliniques), un peu moins dans l'industrie. Une autre problématique de la recherche clinique est son coût important et notamment le cout lié à son organisation. L'optimisation de cette organisation est une question qui commence à se poser au sein des hôpitaux (création des CENGEPS) comme au sein de l'industrie. Là aussi les acteurs de la recherche cliniques peuvent trouver un soutien par une approche statistique. En effet, des travaux récents sur la modélisation de l'inclusion de patients dans les essais cliniques donnent des résultats très encourageant en terme de gestion des coûts.

Epidémiologie des maladies transmissibles et modélisation

Responsable : PY Boelle (INSERM U707, UPMC)

Depuis les années 80, le retour au devant de la scène des maladies transmissibles, et en particulier le souci des maladies émergentes, a dynamisé l'usage de la modélisation mathématique et informatique, appliquée à la description et à la prévision de leur dynamique, et à l'étude de stratégies de contrôle.

Ces modèles deviennent plus complexes à mesure qu'ils intègrent des données plus fines sur la structure des populations, sur la fréquence et le type de contacts donnant lieu a transmission. En conséquence, leur confrontation avec des données réelles a fin d'estimation pose de nouveaux problèmes statistiques. Notamment le niveau de détail atteint dans la description des processus de transmission est généralement beaucoup plus fin que celui de l'observation épidémiologique: il est aujourd'hui courant de pouvoir disposer d'une connaissance détaillée des réseau de contacts grâce à des capteurs, aux données de recensement, aux réseaux sociaux.

Les récentes années ont vu l'application à ces sujets de méthodes statistiques notamment basées sur le calcul intensif; cependant l'amélioration des performances opérationnelles est nécessaire.


Pharmacovigilance et pharmacoépidémiologie sur bases de données de grande dimension

Responsable : Pascale Tubert-Bitter (Inserm CESP 1018)

Les nouveaux médicaments sont évalués au cours d'essais cliniques, préalables à l'autorisation de leur mise sur le marché, dans des conditions nécessairement restrictives. C'est en population générale, après la mise sur le marché, que leurs effets indésirables, rares, sont le plus souvent identifiés. La pharmacovigilance a pour objectif la détection précoce de nouveaux effets indésirables ; cette détection est à l'origine des enquêtes cliniques ou épidémiologiques de confirmation permettant de valider l'existence d'un effet indésirable identifié et de le caractériser. Dans les deux cas, la diligence de l'analyse, et donc la disponibilité des données quasiment en « temps réel », peut être un élément crucial, notamment lorsqu'une stratégie de minimisation de risque, voire une réévaluation du bénéfice/risque est nécessaire. En amont, la pharmacovigilance s'appuie sur les bases des observations d'associations suspectes, les notifications spontanées, de taille considérable ; en aval, l'accès aux sources de données de remboursement nationales de l'assurance maladie bouleverse radicalement le paysage de la pharmacoépidémiologie.

Devant la taille considérable des bases de pharmacovigilance, des méthodes de détection automatique de signaux, Bayésiennes et non Bayésiennes ont vu le jour ; elles restent toutefois encore simples, basées sur une représentation en tables de contingence caractérisées par un grand nombre de cellules vides. Des approches statistiques innovantes restent à construire (interactions médicamenteuses, mise en œuvre séquentielle, .). Enfin, en l'état, ces données, et les méthodes d'analyse ne permettent pas une quantification du risque potentiel et sont cantonnées au cadre exploratoire de la fouille de données. Les bases de données médico-administratives fournissent un niveau d'information extrêmement fin concernant l'exposition des patients, du moins en termes de délivrance des médicaments remboursables, sous forme d'un nombre considérable de trajectoires temporelles individuelles. Ces informations chaînées avec la survenue d'événements ayant nécessité une hospitalisation, ou l'enregistrement d'une maladie chronique, constituent potentiellement un outil puissant en pharmacoépidémiologie ; elles appellent le développement d'outils statistiques adéquats de modélisation statistique du risque.


Recherche clinique

Responsable : Nicolas SAVY (UMR 5219 )

Aujourd'hui, tout ré¬sultat de recherche médicale résulte d'une expérimentation (clinique ou biologique) qui s'appuie sur une méthodologie statistique rigoureuse, et dont les résultats sont analysés en termes statisti¬ques. L'outil et la démarche statistique sont incontournables pour aider à une meilleure connaissance médicale et améliorer la pratique médicale dans ses aspects décisionnels, (choix du meilleur examen, optimisation de la thérapeutique, choix du traitement le mieux adapté). La recherche clinique est devenue un enjeu majeur à l'hôpital. Elle est un moyen d'accéder aux innovations fournies par les fabricants de dispositifs médicaux, et les industriels du médicament, à condition que la plate-forme de recherche soit parfaite sur le plan du recrutement, mais aussi sur la qualité du traitement des données. Elle est aussi une part normale, et aujourd'hui de plus en plus clairement identifiée (Unités de Recherche Clinique, Centres d'Investigations Cliniques) du fonctionnement de l'hôpital: elle vise à répondre à des questions importantes concernant le diagnostic, le traitement et le pronostic des patients. Elle est enfin le lien entre la recherche fondamentale (INSERM, CNRS) et les malades. Dans toutes ces composantes, les métiers consacrés au traitement statistique et informatique de l'information médicale sont de mieux en mieux identifiés.

GDR Statistique et Santé