#alternate alternate alternate * Accès direct au contenu * Accès direct au menu principal Logo Marianne République française Retour à l'accueil (logo République française) Logo Inserm Header Retour à l'accueil (logo Inserm) * English (BUTTON) Recherche Rechercher ____________________ (BUTTON) Recherche (BUTTON) Menu Fermer * Connaître l’Inserm Connaître l’Inserm + L’Institut o L’Inserm en un coup d’œil o Missions o Organigramme o Infrastructures de recherche o Documents stratégiques o Budget o Prix Inserm + Notre écosystème o Partenariats de recherche o L’Inserm et les associations o Coopération en Europe et à l’international o Programme Investissements d’Avenir (PIA) o France Relance + Nos programmes o Programmes de recherche o Programme Atip–Avenir o École de l’Inserm Liliane Bettencourt * La recherche à l’Inserm La recherche à l’Inserm + Du laboratoire jusqu’au patient o Le continuum de la recherche o La recherche fondamentale o La recherche clinique o La recherche en santé publique o La recherche technologique o Valorisation et transfert des découvertes o La recherche participative + Une recherche responsable o Nos bonnes pratiques o La science ouverte o L’éthique à l’Inserm o Les modèles animaux + Portraits et reportages o Portraits de chercheuses et de chercheurs o Reportages en labo * Information en santé Information en santé + Pour tout public o Dossiers thématiques o C’est quoi ? Les mots de la science o Magazine de l’Inserm o Ouvrages coédités par l’Inserm o Expositions et ressources pédagogiques + Pour public avancé o Expertises collectives o Rapports thématiques o Revue médecine/sciences * Actualités & évènements Actualités & évènements + Nos actualités o Actu science o Actu institutionnelle o Actu pro o Toutes les actualités + Nos évènements o Évènéments * Faire un don * + English * 1. Accueil Actualité Institut L’intelligence artificielle au bénéfice de l’analyse des grandes cohortes L’intelligence artificielle au bénéfice de l’analyse des grandes cohortes * Publié le : 10/09/2019 * Temps de lecture : 6 min * Actualité, Institut Le recueil, le croisement et l’analyse des données massives sont, depuis quelques années, décrits comme des enjeux majeurs en sciences de la santé. Ils n’ont pourtant rien de nouveau pour les épidémiologistes responsables de cohortes : habitués à travailler sur des grands volumes d’information, les investigateurs s’ouvrent à de nouvelles pratiques de partage de données et testent des méthodes innovantes en machine learning. D’après un article extrait du rapport d’activité 2018 de l’Institut Les cohortes, qui permettent de suivre des personnes malades ou des segments de la population générale, se sont imposées dans la seconde moitié du 20^e siècle comme un outil déterminant en épidémiologie et en santé publique. En observant une population donnée sur le temps long, en étudiant ses caractéristiques, ses comportements et ses expositions, on a pu affiner notre compréhension des facteurs de risque de multiples maladies, et analyser les effets de certaines pratiques ou de certains traitements. À la clé : le développement de politiques de santé publique fondées sur la preuve. Les cohortes sont aujourd’hui au cœur des nouveaux défis de l’exploitation de données massives. « Plus le chercheur a de données fiables, plus il peut questionner des hypothèses de recherche différentes et améliorer l’identification de l’étiologie d’une maladie en éliminant des biais d’omission ou en prenant en compte des facteurs de confusion, explique Charles Persoz, de l’institut thématique Santé publique. Aujourd’hui, de nombreuses sources de données peuvent être collectées dans le protocole de la cohorte ou croisées avec elles : le système national des données de santé (SNDS), les grandes bases de données environnementales qui permettent de connaître des expositions à des particules fines, des pesticides ou d’autres polluants ainsi que le contexte social et géographique des volontaires de la cohorte, mais aussi des équipements numériques individuels de type bracelets ou montres connectés, par exemple. » Les premières briques du Health Data Hub Le Système national des données de santé (SNDS), base du futur Health Data Hub, fait figure de pilier des données de santé en France. Quasi unique dans le monde de par son ampleur et sa couverture de l’ensemble de la population, ce système permet le chaînage des données de l’Assurance maladie (base SNIIRAM), des hôpitaux (base PMSI), des causes médicales de décès (base du CépiDC de l’Inserm), de données relatives au handicap et échantillons de données en provenance des organismes d’assurance maladie complémentaire. La mise à disposition du SNDS pour la recherche a été actée par la loi de modernisation de notre système de santé de 2016. Le Health Data Hub, projet ayant émergé suite aux annonces présidentielles sur l’intelligence artificielle en mars 2018, devrait prochainement structurer et renforcer l’écosystème de l’ensemble des données de santé et des services qui permettent de les utiliser. Constances, la cohorte-laboratoire Ces précieuses données du SNDS, une cohorte en dispose déjà en partie : Constances. Labellisée comme grande infrastructure épidémiologique ouverte pour la recherche et la surveillance dans le cadre du programme Investissements d’avenir, elle rassemble 200 000 volontaires en population générale et forme l’un des outils épidémiologiques les plus ambitieux du moment. Constances travaille déjà avec les données de la Caisse nationale d’assurance maladie et de la Caisse nationale d’assurance vieillesse, qui en sont partenaires depuis sa création en 2012. « La cohorte Constances permet d’agréger des milliers de variables sur chaque individu, et nous avons pour mission de garantir la qualité de ces données aux chercheurs qui les sollicitent pour leurs travaux, détaille Marie Zins, responsable technique et scientifique. Cela représente un travail monumental ! Par exemple, en conformité à leur mission première, l’assurance maladie et l’assurance vieillesse ont développé des bases de gestion fondées sur la prestation, et non pas sur l’individu. Il y a donc une très grande complexité d’accès, de compréhension et d’analyse pour reconstruire des trajectoires de données individuelles. Nous devons “épidémiologiser” les données du SNDS, et 4 ou 5 personnes y travaillent en permanence ». Par son ambition, la cohorte Constances est un laboratoire dans lequel des types inédits de croisements de données pourraient révolutionner la manière de faire de l’épidémiologie et de la santé publique. Sur une base individuelle, avec un géocodage permettant si besoin de se connecter à d’autres bases environnementales et sociales ayant un accès par localisation géographique, le chercheur disposera de données variées : examens médicaux d’inclusion, bilans de santé, questionnaires régulièrement mis à jour avec de nouvelles questions sur des sous-populations de la cohorte, données biobanques effectuant des collectes de sang et urine, et enfin, données de l’assurance maladie et de l’assurance vieillesse… Le traitement automatique du langage au service des alertes épidémiologiques L’année 2018 a vu la réussite du projet pilote de dématérialisation complète du certificat de décès, tant dans son volet médical qu’administratif. L’objectif : améliorer la veille sanitaire sur les causes de décès en analysant en masse le contenu des certificats rédigés par les médecins. Or, suivant les recommandations de l’OMS, ces documents sont rédigés dans le langage spontané de chaque praticien, sans codification (c’est ce qu’on appelle le « texte brut »). Il faut donc réussir à identifier les différentes manières de nommer une même pathologie grâce à des méthodes d’extraction de l’information, cela afin d’attribuer au décès l’une des causes répertoriées dans la classification internationale des maladies. « En 2018, nous avons progressé sur le traitement automatique du langage des certificats de décès, afin de reconnaître et d’attribuer les entités nosologiques dans le texte brut, puis les traduire en codes de classification exploitables par les chercheurs. La preuve de concept de l’algorithme est solide, et nous espérons une mise en production rapide », explique Grégoire Rey, directeur du CépiDC. Cela pourrait mener à terme au développement de systèmes d’alerte en temps réel, dans le cas où la prévalence de telle ou telle cause de décès serait anormale sur une période donnée. Autre chantier en cours : le test de différentes techniques de machine learning pour identifier des associations causales à partir des données observationnelles du SNDS, en visant des méthodes robustes et réplicables. Repenser la collecte de données La collecte et le contrôle des données sont également au centre des préoccupations de Gianluca Severi, qui pilote la cohorte E3N-Générations. Cette cohorte, labellisée Investissement d’avenir, a pour but d’étudier la santé en relation avec le mode de vie chez des personnes d’une même famille, sur trois générations. Elle fait suite à la cohorte E3N qui avait inclus 100 000 femmes affiliées à la MGEN dans les années 1990, pour y intégrer leurs conjoints, les enfants et les petits-enfants. « L’ancienneté de la cohorte E3N-E4N permet d’apprécier l’évolution des types de données et de leurs modes de recueil, observe Gianluca Severi. Ainsi, dans les années 1990, nous avions des questionnaires papier. Nous avons alors développé l’acquisition de données par lecture automatique (LAD) et la gestion électronique (GED) des grands volumes de documents recueillis – questionnaires, comptes rendus médicaux... Pour les nouvelles générations, c’est une plateforme en ligne où l’on peut répondre aux questions, mais aussi apparier ses objets connectés et, à terme, déposer ses données comme, par exemple, des images médicales. Les volontaires recevront aussi des questions courtes et ponctuelles par SMS. » La qualité des données est un défi aussi important que leur quantité. « L’utilisation des nouvelles technologies peut aussi faciliter la participation des volontaires, et limiter l’abandon en cours de suivi. Nous avons organisé en 2013 et en 2016 des rencontres entre la communauté épidémiologique et celle de la santé numérique pour en explorer les perspectives, souligne Pascale Gerbouin-Rérolle, qui dirige le service technique de la cohorte E4N. Nous travaillons aussi avec des fabricants d’objets connectés pour étudier la fiabilité et la structuration des données qu’ils peuvent produire. » Les chercheurs de la cohorte E4N ont un petit faible pour les méthodologies originales. Par exemple, ils sont en train de développer un projet dans lequel certains participants vont lire des textes à haute voix ce qui permettra d’identifier, grâce à des techniques de machine learning, des caractéristiques de leur signal vocal. Celles-ci marquent en effet la présence ou l’absence de certaines maladies, notamment neurodégénératives. Un travail est mené avec CentraleSupelec pour concevoir des algorithmes susceptibles d’être entraînés à cette tâche. Actuellement, les équipes de la cohorte E4N ne peuvent travailler que de manière ponctuelle avec les données du SNDS. Leurs travaux restent donc circonscrits à des appariements temporaires, sans possibilité de suivi sur le long terme. L’évolution du cadre juridique et éthique du Health Data Hub est donc très attendue par les scientifiques, afin que l’intelligence artificielle appliquée aux données massives puisse déployer tout son potentiel. Recevoir notre lettre d’information Vous recevrez chaque mois les derniers articles publiés sur ce site. Nous n’utiliserons pas votre e‑mail pour autre chose, et vous pourrez vous désabonner à tout moment. En savoir plus sur vos données et vos droits. Formulaire d’inscription loader Adresse e-mail (au format pbheevry@rkrzcyr.se) : ____________________ M'inscrire Nos délégations régionales * Auvergne Rhône-Alpes * Est * Grand Ouest * Île-de-France Centre Est * Île-de-France Centre Nord * Île-de-France Sud * Nord-Ouest * Nouvelle-Aquitaine * Occitanie Méditerranée * Occitanie Pyrénées * PACA et en Corse Autres sites Inserm * Professionnels de la recherche * Ressources Humaines * Marchés publics * Évaluation * Orphanet Accès direct * Volontaire pour des tests Associés à l’Inserm * ANRS | MIE * Inserm Transfert * * * * * * * * Questions fréquentes * Nous contacter * Mentions légales * Accessibilité (partiellement conforme) * Données personnelles * Gérer mes cookies * © Inserm 2023 (BUTTON) Retour en haut de page Ce site utilise des cookies. Vous pouvez changer d'avis à tout moment en cliquant le menu "Gérer mes cookies" en bas de page. AccepterRefuser Paramétrer Cookies (BUTTON) Fermer Paramétrer les cookies Liste des types de cookies utilisés sur ce site et de leurs finalités. Certains cookies sont déposés quelle que soit la page que vous visitez, d'autres uniquement si vous visitez une page qui en a besoin. Nécessaire [X] Nécessaire Toujours activé Ces cookies sont indispensables aux fonctionnalités de base du site et à sa sécurité. Vous ne pouvez pas les refuser, car ils ne collectent pas de données personnelles. Cookie Durée Description cerber_bjZJE-PQKeqAy 1 jour Déposé par l'extension de sécurité du site. cerber_iEuaryZDFx 1 jour Déposé par l'extension de sécurité du site. cerber_rmpcGFhB 1 jour Déposé par l'extension de sécurité du site. cookielawinfo-checkbox-advertisement 1 an Déposé par l'extension de gestion des cookies pour stocker le consentement du visiteur. cookielawinfo-checkbox-analytics 1 an Déposé par l'extension de gestion des cookies pour stocker le consentement du visiteur. cookielawinfo-checkbox-embedded 1 an Déposé par l'extension de gestion des cookies pour stocker le consentement du visiteur. cookielawinfo-checkbox-necessary 11 mois Déposé par l'extension de gestion des cookies pour stocker le consentement du visiteur. cookielawinfo-checkbox-non-necessary 11 mois Déposé par l'extension de gestion des cookies pour stocker le consentement du visiteur. viewed_cookie_policy 11 mois Déposé par l'extension de gestion des cookies pour stocker le statut du consentement du visiteur concernant les cookies. Contenu embarqué [ ] embedded Ces cookies sont liés à des contenus tiers embarqués sur le site (vidéos, etc.). Ils ne sont déposés que sur certaines pages. Cookie Durée Description CONSENT 16 ans 5 mois 11 jours 11 heures Déposé via les vidéos YouTube embarquées. Enregistre des statistiques anonymes, par exemple sur le nombre d'affichages d'une vidéo. Aucune information sensible n'est collectée, à moins que vous soyez connecté à un compte Google (dans ce cas, vos actions sont liées à votre compte). dmvk session Déposé par Dailymotion, pour collecter statistiques à propos du comportement des visiteurs du site. Utilisé pour des statistiques internes. pll_language 1 an Déposé par l'extension de traduction. Stocke le code langue de la dernière page consultée. ts 1 an et 1 mois Déposé par Dailymotion. usprivacy 1 an 1 mois Déposé par Dailymotion. v1st 1 an 1 mois Déposé par Dailymotion. VISITOR_INFO1_LIVE 5 mois 27 jours Déposé par YouTube pour collecter des informations à propos des vidéos embarquées. YSC session Déposé par YouTube pour comptabiliser le nombre de vues des vidéos embarquées. Publicité [ ] advertisement Le site n'affiche pas de publicité, mais certains contenus embarqués peuvent déclencher le dépôt de cookies publicitaires. Ces cookies sont utilisés pour fournir des publicités et des campagnes marketing personnalisées. Ils pistent les visiteurs entre les sites et collectent des données personnelles. Cookie Durée Description IDE 1 an 24 jours Déposé par Google DoubleClick pour stocker des informations sur la façon dont les visiteurs utilisent les vidéos YouTube et la publicité vue avant les vidéos. Il sert à afficher des publicités pertinentes à l'utilisateur selon son profil. test_cookie 15 minutes Déposé par Google DoubleClick pour déterminer si le navigateur du visiteur supporte les cookies. Enregistrer et accepter Powered by CookieYes Logo