Étude d’un modèle de sélection de cohorte pour les essais cliniques
SONAR|HES-SO
90 p.
Mémoire de master: Haute école de gestion de Genève, 2020
French
Ce travail a pour but d’analyser quel modèle de Machine Learning ou de Deep Learning est le plus adapté dans le processus de sélection de cohorte pour les essais cliniques. Il est beaucoup plus simple de confirmer le fonctionnement d’un nouveau médicament sur un échantillon homogène. Par conséquent, la sélection de patients est l’une des étapes cruciales d’un essai clinique. De manière générale, cette étape est formulée par des critères d’inclusion et d’exclusion que les patients doivent satisfaire pour être sélectionnés. Actuellement, la sélection de cohorte est réalisée à la main et demande énormément de temps. C’est pour essayer de résoudre l’automatisation de cette étape que le jeu de données 2018 N2C2shared task (track 1) a été créé. Composé d’enregistrements de patients au format textuel ainsi que de 13 critères d’inclusion, il a pour but de définir, pour chaque enregistrement, si les critères sont satisfaits ou non. En partant de ce principe, il est possible de définir la sélection de cohorte comme un problème de classification multi-labels et donc de l’automatiser en utilisant différents modèles de Machine Learn-ing ou de Deep Learning. Des architectures de Machine Learning classiques (KNN, arbre de déci-sion, régression logistique, etc.) ont été expérimentées, en plus d’architectures de Deep Learning plus complexes (CNN, RNN, etc). Le fait que les enregistrements soient au format textuel nécessite l’utilisation d’une couche d’embeddings préalablement à la classification. Ce travail cherche à évaluer quel modèle est le plus performant dans la sélection de cohorte. En outre, il cherche également à définir quel modèle d’embeddings offre la transformation en vecteur du jeu de données 2018 N2C2 shared task (track 1) la plus efficace. Au-delà de ces deux objectifs, il a également été testé si la longueur des textes utilisés pour l’entraînement a une influence sur les résultats. Treize modèles d’embeddings ont été testés. Celui fournissant les meilleures représentations vec- torielles est ELMo entraîné avec des données médicales provenant du site médical "pubmed". En utilisant ces données vectorisées, le modèle de classification le plus efficace est le CNN. Ces deux modèles ont une différence statistique de performances significative par rapport à l’ensemble des autres modèles testés. La longueur des textes utilisés lors de l’entraînement à également un léger impact sur les résultats. Au-delà du fait que le jeu de données est très limité par son nombre d’enregistrements et par sa dis-tribution, les résultats obtenus dans ce travail sont assez prometteurs et démontrent qu’il est possible d’automatiser le processus de sélection de cohorte. L’utilisation de meilleures données permettrait d’égaler, voire de dépasser les performances humaines dans ce domaine.
-
Language
-
-
Classification
-
Library sciences
-
Notes
-
- Haute école de gestion Genève
- Information documentaire
- hesso:hegge
-
License
-
License undefined
-
Identifiers
-
-
Persistent URL
-
https://sonar.ch/global/documents/314931