Réalisé à l’automne 2023.
2ème Année de Master.
UE : Techniques d'Apprentissage Automatique
Durée : 2 semaines.
Langage de programmation : Python.
Utilisation des librairies :
Le but de ce projet était de faire de la classification multi-labels à partir de données textuelles.
Nous avons travaillé sur le jeu de données PubMed-multi-label-dataset qui est composé de titres et d'abstracts d'articles scientifiques, ainsi que des 14 catégories possibles pour la classification (Anatomy [A], Organisms [B], Diseases [C], Chemicals and Drugs [D], Analytical, Diagnostic and Therapeutic Techniques, and Equipment [E], Psychiatry and Psychology [F],Phenomena and Processes [G], Disciplines and Occupations [H], Anthropology, Education, Sociology, and Social Phenomena [I], Technology, Industry, and Agriculture [J], Information Science [L], Named Groups [M], Health Care [N], Geographicals [Z]).
Étant donné qu'un article peut appartenir à plusieurs catégories, la classification à effectuer est une
classification multi-labels. Voici un aperçu du jeu de données :
Title | Astract | A | B | C | D | E | F | G | H | I | J | L | M | N | Z |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"Expression of p53 and coexistence of HPV in premalignant lesions and in cervical cancer." | "Fifty-four paraffin embedded tissue sections from ..." | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
"A new Panolis H?bner, [1821] species from Vietnam (Lepidoptera, Noctuidae, Orthosiini)." | "Panolis is a well-defined and compact Palearctic trifine Noctuidae genus ..." | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
Nous avions des échantillons de texte en anglais, qu'il a d'abord fallu pré-traiter en effectuant les étapes suivantes :
Nous avons d'abord séparé nos données en un jeu de données d'entraînement et un jeu de données de test.
Nous avons comparé deux classifieurs permettant de faire de la classification multi-labels :