Vient de paraître : La détection automatique multilingue d’énoncés biaisés dans Wikipédia. (Mémoire de maîtrise)

Aleksandrova, Desislava (2020) La détection automatique multilingue d’énoncés biaisés dans Wikipédia.
Mémoire de maîtrise. Département de linguistique et de traduction, Université de Montréal. [PDF (1Mo)].

Nous proposons une méthode multilingue pour l’extraction de phrases biaisées de Wikipédia, et l’utilisons pour créer des corpus en bulgare, en français et en anglais. En parcourant l’historique des révisions des articles, nous cherchons ceux qui, à un moment donné, avaient été considérés en violation de la politique de neutralité de Wikipédia (et corrigés par la suite). Pour chacun de ces articles, nous récupérons la révision signalée comme biaisée et la révision qui semble avoir corrigé le biais. Ensuite, nous extrayons les phrases qui ont été supprimées ou réécrites dans cette révision. Cette approche permet d’obtenir suffisamment de données même dans le cas de Wikipédias relativement petites, comme celle en bulgare, où de 62 000 articles nous avons extrait 5 000 phrases biaisées. Nous évaluons notre méthode en annotant manuellement 520 phrases pour le bulgare et le français, et 744 pour l’anglais. Nous évaluons le niveau de bruit, ses sources et analysons les formes d’expression de biais. Enfin, nous utilisons les données pour entrainer et évaluer la performance d’algorithmes de classification bien connus afin d’estimer la qualité et le potentiel des corpus.

Mots-clés : biais, neutralité, classification, multilingue, corpus, Wikipédia.

Comments are closed.