Une nouvelle et meilleure façon de créer des listes de mots

Les listes de mots sont à la base de tant de recherches dans tant de domaines. Les chercheurs du Complexity Science Hub ont maintenant développé un algorithme qui peut être appliqué à différentes langues et peut étendre les listes de mots bien mieux que les autres.

De nombreux projets commencent par la création d’une liste de mots. Non seulement dans les entreprises où sont créées les cartes mentales, mais aussi dans tous les domaines de la recherche. Imaginez que vous vouliez savoir quels jours les gens sont particulièrement de bonne humeur en analysant les publications sur Twitter. Chercher simplement le mot “heureux” ne suffirait pas.

Au lieu de cela, vous devrez utiliser un algorithme qui détecte tous les tweets qui indiquent que quelqu’un est heureux. “Donc, la première étape consiste à créer une liste de tous les mots qui indiquent exactement cela. Toute la recherche tient ou tombe à trigger de cela”, explique Anna Di Natale, chercheuse au Complexity Science Hub à Vienne. Mais comment créer les listes de mots les moreover précises et les moreover complètes possibles ?

Un problÈme qui concerne plusieurs

Ce problème répandu ne concerne pas seulement les enquêteurs d’opinion qui veulent savoir remark les déclarations des politiciens sont reçues par le general public. Les entreprises veulent également savoir remark leurs produits sont perçus grâce à l’analyse des sentiments.

Pour améliorer les choses, Di Natale a maintenant développé une nouvelle méthode, appelée LEXpander, qui surpasse les algorithmes précédents. Et cela même dans deux langues différentes : l’allemand et l’anglais. De as well as, pour la toute première fois, elle a développé un moyen par lequel il est achievable de comparer différents outils.

General performance AMÉLIORÉE

En comparaison avec quatre autres algorithmes d’expansion de listes de mots (WordNet, Empath 2. FastText et GloVe), LEXpander a obtenu des résultats nettement meilleurs, en particulier en allemand. Par exemple, les chercheurs ont découvert que LEXpander devinait 43 % des mots correctement lorsqu’il développait une liste de mots anglais pour une signification positive. Un modèle très populaire, FastText, en comparaison, n’a raison que 28% du temps.

IndÉpendance de la langue mÊme

La raison en est que cet outil fonctionne indépendamment de la langue. Elle ne repose pas sur une langue, mais sur un réseau dit de colexification. Ce principle linguistique reconnu repose sur des homonymes et des polysémies, des mots uniques qui ont deux ou plusieurs significations distinctes. Par exemple : le mot grec ancien φάρμακον (pharmacon) peut signifier médicament ou poison. Deux choses différentes, mais thématiquement proches. Mais il y en a d’autres qui ne suggèrent pas de parenté – comme “banque” en tant qu’institution financière ou le terrain le very long d’une rivière.

“Si vous les collectez dans de nombreuses langues – et ici, nous avons analysé environ 19 langues différentes – vous pouvez voir des liens entre elles”, explique Di Natale. Le réseau se forme lorsque ces colexifications se produisent dans plusieurs langues à travers différentes familles de langues, créant des connexions.

Cette indépendance par rapport à la langue elle-même permet à LEXpander d’obtenir de meilleurs résultats dans différentes langues. “Il existe de nombreuses méthodes développées pour l’anglais. Elles fonctionnent très bien et rapidement et tout le monde les utilise. Essayer de les appliquer à d’autres langues fonctionne, mais pas aussi bien que si vous aviez commencé à développer une méthode pour l’allemand ou l’italien”, Di Natale explique.

Important pour les nouveaux sujets comme covid

Pour de nombreux sujets, il existe déjà de bonnes listes de mots. Mais pour les nouveaux sujets – comme lorsque COVID est apparu – de nouveaux doivent être créés. Jusqu’à présent, ils étaient généralement créés à la most important lors de brainstorming avec des collègues et plusieurs outils étaient utilisés pour aider. Mais jusqu’à présent, il n’y avait aucun moyen de les comparer. Anna Di Natale et son équipe ont maintenant créé cette possibilité et ont également développé un nouvel outil furthermore performant que les autres. Cela peut être une pierre angulaire importante pour de nombreux projets de recherche futurs dans divers domaines.