Quand les data scientists doivent-ils essayer une nouvelle technique  ? Une nouvelle mesure peut aider les scientifiques à décider quelle méthode d'estimation utiliser lors de la modélisation d'un problème de données particulier

Si un scientifique voulait prévoir les courants océaniques pour comprendre remark la pollution se déplace après un déversement de pétrole, il pourrait utiliser une approche commune qui take a look at les courants se déplaçant entre 10 et 200 kilomètres. Ou, elle pourrait choisir un modèle moreover récent qui comprend également des courants plus courts. Cela pourrait être additionally précis, mais cela pourrait également nécessiter l’apprentissage de nouveaux logiciels ou l’exécution de nouvelles expériences informatiques. Remark savoir si cela vaudra le temps, le coût et l’effort d’utiliser la nouvelle méthode ?

Une nouvelle approche développée par des chercheurs du MIT pourrait aider les scientifiques des données à répondre à cette dilemma, qu’ils examinent des statistiques sur les courants océaniques, les crimes violents, la capacité de lecture des enfants ou un specified nombre d’autres varieties d’ensembles de données.

L’équipe a créé une nouvelle mesure, connue sous le nom de “valeur c”, qui aide les utilisateurs à choisir entre des methods en fonction de la probabilité qu’une nouvelle méthode soit furthermore précise pour un ensemble de données spécifique. Cette mesure répond à la query « est-il probable que la nouvelle méthode soit furthermore précise pour ces données que l’approche commune ?

Traditionnellement, les statisticiens comparent les méthodes en faisant la moyenne de la précision d’une méthode sur tous les ensembles de données possibles. Mais ce n’est pas parce qu’une nouvelle méthode est meilleure pour tous les ensembles de données en moyenne qu’elle fournira une meilleure estimation en utilisant un ensemble de données particulier. Les moyennes ne sont pas spécifiques à l’application.

Ainsi, des chercheurs du MIT et d’ailleurs ont créé la valeur c, qui est un outil spécifique à un ensemble de données. Une valeur c élevée signifie qu’il est peu possible qu’une nouvelle méthode soit moins précise que la méthode originale sur un problème de données spécifique.

Dans leur doc de preuve de notion, les chercheurs décrivent et évaluent la valeur c à l’aide de problèmes d’analyse de données du monde réel  : modélisation des courants océaniques, estimation des crimes violents dans les quartiers et approximation de la capacité de lecture des élèves dans les écoles. Ils montrent remark la valeur c pourrait aider les statisticiens et les analystes de données à obtenir des résultats additionally précis en indiquant quand utiliser des méthodes d’estimation solutions qu’ils auraient autrement ignorées.

“Ce que nous essayons de faire avec ce travail particulier est de proposer quelque selected qui est spécifique aux données. La idea classique de risque est vraiment naturelle pour quelqu’un qui développe une nouvelle méthode. Cette personne veut que sa méthode fonctionne bien pour tous ses utilisateurs sur moyenne. Mais un utilisateur d’une méthode veut quelque selected qui fonctionnera sur son problème individuel. Nous avons montré que la valeur c est une preuve de principle très pratique dans cette course “, déclare l’auteur principal Tamara Broderick, professeur agrégé au Département de génie électrique et informatique (EECS) et membre du Laboratoire des systèmes d’information et de décision et de l’Institut des données, des systèmes et de la société.

Elle est rejointe sur le papier par Brian Trippe PhD ’22, un ancien étudiant diplômé du groupe de Broderick qui est maintenant postdoctoral à l’Université de Columbia et Sameer Deshpande ’13, un ancien postdoc dans le groupe de Broderick qui est maintenant professeur adjoint à l’Université du Wisconsin à Madison. Une variation acceptée de l’article est publiée en ligne dans le Journal of the American Statistical Affiliation.

Évaluation des estimateurs

La valeur c est conçue pour aider à résoudre les problèmes de données dans lesquels les chercheurs cherchent à estimer un paramètre inconnu à l’aide d’un ensemble de données, comme l’estimation de la capacité de lecture moyenne des élèves à partir d’un ensemble de données de résultats d’évaluation et de réponses à un sondage auprès des élèves. Un chercheur dispose de deux méthodes d’estimation et doit décider laquelle utiliser pour ce problème particulier.

La meilleure méthode d’estimation est celle qui entraîne le moins de “pertes”, ce qui signifie que l’estimation sera in addition proche de la vérité terrain. Considérez à nouveau la prévision des courants océaniques  : peut-être qu’être décalé de quelques mètres par heure n’est pas si mal, mais être décalé de plusieurs kilomètres par heure rend l’estimation inutile. La vérité de terrain est inconnue, cependant le scientifique essaie de l’estimer. Par conséquent, on ne peut jamais réellement calculer la perte d’une estimation pour leurs données spécifiques. C’est ce qui rend difficile la comparaison des estimations. La valeur c aide un scientifique à relever ce défi.

L’équation de la valeur c utilise un ensemble de données spécifique pour calculer l’estimation avec chaque méthode, puis une fois de furthermore pour calculer la valeur c entre les méthodes. Si la valeur c est grande, il est peu possible que la méthode alternative soit pire et donne des estimations moins précises que la méthode originale.

Sonder la théorie

Les chercheurs ont mis cette théorie à l’épreuve en évaluant trois problèmes d’analyse de données du monde réel.

D’une portion, ils ont utilisé la valeur c pour aider à déterminer quelle approche est la meilleure pour modéliser les courants océaniques, un problème auquel Trippe s’est attaqué. Des modèles précis sont importants pour prédire la dispersion des contaminants, comme la air pollution thanks à un déversement de pétrole. L’équipe a découvert que l’estimation des courants océaniques à l’aide de plusieurs échelles, une as well as grande et une furthermore petite, donne probablement une additionally grande précision qu’en utilisant uniquement des mesures à in addition grande échelle.

“Les chercheurs des océans étudient cela, et la valeur c peut fournir un” punch “statistique pour soutenir la modélisation à plus petite échelle”, a déclaré Broderick.

Dans un autre exemple, les chercheurs ont cherché à prédire les crimes violents dans les secteurs de recensement à Philadelphie, une application que Deshpande a étudiée. En utilisant la valeur c, ils ont constaté que l’on pouvait obtenir de meilleures estimations des taux de crimes violents en incorporant des informations sur les crimes non violents au niveau des secteurs de recensement dans l’analyse. Ils ont également utilisé la valeur c pour montrer que l’exploitation supplémentaire des données sur les crimes violents des secteurs de recensement voisins dans l’analyse n’est pas vulnerable de fournir d’autres améliorations de précision.

“Cela ne veut pas dire qu’il n’y a pas d’amélioration, cela signifie simplement que nous ne sommes pas sûrs de dire que vous l’obtiendrez”, dit-elle.

Maintenant qu’ils ont prouvé la valeur c en théorie et montré remark elle pourrait être utilisée pour résoudre les problèmes de données du monde réel, les chercheurs souhaitent étendre la mesure à davantage de forms de données et à un ensemble in addition big de classes de modèles.

Le but ultime est de créer une mesure suffisamment générale pour de nombreux autres problèmes d’analyse de données, et bien qu’il y ait encore beaucoup de travail à faire pour atteindre cet objectif, Broderick dit qu’il s’agit d’un leading pas critical et passionnant dans la bonne way.

Cette recherche a été soutenue, en partie, par une subvention Innovative Exploration Projects Agency-Electrical power, un prix Profession de la Countrywide Science Foundation, l’Office of Naval Research et la Wisconsin Alumni Analysis Foundation.