in

Quand les data scientists doivent-ils essayer une nouvelle technique  ? Une nouvelle mesure peut aider les scientifiques à décider quelle méthode d'estimation utiliser lors de la modélisation d'un problème de données particulier

Si un scientifique voulait prévoir les courants océaniques pour comprendre remark la pollution se déplace après un déversement de pétrole. Ou, elle pourrait choisir un modèle moreover récent qui comprend également des courants plus courts. Cela pourrait être additionally précis. Remark savoir si cela vaudra le temps, le coût et l’effort d’utiliser la nouvelle méthode ?

qu’ils examinent des statistiques sur les courants océaniques, les crimes violents.

L’équipe a créé une nouvelle mesure, connue sous le nom de “valeur c”, qui aide les utilisateurs à choisir entre des methods en fonction de la probabilité qu’une nouvelle méthode soit furthermore précise pour un ensemble de données spécifique.

Traditionnellement, les statisticiens comparent les méthodes en faisant la moyenne de la précision d’une méthode sur tous les ensembles de données possibles. Mais ce n’est pas parce qu’une nouvelle méthode est meilleure pour tous les ensembles de données en moyenne qu’elle fournira une meilleure estimation en utilisant un ensemble de données particulier.

Ainsi, des chercheurs du MIT et d’ailleurs ont créé la valeur c, qui est un outil spécifique à un ensemble de données. Une valeur c élevée signifie qu’il est peu possible qu’une nouvelle méthode soit moins précise que la méthode originale sur un problème de données spécifique.

Dans leur doc de preuve de notion, les chercheurs décrivent et évaluent la valeur c à l’aide de problèmes d’analyse de données du monde réel  : modélisation des courants océaniques. Ils montrent remark la valeur c pourrait aider les statisticiens et les analystes de données à obtenir des résultats additionally précis en indiquant quand utiliser des méthodes d’estimation solutions qu’ils auraient autrement ignorées.

“Ce que nous essayons de faire avec ce travail particulier est de proposer quelque selected qui est spécifique aux données. La idea classique de risque est vraiment naturelle pour quelqu’un qui développe une nouvelle méthode. Cette personne veut que sa méthode fonctionne bien pour tous ses utilisateurs sur moyenne. Mais un utilisateur d’une méthode veut quelque selected qui fonctionnera sur son problème individuel. Nous avons montré que la valeur c est une preuve de principle très pratique dans cette course “, déclare l’auteur principal Tamara Broderick, professeur agrégé au Département de génie électrique et informatique (EECS) et membre du Laboratoire des systèmes d’information et de décision et de l’Institut des données, des systèmes et de la société.

un ancien étudiant diplômé du groupe de Broderick qui est maintenant postdoctoral à l’Université de Columbia et Sameer Deshpande ’13, un ancien postdoc dans le groupe de Broderick qui est maintenant professeur adjoint à l’Université du Wisconsin à Madison. Une variation acceptée de l’article est publiée en ligne dans le Journal of the American Statistical Affiliation.

Évaluation des estimateurs

La valeur c est conçue pour aider à résoudre les problèmes de données dans lesquels les chercheurs cherchent à estimer un paramètre inconnu à l’aide d’un ensemble de données. Un chercheur dispose de deux méthodes d’estimation et doit décider laquelle utiliser pour ce problème particulier.

La meilleure méthode d’estimation est celle qui entraîne le moins de “pertes”, ce qui signifie que l’estimation sera in addition proche de la vérité terrain. Considérez à nouveau la prévision des courants océaniques  : peut-être qu’être décalé de quelques mètres par heure n’est pas si mal, mais être décalé de plusieurs kilomètres par heure rend l’estimation inutile. La vérité de terrain est inconnue, cependant le scientifique essaie de l’estimer. Par conséquent, on ne peut jamais réellement calculer la perte d’une estimation pour leurs données spécifiques. C’est ce qui rend difficile la comparaison des estimations. La valeur c aide un scientifique à relever ce défi.

L’équation de la valeur c utilise un ensemble de données spécifique pour calculer l’estimation avec chaque méthode, puis une fois de furthermore pour calculer la valeur c entre les méthodes. Si la valeur c est grande, il est peu possible que la méthode alternative soit pire et donne des estimations moins précises que la méthode originale.

“Dans notre cas, nous supposons que vous souhaitez rester avec l’estimateur par défaut, et que vous ne souhaitez passer au nouvel estimateur que si vous vous sentez très confiant. Avec une valeur c élevée, il est possible que la nouvelle estimation est in addition précis. Si vous obtenez une faible valeur c, vous ne pouvez rien dire de concluant. Vous avez peut-être fait mieux, mais vous ne savez tout simplement pas », explique Broderick.

Sonder la théorie

Les chercheurs ont mis cette théorie à l’épreuve en évaluant trois problèmes d’analyse de données du monde réel.

D’une portion. un problème auquel Trippe s’est attaqué. Des modèles précis sont importants pour prédire la dispersion des contaminants, comme la air pollution thanks à un déversement de pétrole. L’équipe a découvert que l’estimation des courants océaniques à l’aide de plusieurs échelles, une as well as grande et une furthermore petite, donne probablement une additionally grande précision qu’en utilisant uniquement des mesures à in addition grande échelle.

“Les chercheurs des océans étudient cela, et la valeur c peut fournir un” punch “statistique pour soutenir la modélisation à plus petite échelle”, a déclaré Broderick.

Dans un autre exemple, les chercheurs ont cherché à prédire les crimes violents dans les secteurs de recensement à Philadelphie. En utilisant la valeur c, ils ont constaté que l’on pouvait obtenir de meilleures estimations des taux de crimes violents en incorporant des informations sur les crimes non violents au niveau des secteurs de recensement dans l’analyse. Ils ont également utilisé la valeur c pour montrer que l’exploitation supplémentaire des données sur les crimes violents des secteurs de recensement voisins dans l’analyse n’est pas vulnerable de fournir d’autres améliorations de précision.

“Cela ne veut pas dire qu’il n’y a pas d’amélioration, cela signifie simplement que nous ne sommes pas sûrs de dire que vous l’obtiendrez”, dit-elle.

Maintenant qu’ils ont prouvé la valeur c en théorie et montré remark elle pourrait être utilisée pour résoudre les problèmes de données du monde réel, les chercheurs souhaitent étendre la mesure à davantage de forms de données et à un ensemble in addition big de classes de modèles.

Le but ultime est de créer une mesure suffisamment générale pour de nombreux autres problèmes d’analyse de données, et bien qu’il y ait encore beaucoup de travail à faire pour atteindre cet objectif, Broderick dit qu’il s’agit d’un leading pas critical et passionnant dans la bonne way.

Cette recherche a été soutenue, en partie, par une subvention Innovative Exploration Projects Agency-Electrical power, un prix Profession de la Countrywide Science Foundation, l’Office of Naval Research et la Wisconsin Alumni Analysis Foundation.