in

Des chercheurs créent un outil pour simuler avec précision des systèmes complexes

Les chercheurs utilisent souvent des simulations lors de la conception de nouveaux algorithmes, vehicle tester des idées dans le monde réel peut être à la fois coûteux et risqué. Mais comme il est unachievable de capturer chaque détail d’un système complexe dans une simulation, ils collectent généralement une petite quantité de données réelles qu’ils rejouent tout en simulant les composants qu’ils souhaitent étudier.

Connue sous le nom de simulation basée sur les traces (les petits morceaux de données réelles sont appelés traces), cette méthode donne parfois des résultats biaisés. Cela signifie que les chercheurs peuvent choisir sans le savoir un algorithme qui n’est pas le meilleur qu’ils ont évalué et qui fonctionnera moins bien sur des données réelles que la simulation ne l’avait prédit.

Les chercheurs du MIT ont développé une nouvelle méthode qui élimine cette source de biais dans la simulation basée sur les traces. En permettant des simulations impartiales basées sur des traces, la nouvelle approach pourrait aider les chercheurs à concevoir de meilleurs algorithmes pour une variété d’applications, notamment l’amélioration de la qualité vidéo sur Web et l’augmentation des performances des systèmes de traitement de données.

L’algorithme d’apprentissage automatique des chercheurs s’appuie sur les principes de causalité pour apprendre comment les traces de données ont été affectées par le comportement du système. De cette façon, ils peuvent rejouer la version correcte et impartiale de la trace pendant la simulation.

Par rapport à un simulateur basé sur les traces développé précédemment, la méthode de simulation des chercheurs a correctement prédit quel algorithme nouvellement conçu serait le meilleur pour le streaming vidéo, c’est-à-dire celui qui a conduit à moins de rebuffering et à une meilleure qualité visuelle. Les simulateurs existants qui ne tiennent pas compte des biais auraient orienté les chercheurs vers un algorithme moins performant.

“Les données ne sont pas la seule selected qui compte. L’histoire derrière la façon dont les données sont générées et collectées est également importante. Si vous voulez répondre à une dilemma contrefactuelle, vous devez connaître l’histoire sous-jacente de la génération de données afin de n’intervenir que sur les choses qui vous voulez vraiment simuler », explique Arash Nasr-Esfahany, étudiant diplômé en génie électrique et informatique (EECS) et co-auteur principal d’un article sur cette nouvelle method.

Il est rejoint sur l’article par les co-auteurs principaux et les autres étudiants diplômés de l’EECS Abdullah Alomar et Pouya Hamadanian récent étudiant diplômé Anish Agarwal PhD ’21 et les auteurs principaux Mohammad Alizadeh, professeur agrégé de génie électrique et d’informatique et Devavrat Shah, professeur Andrew et Erna Viterbi à l’EECS et membre de l’Institut des données, des systèmes et de la société et du Laboratoire des systèmes d’information et de décision. La recherche a récemment été présentée au Symposium USENIX sur la conception et la mise en œuvre de systèmes en réseau.

Simulations spécieuses

Les chercheurs du MIT ont étudié la simulation basée sur les traces dans le contexte des purposes de streaming vidéo.

Dans le streaming vidéo, un algorithme de débit binaire adaptatif décide en permanence de la qualité vidéo, ou débit binaire, à transférer vers un appareil en fonction de données en temps réel sur la bande passante de l’utilisateur. Pour tester l’impact de différents algorithmes de débit adaptatif sur les performances du réseau, les chercheurs peuvent collecter des données réelles auprès des utilisateurs pendant un flux vidéo pour une simulation basée sur les traces.

Ils utilisent ces traces pour simuler ce qui serait arrivé aux performances du réseau si la plate-forme avait utilisé un algorithme de débit adaptatif différent dans les mêmes circumstances sous-jacentes.

Les chercheurs ont traditionnellement supposé que les données de trace sont exogènes, ce qui signifie qu’elles ne sont pas affectées par des facteurs qui sont modifiés au cours de la simulation. Ils supposeraient que, pendant la période où ils ont collecté les données de effectiveness du réseau, les choix effectués par l’algorithme d’adaptation du débit binaire n’ont pas affecté ces données.

Mais il s’agit souvent d’une fausse hypothèse qui entraîne des biais sur le comportement des nouveaux algorithmes, rendant la simulation invalide, explique Alizadeh.

“Nous avons reconnu, et d’autres ont reconnu, que cette façon de faire la simulation peut induire des erreurs. Mais je ne pense pas que les gens savaient nécessairement à quel issue ces erreurs pouvaient être importantes”, dit-il.

Pour développer une resolution, Alizadeh et ses collaborateurs ont défini le problème comme un problème d’inférence causale. Pour collecter une trace impartiale, il faut comprendre les différentes causes qui affectent les données observées. Certaines triggers sont intrinsèques à un système, tandis que d’autres sont affectées par les steps entreprises.

Dans l’exemple du streaming vidéo, les performances du réseau sont affectées par les choix effectués par l’algorithme d’adaptation du débit, mais elles sont également affectées par des éléments intrinsèques, comme la capacité du réseau.

“Notre tâche est de démêler ces deux effets, d’essayer de comprendre quels elements du comportement que nous observons sont intrinsèques au système et dans quelle mesure ce que nous observons est basé sur les actions qui ont été prises. Si nous pouvons démêler ces deux effets, alors nous pouvons faire des simulations impartiales », dit-il.

Apprendre à partir des données

Mais les chercheurs ne peuvent souvent pas observer directement les propriétés intrinsèques. C’est là qu’intervient le nouvel outil, appelé CausalSim. L’algorithme peut apprendre les caractéristiques sous-jacentes d’un système en utilisant uniquement les données de trace.

CausalSim prend des données de trace qui ont été collectées via un essai contrôlé randomisé et estime les fonctions sous-jacentes qui ont produit ces données. Le modèle indique aux chercheurs, dans les mêmes situations sous-jacentes exactes qu’un utilisateur a connu, remark un nouvel algorithme changerait le résultat.

En utilisant un simulateur typique basé sur les traces, le biais peut conduire un chercheur à sélectionner un algorithme moins performant, même si la simulation indique qu’il devrait être meilleur. CausalSim aide les chercheurs à sélectionner le meilleur algorithme testé.

Les chercheurs du MIT l’ont observé dans la pratique. Lorsqu’ils ont utilisé CausalSim pour concevoir un algorithme d’adaptation de débit amélioré, cela les a amenés à sélectionner une nouvelle variante qui avait un taux de décrochage près de 1,4 fois inférieur à un algorithme concurrent bien accepté, tout en obtenant la même qualité vidéo. Le taux de décrochage est le temps qu’un utilisateur a passé à remettre en mémoire tampon la vidéo.

En revanche, un simulateur piloté par des traces conçu par des professionals a prédit le contraire. Il a indiqué que cette nouvelle variante devrait provoquer un taux de décrochage près de 1,3 fois furthermore élevé. Les chercheurs ont testé l’algorithme sur le streaming vidéo du monde réel et ont confirmé que CausalSim avait raison.

“Les gains que nous obtenions dans la nouvelle variante étaient très proches de la prédiction de CausalSim, alors que le simulateur expert était loin. C’est vraiment excitant car ce simulateur conçu par des industry experts a été utilisé dans la recherche au cours de la dernière décennie. Si CausalSim peut si clairement vaut mieux que ça, qui sait ce qu’on peut en faire ?” dit Hamadanian.

Au cours d’une expérience de 10 mois, CausalSim a constamment amélioré la précision de la simulation, ce qui a donné lieu à des algorithmes faisant approximativement deux fois moins d’erreurs que ceux conçus à l’aide de méthodes de référence.

À l’avenir, les chercheurs souhaitent appliquer CausalSim à des predicaments où les données d’essais contrôlés randomisés ne sont pas disponibles ou où il est particulièrement difficile de récupérer la dynamique causale du système. Ils souhaitent également explorer la manière de concevoir et de surveiller les systèmes pour les rendre additionally propices à l’analyse causale.