Les outils statistiques populaires peuvent produire des prévisions erronées

62

Une nouvelle étude met en évidence une faille potentielle dans les outils logiciels largement utilisés qui s’appuient sur une technique de modélisation statistique courante appelée ARIMA, soulevant des inquiétudes quant à l’exactitude des prévisions dans des domaines allant de la finance à l’écologie. Jesse Wheeler, professeur adjoint à l’Idaho State University, et son co-auteur, Edward Ionides, ont découvert que les algorithmes qui alimentent les modèles ARIMA dans deux environnements logiciels populaires peuvent produire des estimations peu fiables, conduisant potentiellement à des prédictions et des décisions erronées.

Comprendre les modèles ARIMA et leur importance

Les modèles ARIMA (Autoregressive Integrated Moving Average) sont la pierre angulaire de l’analyse des séries chronologiques, une méthode utilisée pour analyser les données collectées au fil du temps. Ils fonctionnent en reliant la valeur actuelle d’une mesure – comme le prix des œufs ou la population d’ours dans une forêt – à ses valeurs passées, permettant aux chercheurs d’identifier des modèles, des tendances et, finalement, de prévoir les valeurs futures.

Pourquoi ARIMA est si courant

Les modèles ARIMA sont souvent la première méthode de séries chronologiques enseignée aux étudiants et servent de comparaison de base lors du développement de nouveaux algorithmes statistiques et d’apprentissage automatique. Leur polyvalence en a fait des outils incontournables dans diverses disciplines, notamment :
Économie : Prévision des tendances du marché et des indicateurs économiques
Soins de santé : Analyser les données des patients et prévoir les épidémies
Météo : Prédiction des modèles de température et de précipitations
Écologie : Modélisation des populations animales et des changements environnementaux

La découverte : un problème potentiel avec l’estimation des paramètres

Les recherches de Wheeler et Ionides se sont concentrées sur un aspect critique des modèles ARIMA : l’estimation des paramètres. Les estimations de paramètres utilisent des échantillons de données collectées pour déduire les caractéristiques d’une population plus large. Les chercheurs ont découvert un problème d’optimisation potentiel au sein de l’algorithme d’estimation du maximum de vraisemblance (un processus utilisé pour ajuster les modèles statistiques) dans le logiciel utilisé pour mettre en œuvre les modèles ARIMA.

« C’est comme avoir une calculatrice qui prétend additionner correctement deux plus deux, mais qui renvoie parfois une réponse incorrecte, comme deux plus deux égale trois », explique Wheeler. “Nous nous appuyons souvent sur des logiciels statistiques comme nous le faisons avec une calculatrice. Ainsi, si la calculatrice vous indique qu’elle vous donne une estimation de paramètre spécifique, il est préférable qu’elle le fasse avec une très grande confiance.”

L’étendue du problème

Les chercheurs ont découvert que les estimations du maximum de vraisemblance du logiciel n’étaient pas entièrement optimisées dans un nombre étonnamment élevé de cas – jusqu’à 60 % du temps, selon les données et le modèle. Cela signifie que les algorithmes, bien qu’ils prétendent maximiser la vraisemblance du modèle, n’y parviennent souvent pas. Les estimations de paramètres de qualité inférieure peuvent, à leur tour, compromettre l’exactitude des prévisions et la fiabilité d’autres analyses statistiques.

Aborder le problème et la voie à suivre

Surtout, Wheeler et Ionides n’ont pas seulement identifié le problème ; ils ont proposé un nouvel algorithme pour le corriger et ont démontré son efficacité en utilisant le langage de programmation R. Cela offre une solution pratique pour les chercheurs et les professionnels utilisant les modèles ARIMA.

« Les modèles ARIMA sont utilisés quotidiennement par les chercheurs et les professionnels de l’industrie à des fins de prévision et d’analyse scientifique dans de nombreux domaines… Si le logiciel qui estime ces modèles présente des défauts, cela peut potentiellement conduire à des résultats inattendus ou à des décisions erronées. »

En corrigeant ces défauts de l’approche du maximum de vraisemblance, cette recherche améliore la fiabilité des modèles ARIMA et contribue à une prise de décision plus éclairée dans un large éventail de domaines, améliorant finalement à la fois la compréhension scientifique et les applications pratiques. Même de petites améliorations dans la précision des estimations peuvent avoir des conséquences significatives dans le monde réel.