Новое исследование выявляет потенциальный недостаток в широко используемом программном обеспечении, основанном на общепринятой статистической модели под названием ARIMA, что вызывает опасения по поводу точности прогнозов в областях, начиная от финансов и заканчивая экологией. Джесси Уилер, доцент Университета штата Айдахо, и его соавтор Эдвард Ионидес обнаружили, что алгоритмы, обеспечивающие работу моделей ARIMA в двух популярных программных средах, могут давать ненадежные оценки, что потенциально приводит к ошибочным прогнозам и решениям.
Понимание моделей ARIMA и их важность
Модели ARIMA (Autoregressive Integrated Moving Average – авторегрессионные интегрированные модели скользящего среднего) являются краеугольным камнем анализа временных рядов — метода, используемого для анализа данных, собранных с течением времени. Они соотносят текущее значение метрики – например, цену яиц или численность медведей в лесу – с ее прошлыми значениями, позволяя исследователям выявлять закономерности, тенденции и, в конечном итоге, прогнозировать будущие значения.
Почему ARIMA так распространен
Модели ARIMA часто являются первым методом анализа временных рядов, который преподают студентам, и служат базовым сравнением при разработке новых статистических и алгоритмов машинного обучения. Их универсальность сделала их незаменимыми инструментами в различных дисциплинах, включая:
— Экономика: Прогнозирование рыночных тенденций и экономических показателей
— Здравоохранение: Анализ данных пациентов и прогнозирование вспышек заболеваний
— Погода: Прогнозирование температуры и осадков
— Экология: Моделирование популяций животных и изменений окружающей среды
Открытие: потенциальная проблема с оценкой параметров
Исследование Уилера и Ионидеса сосредоточено на критическом аспекте моделей ARIMA: оценке параметров. Оценки параметров используют собранные данные выборки для выведения характеристик большей популяции. Исследователи обнаружили потенциальную проблему оптимизации в алгоритме максимального правдоподобия — процессе, используемом для подгонки статистических моделей — в программном обеспечении, используемом для реализации моделей ARIMA.
«Это похоже на калькулятор, который утверждает, что правильно складывает два плюс два, но иногда выдает неправильный ответ, например, два плюс два равно три», — объясняет Уилер. «Мы часто полагаемся на статистическое программное обеспечение, как полагаемся на калькулятор, поэтому, если калькулятор сообщает вам, что он дает вам определенную оценку параметра, он должен делать это с очень высокой степенью уверенности».
Масштаб проблемы
Исследователи обнаружили, что оценки максимального правдоподобия программного обеспечения не были полностью оптимизированы в удивительно большом количестве случаев – до 60% времени, в зависимости от данных и модели. Это означает, что алгоритмы, несмотря на заявление о максимизации правдоподобия модели, часто не могли этого сделать. Недостаточные оценки параметров, в свою очередь, могут скомпрометировать точность прогнозирования и надежность других статистических анализов.
Решение проблемы и перспективы
Важно отметить, что Уилер и Ионидес не только выявили проблему, но и предложили новый алгоритм для ее исправления и продемонстрировали его эффективность с помощью языка программирования R. Это предлагает практическое решение для исследователей и специалистов, использующих модели ARIMA.
«Модели ARIMA используются ежедневно исследователями и специалистами индустрии для прогнозирования и научного анализа во многих областях… Если программное обеспечение, оценивающее эти модели, имеет недостатки, это потенциально может привести к неожиданным результатам или ошибочным решениям».
Устраняя эти недостатки в подходе максимального правдоподобия, данное исследование повышает надежность моделей ARIMA и способствует более обоснованному принятию решений в широком спектре областей, в конечном итоге улучшая как научное понимание, так и практическое применение. Даже небольшие улучшения в точности оценки могут привести к значительным реальным последствиям.
