Popularne narzędzia statystyczne mogą generować błędne prognozy

58

Nowe badanie wskazuje na potencjalną wadę w powszechnie używanym oprogramowaniu opartym na powszechnym modelu statystycznym o nazwie ARIMA, budząc obawy co do dokładności prognoz w różnych dziedzinach, od finansów po środowisko. Jesse Wheeler, adiunkt na Idaho State University i współautor Edward Ionides odkryli, że algorytmy, na których opierają się modele ARIMA w dwóch popularnych frameworkach oprogramowania, mogą generować niewiarygodne szacunki, co może prowadzić do błędnych przewidywań i decyzji.

Zrozumienie modeli ARIMA i ich znaczenie

Modele ARIMA (Autoregressive Integrated Moving Average) stanowią podstawę analizy szeregów czasowych, techniki stosowanej do analizy danych gromadzonych w czasie. Wiążą bieżącą wartość metryki – taką jak cena jaj lub liczba niedźwiedzi w lesie – z jej przeszłymi wartościami, umożliwiając badaczom identyfikację wzorców i trendów, a ostatecznie przewidywanie przyszłych wartości.

Dlaczego ARIMA jest tak powszechna

Modele ARIMA są często pierwszą metodą analizy szeregów czasowych, której uczą się studenci i służą jako podstawowe porównanie przy opracowywaniu nowych algorytmów statystycznych i uczenia maszynowego. Ich wszechstronność uczyniła je niezbędnymi narzędziami w różnych dyscyplinach, w tym:
Ekonomia: Prognozowanie trendów rynkowych i wskaźników ekonomicznych
Opieka zdrowotna: analizowanie danych pacjentów i przewidywanie wybuchów chorób
Pogoda: Prognozowanie temperatury i opadów
Ekologia: Symulacja populacji zwierząt i zmian środowiskowych

Odkrycie: Potencjalny problem z estymacją parametrów

Badania Wheelera i Ionidesa skupiają się na krytycznym aspekcie modeli ARIMA: estymacji parametrów. Szacunki parametrów wykorzystują zebrane dane próbne do wywnioskowania cech większej populacji. Naukowcy odkryli potencjalny problem optymalizacyjny w algorytmie największej wiarygodności – procesie stosowanym do dopasowywania modeli statystycznych – w oprogramowaniu używanym do implementowania modeli ARIMA.

„To jak kalkulator, który twierdzi, że poprawnie dodaje dwa plus dwa, ale czasami podaje błędną odpowiedź, na przykład dwa plus dwa równa się trzy” – wyjaśnia Wheeler. „Często polegamy na oprogramowaniu statystycznym tak samo, jak na kalkulatorze, więc jeśli kalkulator powie ci, że daje ci pewne oszacowanie parametru, powinien to zrobić z bardzo dużym stopniem pewności”.

Skala problemu

Naukowcy odkryli, że szacunki maksymalnego prawdopodobieństwa oprogramowania nie zostały w pełni zoptymalizowane w zaskakująco dużej liczbie przypadków — aż do 60% czasu, w zależności od danych i modelu. Oznacza to, że algorytmy, choć twierdziły, że maksymalizują prawdopodobieństwo modelu, często tego nie robiły. Z kolei niewystarczające oszacowania parametrów mogą zagrozić dokładności predykcyjnej i wiarygodności innych analiz statystycznych.

Rozwiązanie problemu i perspektywy

Warto zauważyć, że Wheeler i Ionides nie tylko zidentyfikowali problem, ale także zaproponowali nowy algorytm go korygujący i wykazali jego skuteczność przy użyciu języka programowania R. Stanowi to praktyczne rozwiązanie dla badaczy i praktyków korzystających z modeli ARIMA.

„Modele ARIMA są codziennie wykorzystywane przez badaczy i przemysł do prognozowania i analiz naukowych w wielu dziedzinach… Jeśli oprogramowanie oceniające te modele jest wadliwe, może to potencjalnie prowadzić do nieoczekiwanych wyników lub błędnych decyzji.”

Eliminując te niedociągnięcia w podejściu maksymalnego prawdopodobieństwa, niniejsze badanie poprawia wiarygodność modeli ARIMA i promuje bardziej świadome podejmowanie decyzji w wielu dziedzinach, ostatecznie poprawiając zarówno zrozumienie naukowe, jak i praktyczne zastosowanie. Nawet niewielka poprawa dokładności estymacji może mieć znaczący wpływ na rzeczywistość.