вторник, 27 декабря 2022 г.

Как быстро найти аномалии в числовых рядах с помощью метода Хампеля

На практике встречаются задачи, для решения которых требуется найти аномалии в числовых рядах. Для простоты понимания можно считать, что это значения, которые отличаются от большинства чисел в ряде по некоторым признакам (выброс, нестандартное значение, отклонение от нормы). Такие задачи встречаются в различных областях:

  • очистка зашумлённых данных в датасайнс (Data Science);
  • фильтрация выбросов в обучающей выборке для нейросетей в машинном обучении (Machine Learning);
  • поиск аномальной сетевой хакерской активности, при мониторинге трафика и событий в  кибербезопасности (Cybersecurity);
  • выявление выбросов или хвостов в потоке биржевых данных в алгоритмической торговле (Algorithmic Trading);
  • а также в любых задачах на поиск аномалий, где данные могут быть представлены в виде числового ряда.
Понятия числового ряда в математическом анализе и в статистике отличаются. Мы принимаем под числовым рядом его статистическое понимание, то есть конечную последовательность чисел (аналог выборки). Существуют различные толкования аномалии в числовых рядах. Их мы рассмотрим далее.

Также в статье показаны примеры, как быстро и эффективно найти аномалии в числовых рядах с помощью модифицированного метода Хампеля (Hampel F.R.).