На практике встречаются задачи, для решения которых требуется найти аномалии в числовых рядах. Для простоты понимания можно считать, что это значения, которые отличаются от большинства чисел в ряде по некоторым признакам (выброс, нестандартное значение, отклонение от нормы). Такие задачи встречаются в различных областях:
- очистка зашумлённых данных в датасайнс (Data Science);
- фильтрация выбросов в обучающей выборке для нейросетей в машинном обучении (Machine Learning);
- поиск аномальной сетевой хакерской активности, при мониторинге трафика и событий в кибербезопасности (Cybersecurity);
- выявление выбросов или хвостов в потоке биржевых данных в алгоритмической торговле (Algorithmic Trading);
- а также в любых задачах на поиск аномалий, где данные могут быть представлены в виде числового ряда.
Понятия числового ряда в математическом анализе и в статистике отличаются. Мы принимаем под числовым рядом его статистическое понимание, то есть конечную последовательность чисел (аналог выборки). Существуют различные толкования аномалии в числовых рядах. Их мы рассмотрим далее.
Также в статье показаны примеры, как быстро и эффективно найти аномалии в числовых рядах с помощью модифицированного метода Хампеля (Hampel F.R.).