Полная версия

Главная arrow Информатика arrow Автоматическое построение профилей нормального поведения веб-приложений

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Сравнительный анализ методов обнаружения аномалий и обоснование выбора метода

Исходя из контекста решаемой задачи, для сравнительного анализа рассмотренных математических моделей обнаружения аномалий можно выбрать следующие критерии.

1. Нечувствительность метода к ненормальности распределения анализируемой случайной величины.

О распределении значений каждой операции априори никаких предположений сделать нельзя. При этом, необходимо отметить тот факт, что значительная часть статистических моделей является чувствительной к виду распределения значений случайной величины и для корректной работы требует нормального или близкого к нормальному распределения.

Из рассмотренных методов данному критерию удовлетворяют:

  • · метод EWMA - корректная работа метода при распределениях, не являющихся близкими к нормальному, подтверждается в [21];
  • · метод цепей Маркова - сам метод основан на анализе вероятностей переходов и не зависит собственно от распределения значений анализируемой случайной величины;
  • · нейросетевой метод - в основе метода лежит нейросеть, для корректной работы которой априори не требуется нормальное распределение.

Как было подчёркнуто в описании метода Хотеллинга [4], для корректной работы метода при многомерном распределении параметров, не являющимся близким к нормальному, требуется достаточно большое количество анализируемых параметров (то есть, достаточно большая размерность вектора значений) - примерно 30 и более. Но о количестве анализируемых параметров заранее ничего сказать нельзя и, следовательно, нельзя гарантировать корректную работу метода при произвольном виде многомерного распределения значений. Следовательно, относительно метода Хотеллинга в общем случае нельзя сказать, что он удовлетворяет обозначенному критерию.

2. Корректная работа метода при произвольном количестве параметров.

Как было отмечено выше, заранее о количестве анализируемых параметров ничего сказать нельзя. При этом, для корректной работы многомерных статистических методов количество параметров может играть важную роль. В частности, как было сказано выше, для корректной работы метода Хотеллинга в условиях произвольного многомерного распределения параметров требуется достаточно большое количество анализируемых параметров. Следовательно, метод Хотеллинга данному критерию в общем случае не удовлетворяет.

Остальные методы данному критерию удовлетворяют:

  • · метод EWMA - метод является одномерным статистическим, так что общее количество анализируемых параметров не влияет на корректность работы метода;
  • · метод цепей Маркова - метод является одномерным стохастическим, так что общее количество анализируемых параметров не влияет на корректность работы метода;
  • · нейросетевой метод - в основе метода лежит нейросеть, конфигурация которой может быть произвольной, так что общее количество анализируемых параметров не влияет на корректность работы метода.
  • 3. Локальность переобучения.

Возможны две основные ситуации, требующие перезапуск этапа обучения и переформирование профилей нормального поведения:

  • а) в сфере контроля модуля обнаружения аномалий появляется новое веб-приложение, для которого профили нормального поведения ещё не сформированы;
  • б) в веб-приложения, для которых профили нормального поведения уже сформированы, вносятся изменения. Например, в составе веб-приложения отдельные библиотеки меняются на обновлённые и исправленные.

За данным критерием стоит следующая идея. В обоих ситуациях крайне нежелателен полный останов модуля обнаружения уязвимостей для переформирования всех профилей нормального поведения. Желательно провести формирование или переформирование профилей только для тех веб-приложений, которые были добавлены или изменены, при этом работа модуля с остальными профилями нормального поведения была бы продолжена.

Из рассмотренных методов данному критерию удовлетворяют:

  • · метод Хотеллинга - достаточно провести этап обучения для нового или изменённого веб-приложения, с заменой уже существующих для разных наборов HTTP-параметров профилей нормального поведения значений операций;
  • · метод EWMA - достаточно провести этап обучения для нового или изменённого веб-приложения, с заменой уже существующих для разных наборов HTTP-параметров профилей нормального поведения значений операций;
  • · метод цепей Маркова - достаточно провести этап обучения для нового или изменённого веб-приложения, с заменой уже существующих для разных наборов HTTP-параметров профилей нормального поведения значений операций.

Данному критерию не удовлетворяет нейросетевой метод, так как количество выходов нейросети равно количеству веб-приложений. В первой ситуации при добавлении нового веб-приложения появляется дополнительный выход, следовательно - меняется конфигурация сети, что в обязательном порядке приведёт к необходимости перезапуска этапа обучения и перенастройке сети. Во втором случае конфигурация сети не меняется, но меняется поведение изменившегося веб-приложения. А так как обучение нейросети проводится для всей совокупности веб-приложений, потребуется перезапуск этапа обучения и перенастройка сети.

4. Анализ значений, а не последовательности их появления

Недостатком статистических методов считается нечувствительность к аномалиям в последовательности событий. Существует ряд методов, которые предназначены для обнаружения аномалий именно в последовательности событий, например - метод упреждающего генерирования шаблонов (Predictive Pattern Generation) [6] и описанный выше метод цепей Маркова. По сути, такие методы предполагают переход системы из состояния в состояние в зависимости от поступающих значений и на этапе обучения определяют вероятности переходов. Отправной точкой служит предположение о том, что множество состояний системы конечно, иначе возникают проблемы с определением момента завершения этапа обучения, так как система будет продолжать переходить в новые состояния. Реализация методов этого класса основывается на анализе последовательности значений из конечного множества значений. Примером может служить последовательность системных вызовов операционной системы. Однако в рассматриваемой задаче анализируемые последовательности содержат значения операций, и о конечности множества их значений априори ничего сказать нельзя. Поэтому анализ самих значений, а не последовательности их появлений, представляется более перспективным в контексте данной задачи.

Таким образом, данному критерию не удовлетворяет метод цепей Маркова. Для рассматриваемой задачи применение метода цепей Маркова представляется проблематичным, так как, как было показано в Подразделе 5.3, в качестве типов событий предполагается использовать значения операций. Множество значений операций может быть сколь угодно большим, в то время как размерность матрицы вероятностей переходов и, следовательно, сложность расчёта значений её элементов, зависит от количества элементов множества.

Из рассмотренных методов следующие методы анализируют значения случайных величин, а не последовательность появления этих значений:

  • · метод Хотеллинга - в основе лежит многомерный статистический метод, на результаты работы которого влияют сами значения, а не их последовательность;
  • · метод EWMA - в основе лежит одномерный статистический метод, на результаты работы которого влияют сами значения, а не их последовательность;
  • · нейросетевой метод - в основе метода лежит нейросеть, на результаты работы которой влияют сами значения, а не их последовательность.

Таким образом, с учётом сравнения методов по приведённым критериям, наиболее подходящим методом для обнаружения аномалий в значениях операций из рассмотренных является метод EWMA.

 
Перейти к загрузке файла
<<   СОДЕРЖАНИЕ   >>