Многомерная потоковая агрегация самоподобных данных в информационной безопасности ПКФС

Полтавцева М. А.

Б01: 10.24412/2413-2527-2021-327-31-37

Многомерная потоковая агрегация самоподобных данных в информационной

безопасности ПКФС

к.т.н. М. А. Полтавцева Санкт-Петербургский политехнический университет Петра Великого Санкт-Петербург, Россия poltavtseva@ibks.spbstu.ru

Аннотация. Анализ самоподобных процессов в различных областях, включая информационную безопасность и промышленные киберфизические системы (ПКФС), требует быстрой и эффективной обработки больших объемов данных. Периодичность и масштабируемость во времени самоподобных процессов требуют одновременного анализа данных на нескольких временных промежутках. В то же время свойство самоподобия позволяет разработать эффективные методы агрегации данных. В работе рассматривается иерархическая организация временных рядов и многомерная агрегация на основе графа связей. Оценивается эффективность предложенных методов агрегации и применимость в задачах.

Ключевые слова: самоподобные процессы, анализ данных, большие данные, агрегация данных, иерархическая агрегация, многомерная агрегация, информационная безопасность, безопасность киберфизических систем.

Введение

Самоподобные процессы встречаются в большом количестве областей: физике, химии, информационных технологиях и других. Сегодня изучение этих процессов связано с обработкой большого количества данных (Big data). Поэтому важной задачей является эффективная агрегация и подготовка данных к анализу.

Для ряда задач также характерны требования по оперативности обработки самоподобных данных. Например, для обнаружения аномалий трафика [1-3]. В этом случае используются не только пакетные системы обработки больших данных технологии Map-Reduce. Для таких задач применяются модули потоковой обработки [4], включая компоненты агрегации больших данных.

Данная работа посвящена развитию методов агрегации данных самоподобных процессов [5] с учетом необходимости совместного анализа различных временных рядов данных на примере многомерного анализа сетевого трафика в системах обнаружения вторжений.

Агрегация данных при анализе

самоподобных процессов

Неформально самоподобный (фрактальный) процесс можно определить как случайный процесс, статистические характеристики которого проявляют свойства масштабирования. Самоподобный процесс существенно не меняет вида при рассмотрении в различных масштабах по шкале времени. Для анализа самоподобных процессов используются временные ряды данных. Входными данными для систем обнаружения вторжений являются извлеченные из трафика параметры [2] или временные

ряды [2, 6]. Система подготовки данных агрегирует статистические показатели трафика на наборе заданных промежутков времени.

Математические методы понижения размерности, такие как метод главных компонент [7] и метод собственных векторов [8], не подходят в данном случае. Они позволяют выделить в данных наиболее значимые компоненты. Для такого анализа подходят данные на значительном промежутке времени. Эти математические методы не применимы для оперативного анализа.

Так, задача агрегации данных в виде временных рядов параметров на наборе заданных интервалов времени особенно актуальна для современных задач. Требованиями к агрегации данных самоподобных (фрактальных) процессов являются:

- универсальность относительно типа процесса;

- адаптивность к изменениям в числе параметров;

- адаптивность к временной глубине анализа;

- быстродействие;

- малый объем данных на выходе;

- пригодность к потоковой обработке данных.

В соответствии с этими требованиями предлагаются методы агрегации, основанные на вложенности временных отрезков при анализе самоподобных процессов.

Иерархическая агрегация данны1х самоподобны1х процессов

Подход для преобразования данных во временные ряды — основной при анализе самоподобных (фрактальных) процессов [9]. Для этого данные за определенный временной промежуток группируются во «временное окно агрегации». При этом для каждого параметра p t формируется своя очередь Qt, содержащая m значений этого параметра (абсолютных или агрегированных).

Для того, чтобы иметь возможность анализировать данные за разные промежутки времени, введены иерархические связи между временными рядами [10]. Для этого между разными временными рядами необходимо ввести Parent-Child Relation и организовать выполнение сдвига значений внутри каждого временного промежутка для избавления от старых значений и добавления новых, а также переход значений из временных рядов с меньшим промежутком времени во временные ряды с большим промежутком.

Перед началом обработки кортежей входных данных создается иерархическая структура временных окон. Для каждого окна необходимо задать имя, параметры TtmeRange и TtmeDelta, и параметр Parent для каждого не-

Рис. 1. Иерархическая организация временных окон

корневого окна. Параметр Ттв81аП и очереди значений изначально не инициализированы и задаются в процессе работы программы. Количество очередей (значение N динамически увеличивается в процессе работы программы при появлении новых параметров в обрабатываемых данных (рис. 1).

Значение ТтвЯащв должно нацело делиться на значение ТтвОвНа для корректной работы ряда. Значения начала и окончания последнего элемента в очереди могут быть соответственно получены как \TimeStart + ТтвЯащв -ТтвБвиа; Ттв81аП + ТтвЯащв).

При таком подходе последний элемент очереди (самый «новый») неполный, так как значение накапливается в нем еще до того, как будет полностью пройден его временной промежуток. Это позволяет хранить данные не только за уже прошедшие временные промежутки, но и иметь актуальную статистику о самых последних данных. Также нет необходимости хранить текущее число сдвигов родителя и число сдвигов родителя, необходимое для появления нового элемента в окне потомка.

Многомерная агрегация данных самоподобных процессов. Подход к многомерной агрегации данных

на основе связанных графов

Для более полного анализа необходима также возможность агрегации данных по нескольким параметрам. При

этом необходимо не только хранить агрегированные значения, но и сохранять связи между ними, чтобы была возможность отслеживания относительных параметров. Например, это доля пакетов, пересылаемых между двумя узлами, к общему количеству пакетов, отправляемых/принимаемых каждым из узлов. Для сохранения связей и при этом обеспечения быстрого поиска нужных данных предлагается использовать графы, или деревья.

Графовая структура представляет возможность вычисления относительных показателей в обоих направлениях или только в одну сторону — от потомка к родителю.

Узел графа ассоциирован с агрегируемыми данными. Это — агрегируемые на соответствующем уровне параметры и их значения. С точки зрения реализации, если в графе хранить сами очереди параметров, то усложняется доступ к ним. Поэтому выгоднее, как и в иерархическом подходе, хранить списки очередей и для единичных параметров, и значения для нескольких агрегированных параметров.

Доступ к данным обеспечивается ключами, содержащими параметры и их значения. В графе связей хранятся ключи и связи между ними. Таким образом, для каждого ключа поиска (параметра) можно перебрать все узлы, с которым он связан в графе. В результате будут получены ключи для всех связанных очередей параметров. Затем их относительная агрегация выполняется в любом направлении. Структура связей приведена на рисунке 2.

Рис. 2. Граф связей между очередями для одного временного окна агрегации

Перед началом обработки кортежей создается иерархическая структура временных окон. Для каждого окна необходимо задать имя, параметры TtmeRange и TtmeDelta, и параметр Parent для каждого некорневого окна. Параметр TtmeStart и очереди значений изначально не инициализированы и задаются в процессе работы программы. Параметр Graph изначально инициализируется пустым графом. Количество очередей (значение N) динамически увеличивается в процессе работы программы при появлении новых параметров в обрабатываемых данных и уменьшается, если в результате временного сдвига очередь осталась пустой.

Значения начала и окончания последнего элемента в очереди могут быть соответственно получены как [TtmeStart + TtmeRange - TtmeDelta; TtmeStart + TtmeRange). Значение TtmeRange фиксируется так, чтобы нацело делиться на значение TtmeDelta. Структура временного окна агрегации приведена на рисунке 3.

Рис. 3. Структура временного окна агрегации

Перед началом работы алгоритма происходит считывание конфигурационного файла, который определяет, какие параметры необходимо сохранять во временные окна.

Преимущества подхода.

Получение очередей необходимых параметров — быстрая процедура, так как требует лишь найти и извлечь нужную очередь в дереве. Необходимо хранить только числовые очереди параметров и один граф связей между ними на каждое временное окно. Алгоритм переноса элемента из родительского окна в окно-потомок несложен и практически не изменяется по сравнению с изначальным подходом. Последний элемент из каждой очереди окна-родителя переносится к первому элементу окна-потомка. Родительский граф соединяется с графом-потомком. В разные промежутки времени могут существовать разные узлы, и на каждом уровне можно сохранять связи только для существующих на данный момент узлов.

Внутри окна сохраняются связи во всех возможных направлениях, поэтому одного графа достаточно для построения относительных характеристик между любой парой параметров, для которых есть совместные и раздельные очереди.

Недостатки подхода.

Необходимо заранее знать по каким параметрам производится агрегация. Введение нового параметра требует расширения графовой структуры и перерасчета графа связей.

Общая схема работы метода, включая этап инициализации, приведена на рисунке 4.

Рис. 4. Схема работы метода

Оценка эффективности агрегации

при агрегации данных ПКФС Было проведено тестирование разработанной программы на датасете, полученном в результате работы промышленной киберфизической системы (ПКФС): системы по очистке воды [11]. Данные были собраны в результате 11 дней непрерывной работы системы, в течение которых на систему производились различные атаки. Для реализации иерархической структуры использованы библиотека anytree, в частности, ее класс NodeMixin, который позволяет работать с любым классом как с узлом дерева. Для реализации хранения графа используется библиотека networkx и ее класс Graph.

Было проведено сравнение объема хранимой информации для случаев использования иерархической и обычной агрегации данных.

Для многомерной агрегации были оценены размер и характеристики графа, такие как количество узлов и ребер в графе, количество связанных компонент, количество ребер и узлов в самой большой связанной компоненте. Эти параметры напрямую влияют на скорость получения доступа к узлам графа и скорость получения всех узлов,

связанным с заданным. Это нужно для определения связей между узлами и, соответственно, очередями.

Был проведен анализ зависимости аналогичных характеристик графа от глубины вложенности агрегируемых параметров (рис. 5-8) (1 — присутствуют только одиночные параметры, 2 — присутствуют парные параметры вида р1_р2, 3 — присутствуют тройки параметров вида р1_р2_р3 и т. д.).

150

100

50

120 100 80 60 40 20 0

12 3 Ш Nodes -

4 5 6 7 Max nodes

Рис. 5. Зависимость количества узлов в графе от количества пар агрегируемых параметров

140 120 100 80 60 40 20 0

234567 Edges < Max edges

1234567 < Edges Ш Max edges

Рис. 8. Зависимость количества ребер в графе от глубины вложенности агрегируемых параметров

Если пар агрегируемых параметров больше 5 или глубина вложенности агрегируемых параметров больше 6, то узлы графа объединяются в связанную компоненту, и эффективность извлечения пар параметров ухудшается (рис. 9-10).

40 35 30 25 20 15 10 5 0

Рис. 9. Зависимость количества связных компонент в графе от глубины вложенности параметров

Рис. 6. Зависимость количества ребер в графе от количества пар агрегируемых параметров

60 50 40 30 20 10 0

234567 > Nodes > Max nodes

Рис. 7. Зависимость количества узлов в графе от глубины вложенности агрегируемых параметров

40 35 30 25 20 15 10 5 0

0

1

2

3

4

5

6

7

Рис. 10. Зависимость количества связных компонент в графе от количества пар агрегируемых параметров

Был проведен анализ характеристик графа в зависимости от временного промежутка окна (рис. 11, 12). В процессе тестирования размеры окон варьировались от 10 секунд до 4 часов (14 400 секунд).

0

1

2

3

4

5

6

7

0

1

140 120 100 80 60 40 20 0

V T f & <<P Л^ «iT ^V ^

Nodes

Max nodes

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 11. Зависимость количества узлов в графе от временного промежутка окна (сек)

200 150 100 50 0

№ ^ <ф>лг& & <é> J*

V' ПГ "5° IP (р V Чг í «£5° ф* ф ^

< Edges < Max edges

Рис. 12. Зависимость количества ребер в графе от временного промежутка окна (сек)

Заключение

Введение иерархической модели окон агрегации позволяет значительно упростить процесс формирования данных в окнах при потоковой обработке данных. Промежутки анализа могут одновременно охватывать от секунды до нескольких дней или месяцев. Проведенные тесты показали, что использование иерархической агрегации данных вместо обычной также позволяет сократить объем хранимой информации.

Дополнение модели возможностью многомерной агрегации данных по нескольким параметрам позволяет проводить более сложный анализ данных и использовать для него не только абсолютные, но и относительные, или коррелированные значения без значительных затрат.

В процессе тестирования были выявлены граничные характеристики количества независимых агрегируемых параметров и глубины вложенности агрегируемых параметров для рассматриваемых данных, а также значение размера временного окна, при котором рост графа замедляется. Эти параметры зависят от самих изначальных данных, количества уникальных значений каждого параметра, интенсивности их поступления.

Таким образом, предложенный подход позволяет агрегировать данные при анализе самоподобных процессов различного генеза. Область эффективности решения — агрегация глубиной вложенности до 5 временных промежутков и до 4 агрегируемых параметров. Такие характеристики

позволяют использовать предложенный метод для агрегации потоковых самоподобных данных ПКФС, так как указанного числа временных промежутков и пар параметров достаточно для анализа отдельного набора параметров промышленной киберфизической системы. Для несвязанных наборов параметров возможно построение нескольких графов связей, что будет более эффективным, чем объединять все наборы в один граф.

Для уменьшения влияния этих характеристик на размер графа можно изначально фиксировать не только анализируемые параметры, но и их значения (конкретные узлы, конкретные приложения, и т. д.). Тогда возможно заранее определить размер графа и иметь константную сложность определения зависимостей между узлами графа и очередями.

Литература

1. On the Self-Similar Nature of Ethernet Traffic (Extended Version) / W. E. Leland, M. S. Taqqu, W. Willinger, D. V. Wilson // IEEE/ACM Transactions on Networking. 1994. Vol. 2, Is. 1. Pp. 1-15. DOI: 10.1109/90.282603.

2. Sheluhin, O. I. Self-Similar Processes in Telecommunications / O. I. Sheluhin, S. M. Smolskiy, A. V. Osin. — Chippenham: John Wiley & Sons Ltd, 2007. — 334 p.

DOI: 10.1002/9780470062098.

3. Kleppmann, M. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. — Sebastopol (CA): O'Reilly Media Inc., 2017. — 616 p.

4. Lavrova, D. S. Security Analysis of Cyber-Physical Systems Network Infrastructure / D. S. Lavrova, M. A. Poltavtseva, A. A. Shtyrkina // Proceedings of the First IEEE International Conference on Industrial Cyber-Physical Systems (ICPS-2018), (St. Petersburg, Russia, 15-18 May 2018). — Institute of Electrical and Electronics Engineers, 2018. — Pp. 818-823.

DOI: 10.1109/ICPHYS.2018.8390812.

5. Mazzini, G. On the Aggregation of Self-Similar Processes / G. Mazzini, R. Rovatti, G. Setti // IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences. 2005. Vol. E88-A, No. 10. Pp. 2656-2663.

DOI: 10.1093/ietfec/e88-a. 10.2656.

6. Large-Scale Network Traffic Monitoring with DBStream, a System for Rolling Big Data Analysis / A. Bär, A. Finamore, P. Casas, [et al.] // Proceedings of the Second IEEE International Conference on Big Data (IEEE BigData 2014) (Washington, DC, USA, 27-30 October 2014). — Institute of Electrical and Electronics Engineers, 2014. — Pp. 165-170.

DOI: 10.1109/BigData.2014.7004227.

7. Pearson, K. LIII. On Lines and Planes of Closest Fit to Systems of Points in Space // The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Series 6. 1901. Vol. 2, Is. 11. Pp. 559-572.

DOI: 10.1080/14786440109462720.

8. Golub, G. H. Matrix Computations. Third Edition / G. H. Golub, C. F. Van Loan. — Baltimore (MD): Johns Hopkins University Press, 1996. — 728 p.

9. Антипов, О. И. Фрактальные методы анализа и прогнозирования для самоорганизованных технических, биологических и экономических систем: автореферат дис. ... доктора физико-математических наук: 01.04.03 / Антипов Олег Игоревич; [Место защиты: Поволж. гос. ун-т телекоммуникаций и информатики]. — Самара, 2011. — 32 с.

10. Poltavtseva, M. A. The Hierarchial Data Aggregation Method in Backbone Traffic Streaming Analyzing to Ensure Digital Systems Information Security / M. A. Poltavtseva, P. D. Zegzhda, I. D. Pankov // Proceedings of the Eleventh International Conference «Management of Large-Scale System Development» (MLSD 2018) (Moscow, Russia, 01-03 October 2018). — Institute of Electrical and Electronics Engineers, 2018. — Article No. 128, 5 p. DOI: 10.1109/MLSD.2018.8551916.

11. A Dataset to Support Research in the Design of Secure Water Treatment Systems / J. Goh, S. Adepu, K. N. Junejo, A. Mathur // Critical Information Infrastructures Security: Revised Selected Papers of the 11th International Conference (CRITIS 2016) (Paris, France, 10-12 October 2016) / G. Havarneanu, [et al.] (eds). Lecture Notes in Computer Science. Vol. 10242. Pp. 88-99. DOI: 10.1007/978-3-319-71368-7 8.

DOI: 10.24412/2413-2527-2021-327-31-37

Multidimensional Streaming Aggregation of Self-Similar Data in ICPS Information Security

PhD M. A. Poltavtseva St. Petersburg Peter the Great Polytechnic University Saint Petersburg, Russia poltavtseva@ibks.spbstu.ru

Abstract. Analysis of self-similar processes in various fields, including information security and industrial cyber-physical systems (ICPS), requires fast and efficient processing of large amounts of data. The periodicity and time scalability of self-similar processes require simultaneous analysis on multiple time intervals. They also allow one to develop effective methods of data aggregation. This paper considers the hierarchical organization of time series and multidimensional aggregation based on the graph of relationships. The effectiveness of the proposed aggregation methods and their applicability to the tasks of analysis of self-similar processes in the security of industrial cyber-physical systems are evaluated.

Keywords: self-similar processes, data analysis, Big data, data aggregation, hierarchical aggregation, multidimensional aggregation, information security, cyber-physical systems security.

References

1. Leland W. E., Taqqu M. S., Willinger W., Wilson D. V. On the Self-Similar Nature of Ethernet Traffic (Extended Version), IEEE/ACM Transactions on Networking, 1994, Vol. 2, Is. 1, Pp. 1-15. DOI: 10.1109/90.282603.

2. Sheluhin O. I., Smolskiy S. M., Osin A. V. Self-Similar Processes in Telecommunications. Chippenham, John Wiley & Sons Ltd, 2007, 334 p. DOI: 10.1002/9780470062098.

3. Kleppmann M. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastopol (CA), O'Reilly Media Inc., 2017, 616 p.

4. Lavrova D. S., Poltavtseva M. A., Shtyrkina A. A. Security Analysis of Cyber-Physical Systems Network Infrastructure, Proceedings of the First IEEE International Conference on Industrial Cyber-Physical Systems (ICPS-2018), St. Petersburg, Russia, May 15-18, 2018. Institute of Electrical and Electronics Engineers, 2018, Pp. 818-823.

DOI: 10.1109/ICPHYS.2018.8390812.

5. Mazzini G., Rovatti R., Setti G. On the Aggregation of Self-Similar Processes, IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2005, Vol. E88-A, No. 10, Pp. 2656-2663.

DOI: 10.1093/ietfec/e88-a. 10.2656.

6. Bär A., Finamore A., Casas P., et al. Large-Scale Network Traffic Monitoring with DBStream, a System for Rolling Big Data Analysis, Proceedings of the Second IEEE International Conference on Big Data (IEEE BigData 2014), Washington, DC, USA, October 27-30, 2014). Institute of Electrical and Electronics Engineers, 2014, Pp. 165-170.

DOI: 10.1109/BigData.2014.7004227.

7. Pearson K. LIII. On Lines and Planes of Closest Fit to Systems of Points in Space, The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Series 6, 1901, Vol. 2, Is. 11, Pp. 559-572.

DOI: 10.1080/14786440109462720.

8. Golub G. H., Van Loan C. F. Matrix Computations. Third Edition. Baltimore (MD), Johns Hopkins University Press, 1996, 728 p.

9. Antipov O. I. Fractal Methods of Analysis and Forecasting for Self-Organized Technical, Biological and Economic Systems [Fraktal'nye metody analiza i prognozirovaniya dlya samoorganizovannykh tekhnicheskikh, biologicheskikh i ekonomicheskikh sistem]: Abstract of the diss. on competition of a scientific degree PhD (Engin.). Samara, Povolzhskiy State University of Telecommunications and Informatics 2011, 32 p.

10. Poltavtseva, M. A., Zegzhda P. D., Pankov I. D. The Hi-erarchial Data Aggregation Method in Backbone Traffic Streaming Analyzing to Ensure Digital Systems Information Security, Proceedings of the Eleventh International Conference «Management of Large-Scale System Development» (MLSD 2018), Moscow, Russia, October 01-03, 2018. Institute of Electrical and Electronics Engineers, 2018, Article No. 128, 5 p.

DOI: 10.1109/MLSD.2018.8551916.

11. Goh J., Adepu S., Junejo K. N., Mathur A. A Dataset to Support Research in the Design of Secure Water Treatment Systems. In: Havarneanu G., et al. (eds) Critical Information Infrastructures Security: Revised Selected Papers of the 11th International Conference (CRITIS 2016), Paris, France, October 10-12, 2016. Lecture Notes in Computer Science, Vol. 10242. Pp. 88-99. DOI: 10.1007/978-3-319-71368-7_8.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Полтавцева М. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Полтавцева М. А.

Multidimensional Streaming Aggregation of Self-Similar Data in ICPS Information Security

Текст научной работы на тему «Многомерная потоковая агрегация самоподобных данных в информационной безопасности ПКФС»