Большие данные в целях анализа рисков ИБ как перспективная задача для лидеров отрасли

Дмитрий Костров, директор департамента информационно-телекоммуникационных технологий, NVision Group

Наряду с уже набившим оскомину понятием «большие данные», подразумевающим серию подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия для получения экономически эффективных и воспринимаемых человеком результатов, в условиях непрерывного прироста, распределения по узлам вычислительной сети, появилось новое понятие – «озеро данных» (data lake). Общеизвестно, что эти два термина являются хорошими маркетинговыми ходами. Понятие «озеро» подразумевает репозитарий с достаточно большим объемом неструктурированных (сырых) данных, использующий плоскую архитектуру для их хранения. Сырые данные организации загружаются на Hadoop, далее работают средства глубинного анализа данных (data mining) и/или системы бизнес анализа (business intelligence). Необходимо отметить, что на рынке существует разница между компаниями, продвигающими на рынке направление хранения данных и направление монетизации данных путем извлечения из них ценной информации.

В статье будет рассмотрена развивающееся направление применения анализа больших данных для повышения уровня информационной безопасности и осведомленности. Например, анализ большого объема данных может использоваться для анализа финансовых операций, файлов журналов и сетевого трафика, чтобы определить различные аномалии с учетом ретроспективы. С учетом сбора данных от различных источников в одном месте можно соотносить различные действия в единый сценарий атаки.

На рис. 1 показана одна из систем обеспечения безопасности, использующая подход анализа больших данных в целях контроля за действиями пользователей и выявления нарушения политики, а также построения профиля поведения.

Рис. 1. Пример системы обеспечения ИБ, использующей подход анализа больших данных в целях контроля за действиями пользователей и построения профиля поведения

Одно из направлений применения анализа больших данных – обнаружение фактов мошенничества в сфере здравоохранения, страхования, банковского рынка и т. п.

Интересным направлением анализа данных является создание и развитие систем обнаружения атак (СОА – IPDS). Сначала архитекторы систем безопасности и руководители подразделений информационной безопасности, понимая, что обеспечить 100%-ную защиту невозможно, начали использовать СОА совместно с другими системами (межсетевой экран, антивирусная защита и т. п.). Последующее применение систем SIEM позволило агрегировать и анализировать данные от различных источников, в том числе от СОА. Так называемое второе поколение систем SIEM уже использует ресурс больших данных, что обеспечивает серьезный прогресс в анализе проблем в защите с учетом ретроспективы, множества данных от различных источников, разного контента и т. п.

На рис. 2 приведен пример поиска фрода как результат обработки массивов данных.

Рис. 2. Пример отчета по мошенническим рассылкам.

Надо понимать, что для традиционной модели обеспечения информационной безопасности долгое хранение данных экономически невыгодно, поэтому через один-три месяца они просто уничтожались. Применение аналитики, сложно структурированных запросов считалось ненужным для поддержания приемлемого уровня защиты. Применение средств обработки неструктурированных больших данных позволит ускорить получение выборки из больших гетерогенных массивов данных в беспрецедентных масштабах. Эти технологии изменят аналитику безопасности путем сбора данных в массовом масштабе от различных источников, в том числе из социальных сетей, а также проведение глубокой аналитики данных в целях обеспечения консолидированного представления данных офицеру информационной безопасности в реальном масштабе времени (рис. 3, 4). Важно отметить, что системы обработки больших данных еще требуют мощных системных архитекторов и аналитиков, которые ранее не входили в «простые» команды отделов информационной безопасности предприятий.

Рис. 3. Пример системы сбора данных из различных источников

В одном из отчетов по безопасности был приведен опыт внедрения Hadoop и систем бизнес-анализа в компании Zions Bancorporation. В результате внедрения система обеспечения безопасности стала обрабатывать данные гораздо быстрее, чем традиционные SIEM: ранее запрос данных из месячного хранилища выполнялся от 20 минут до часа, при использовании Hadoop эта же процедура занимала менее минуты. Хранилище данных инцидентов безопасности позволяет пользователям системы получать запросы не только от межсетевого экрана и других систем обеспечения информационной безопасности, но и от веб-трафика, систем, поддерживающих бизнес-процессы, транзакционных информационных систем.

Рис. 4. Деанонимизация на основе анализа социальных сетей

Интересным направлением применения анализа больших данных для прогнозирования новых типов атак и проведения аналитических разработок (практически в целях монетизации) является следующее. Организации (например, операторы связи) собирают терабайты соответствующих данных (сетевые события, лог-файлы от прикладных программ, действия пользователей и т. п.). Такие объемы – это расходная часть для компаний, причем данные часто теряются. Конечно, можно ставить все больше дисковых массивов и нанимать больше ИТ-специалистов, но это не может продолжаться вечно. Проблемы усугубляются, когда предприятие начинает использовать облачный сервис. Чем больше собирается «глупых» данных, тем меньше полезной информации можно из них извлечь. Применение трехуровневой архитектуры для внедрения системы больших данных позволит сделать этот объем ненужной информации нужной.

В России уже создана система на базе федерального оператора по сбору информации в рамках проекта SecBigData для отслеживания команд контрольного центра (C&C), а также для выявления угроз типа APT (advanced persistent threat). Система дает возможность не просто выявлять угрозы, но и блокировать их источники. Кроме того, сбор и анализ данных позволяют наполнять данными базы уязвимостей и контроля комплексов обеспечения информационной безопасности и программно-аппаратных систем по обеспечению защиты от фрода на сетях связи. Система позволяет оперативно выявлять списки скомпрометированных учетных записей пользователей в целях предотвращения вывода средств с личных счетов, обрабатывать и выдавать информацию о способах вывода средств клиентов с применением технологий «коротких номеров», «префиксов» (команды для управления финансовыми услугами; USSD-запросы, использующееся мошенническим и вирусным ПО).

Цель анализа больших данных для обеспечения требуемого уровня безопасности – предоставление офицерам безопасности необходимых данных в режиме реального времени. Хотя у применения больших данных в целях безопасности есть значительные перспективы, существует ряд проблем, которые нужно преодолеть, чтобы понять его истинный потенциал. Во-первых, необходимо понимать происхождение данных, быть уверенным в подлинности и целостности данных, используемых для анализа. По мере расширения источников данных, которые офицер безопасности может использовать, достоверность каждого источника данных должна быть проверена на предмет выявления «подставленных» данных.

Во-вторых, важно разработать нормативные документы в указанной области, особенно в части сохранения конфиденциальности собранных данных. С этой целью предлагается использовать группы экспертов по информационной безопасности и профильные ассоциации.

В-третьих, необходимо наладить подготовку специалистов в этой области – аналитик должен уметь строить модели запросов, по которым будет работать выборка, только тогда из груды ненужного цифрового мусора можно получить что-то очень полезное.

Большие данные в целях анализа рисков ИБ как перспективная задача для лидеров отрасли

Следите за нашими новостями в
MAX-канале Connect-WIT

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями вMAX-канале Connect-WIT

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями в
MAX-канале Connect-WIT