Анализ данных из социальных медиа: установление природы взаимосвязей

Гаяне Арутюнян, IBM

Прежде чем приступить к рассмотрению предмета настоящей статьи, введем определение объекта исследования – «социальные медиа». Свободная энциклопедия Википедия дает следующее толкование: «Социальные медиа (англ. social media, social networking services) – вид массовой коммуникации, осуществляемый посредством Интернета. Объектами социальных сетей являются: интернет-форумы, блоги (LiveJournal, LiveInternet, Twitter), подкасты (Russian Podcasting, PodFM, LibSyn), вики (Wikipedia, PBWiki, Google Docs), электронная почта, социальные сети (Facebook, ВК, «Мой круг» и др.), социальные аггрегаторы (Plaxo, Friendfeed) и др. Таким образом, понятие «социальные медиа» в общем случае шире, чем «социальные сети».

Цель анализа информации из социальных сетей

Цель создания социальных медиа – связывать людей друг с другом, поэтому они часто используются для того, чтобы доставлять информацию большому количеству пользователей в режиме реального времени. С учетом этого цель исследования социальных сетей – выявление взаимосвязей и зависимостей между людьми и социальными группами. К наиболее популярным инструментам относится программное обеспечение i2 Analyst Notebook, Orgnet.com и IBM Social Media Analytics (SMA) – продукт, объединяющий корпоративные данные и данные из социальных медиа на платформе Big Data.

Посредством построения запросов, онтологии и моделей аналитики могут оценить, что происходит в социальной сфере в отношении своих товаров, услуг и потребителей.

Задачи, которые могут быть решены на базе аналитики класса Social Media: позиционирование и продвижение продукта/бренда; повышение спроса и формирование лояльной аудитории; создание и поддержание имиджа; нивелирование негатива и антикризисное управление.

Проблематика

В ходе анализа данных социальных медиа самые горячие споры между экспертами возникают по поводу того в какой степени можно доверять данным из соцсетей, насколько реально они отражают настроения людей. Не менее актуальной проблемой для обсуждения является определение круга задач, при решении которых можно опираться на данные, полученные путем анализа социальных медиа, а также понимание того, каким образом результаты анализа могут изменяться со временем и какие события в наибольшей мере влияют на всплески активности в социальных сетях.

О достоверности аналитических материалов

Для обеспечения достоверности анализа данных, полученных из социальных сетей, при получении данных и их анализе следует учитывать три важных момента:

  • социально-культурные особенности аудитории. Прежде чем анализировать данные, необходимо произвести оценку аудитории, чье мнение будет изучаться. Кроме того, знание и учет психологических особенности индивидуума или специфической группы людей (объектов изучения) оказывает существенное влияние на качество анализа;
  • правильность данных и используемых алгоритмов. Подготовка данных для анализа является ключевой и самой трудоемкой задачей во всей цепочке анализа;
  • технологические допуски и индустриальные модели. Здесь следует учитывать не только программно-аппаратные средства для сбора и хранения данных, но и уровень экспертов с их знанием бизнес-процессов и пониманием механизмов влияния, существующих в соцсетях.

Одна из особенностей соцсетей состоит в том, что для распространения информации в социальных медиа необходимо создать условия, при которых потребитель информации заинтересуется ее поиском и потреблением. Такие условия могут возникнуть при включении устойчивых связей между элементами сети – производителями контента и потребителями информации. Эти связи являются необходимым условием для соединения отдельных пользователей в социальную сеть.

Анализ конкретных сетей и исследование социальных медиа предполагают выполнение следующих действий:

  • определение границ сети;
  • определение связей между узлами сети или ее членами, которое включает в себя следующие три аспекта: (1) каким образом члены социальной сети взаимосвязаны и какое влияние они оказывают друг на друга, (2) какова природа и сила взаимосвязей пользователей в сети (чтобы определить, как сеть функционирует), (3) сравнение разных сетей и идентификация (где соцсети перекрывают друг друга, анализ сравнительных уровней сплоченности сетей);
  • мониторинг и оценка ключевых индикаторов.

Рассмотрим последний пункт подробнее. Мониторинг социальных сетей позволяет выявлять важные информационные обмены в режиме реального времени и начинается с определения набора ключевых слов, релевантных для исследуемого предметного поля. После этого ключевые слова вводятся в инструмент мониторинга, который отслеживает информационные обмены в социальной сети и организует данные таким образом, чтобы их можно было использовать для дальнейшего анализа.

Оценка ключевых индикаторов – это статистические измерения, выполняемые на протяжении определенного периода. Мониторинг событий осуществляется в режиме онлайн, а оценка ключевых индикаторов по смыслу предполагает анализ данных с определенной глубиной, поэтому она выполняется офлайн (маленькая выборка не репрезентативна). Начинаем, как уже говорилось, с определения набора ключевых слов. После того как инструмент мониторинга произвел сбор и первичный анализ данных, определяются численные индикаторы, наиболее важные для определения состояния исследуемого предметного поля. К ключевым индикаторам относятся вовлеченность, влияние, клики, объем, демография посетителей, усиления. На сегодня среди ключевых систем для измерения выделяются Klout, Kred и PeerIndex.

Инструментарий и технологии

Рис. 1. Платформа IBM для анализа социальных медиа и больших данных

Система анализа данных из социальных медиа (рис. 1) состоит из четырех уровней:

  • нижний уровень – аппаратные компоненты, оптимизированные под аналитические запросы;
  • уровень, на котором идет подготовка данных для последующего анализа, – очистка, извлечение, нормализация, интеграция (этот процесс известен под названием Extract Transform Load – ETL). На этом же уровне используется платформа для работы с большими данными для анализа социальных медиа;
  • уровень исследования, изучения данных в реальном времени; здесь и происходит анализ данных, на основе которых могут приниматься управленческие решения;
  • вершина пирамиды включает в себя системы, позволяющие на основе анализируемых данных строить прогнозные модели, осуществлять управление и контроль над рисками выявлять скрытые зависимости и нестандартные сценарии и модели развития.

Рис. 2. Процессы, происходящие при обработке данных

Основные игроки на рынке больших данных

Если отвлечься от обсуждения технологии и обратиться к отчетам IDC по перспективам развития рынка аналитики и больших данных, то можно отметить следующее: технологии и рынок сервисов вокруг больших данных будут расти на 27% по среднегодовой ставке роста (CAGR) до 32, 4 млрд долл. к 2017 г. Основными игроками на этом рынке являются: Actian, Alteryx, Amazon.com, Attensity, Attivio, Cloudera, CloudIQ, Concurrent, Cray, Datameer, DDN, Dell, Digital Reasoning, EMC, GridGain, Hadapt, Hortonworks, HP, HStreaming, IBM, Informatica, Jaspersoft, Karmasphere, Kitenga, MapR, Microsoft, MuSigma, NetApp, Objectivity, Opera Solutions, Oracle, Pentaho, Pivotal, Platfora, Progress Software, RainStor, Revolution Analytics, SAP, SAS, SGI, Splunk, Syncsort, Talend, Teradata, TIBCO, Tidemark, Tresata, Versant, and Zettaset.

Интерес бизнеса к технологиям анализа данных из соцсетей нарастает, поэтому все компании – участники данного сегмента ИТ-рынка активно развивают направление анализа социальных сетей. Так, компанией IBM в наступающем 2015 г. запланировано открытие IBM Executive Client Center, в котором будет представлен ряд решений компании, в частности сценарии и продукты, связанные с анализом данных из соцмедиа. В настоящее время клиентский центр совместно с российскими разработчиками занимается созданием демонстрационных сценариев для различных индустрий.

Примеры практического применения для развития бизнеса

Анализ данных в социальных сетях уже нашел практическое применение в самых разных областях:

  • обеспечение безопасности граждан путем выявления субъектов, причастных к террористической деятельности;
  • связь отзыва клиента в соцсети о деятельности компании с его профилем в целях адресного повышения лояльности к бренду и услугам компании;
  • решение задач путем использования краудсорсинга (crowdsourcing);
  • наблюдение за качеством услуг страховой компании и общим состоянием ее бренда и репутации;
  • выявление потенциальных клиентов в Интернете на основе анализа их высказываний в соцмедиа.

В качестве примера можно привести одну из компаний по прокату автомобилей, которая для реализации своих подержанных автомобилей использовала технологию Big Data в целях выявления потенциальных клиентов, тем самым ускорив процесс продажи старых машин и обновления своего автопарка.

Рис. 3. Различные источники данных для анализа на на платформе Big Data

Что касается источников данных для анализа на платформе Big Data, то их достаточно много (рис. 3). Анализ данных из максимального количества источников позволяет специалистам по маркетингу сокращать расходы на неэффективные меры, уменьшая отток клиентов, повышая посещаемость и лояльность.

Анализируются данные как из транзакционных баз данных, хранилищ во внешних ресурсах социальных медиа, так и из внутренних информационных систем (электронной почты, записей телефонных звонков и т. п.).

Объединение и анализ нескольких источников данных позволяют получить следующие новые знания:

  • глубокий анализ демографии клиентов, сделок, переходов по сайтам дает возможность создать новую сегментацию для маркетинга, чтобы принять конкретные действия по продвижению бренда или продукта;
  • сочетание данных по оценке социального настроения, электронной почты, конкурентов может дать представление о том, какие продукты имеют тенденцию увеличения или снижения спроса;
  • знание местонахождения клиента позволяет мгновенно предоставить предложение (например, отправить СМС с приглашением и скидкой в ближайший магазин или ресторан).
Поделиться:
Спецпроект

Напряженный трафик или Современные требования к инфраструктуре ЦОД

Подробнее
Спецпроект

Специальный проект "Групповой спутниковый канал для территориально-распределенной сети связи"

Подробнее

Подпишитесь
на нашу рассылку