Европейская служба внешних связей
- 1 year ago
- 0
- 0
Ана́лиз свя́зей или анализ ссылок (от англ. «link analysis») — это метод анализа данных , используемый в рамках сетевого анализа для оценки отношений (связей) между узлами (объектами/акторами) [ источник не указан 3853 дня ] . Отношения могут быть определены для различных типов узлов: людей, организаций, операций и т. д. Термин «link analysis» (один из вариантов перевода: «анализ взаимосвязей») обозначает процесс анализа совокупности взаимоотношений между разными объектами сети для выявления её характеристик [ источник не указан 3853 дня ] .
Первоначально данный метод использовался для борьбы с преступностью, прежде всего мошенничеством и терроризмом, в целях контрразведки и оптимизации средств информационной безопасности . Позднее данный метод нашёл своё применение в маркетинговых и медицинских исследованиях, а также при оптимизации алгоритмов поисковых систем .
Данный метод относится к группе методов Data Mining . Это группа итерационных и интерактивных алгоритмов обнаружения, анализа и визуализации различных закономерностей в данных. Анализ связей относится данной группе алгоритмов, и, как большинство методов данной группы, реализуется в рамках следующих шагов [ стиль ] : Сбор данных, , Анализ данных и Визуализация данных .
Клеркс выделял три периода в развитии инструментария реализации Анализа связей. Первое поколение было представлено в 1975 как Anacpapa Chart Харпером и Харрисом . Этот метод реализуется следующим образом: Исследователь занимается обработкой имеющихся данных, обозначая связи между акторами в виде матрицы взаимодействия. Затем исследователь строит соответствующий граф для визуализации данных и, в конечном итоге, анализирует полученную сеть, определяя показатели центральности (Patterns of interest). Данный метод является чрезвычайно трудоемким при рассмотрении больших объемов данных.
Второе поколение инструментов предоставляло возможность автоматизации построения графов для соответствующих матриц взаимодействия, однако ввод данных по прежнему необходимо было осуществлять вручную. Процедуры анализа данных также требовали активного участия исследователя, обладающего необходимым багажом знаний.
Третье поколение инструментов также даёт возможность автоматической визуализации связей между акторами. Более того, появляются , дающие возможность визуально ужимать большие объёмы данных в компактные пучки, что упрощает визуальный анализ данных для сложных моделей. Вычисление же основных показателей центральности осуществлялось также автоматически.
При сборе сетевых данных, а именно при фиксации наличия или отсутствия социальных связей, в большинстве случаев используют отчеты респондентов. Обычно такие данные получают, предлагая респонденту перечислить тех агентов, с которыми он сам или организация, к которой он принадлежит, поддерживают прямые связи. Вид(или тип) этих связей оговаривается заранее и зависит от целей исследования. Когда популяция ограниченна (количество акторов — элементов будущей сети невелико), респондентов могут попросить просто перечислить их контакты, но чаще практикуются другие методы. Холланд и Ленхардт использовали:
Более системно техника сбора сетевых данных показана в процедуре Берта , где сначала выявлялось членство в респондентской сети по одному или нескольким параметрам, а потом, в зависимости от данных, получались дополнительные результаты, которые объясняли такую расстановку. Изучались следующие свойства сетей:
При изучении межорганизационных взаимодействий рекомендуется не ограничиваться свидетельствами лишь какого-либо одного из информантов, проблема отбора респондентов растет прямо пропорционально широте специализации данной организации. Для небольшого исследования вполне окажется достаточно качественного сетевого отчета от одного агента организации, однако такие отчеты стоит применять для изучения тех видов взаимодействий, которые отражают только лишь одну сторону деятельности информанта. Но при анализе организаций лучше анализировать информацию, полученную из отчетов нескольких агентов, а также подкреплённую документами организации (письма, служебные записки, отчёты, протоколы встреч).
Для сбора качественных сетевых данных нужны значительные средства. Архивные источники требуют гораздо меньше затрат, и одно из их преимуществ в том, что они позволяют проводить ретроспективные исследования и следить за развитием изучаемых сетей. Здесь Анализ связей как инструмент Data Mining тесно связан с другим направлением анализа данных .
Итогом сбора и обработки эмпирических данных являются формализованные матрицы взаимодействия акторов изучаемой сети.
На основе полученных данных в виде матрицы взаимодействия строится соответствующий граф, иллюстрирующий отношения акторов в сети.
Некоторыми исследователями отмечается, что помимо высокого риска получения субъективных оценок сети от информантов, существует риск субъективного восприятия, полученных данных со стороны исследователя и таким образом даже анализ одной и той же информации может привести к получению различных выводов.
И тем не менее существует ряд общепринятых техник оценки свойств сети и связей между её акторами.
Основной индикатор, представляющий размер сети — число прямых связей, включенных в индивидуальные объединения. Размер сети может изменяться от минимального значения 1 (2 вершины в графе) до максимально возможного значения (g-1) , где g— количество вершин графа.
Обычно под ней понимают значительную силу связанности между объединениями в сети или (для дихотомических измерений) соотношение наличествующих и возможных связей.
Плотность связей неориентированного графа можно вычислить по формуле:
, где L — количество наблюдаемых связей в данном графе или подграфе.
Плотность связей в ориентированном графе вычисляется по формуле:
.
Однако с помощью плотности достаточно проблематично выявить структурные сцепления, если сеть имеет подгруппы, и при изменении размера сети может происходить трансформация плотности.
При данном подходе важно количество акторов, с которыми связан данный актор. В простейшем случае это просто подсчет числа связей актора по следующей формуле:
.
Для того чтобы можно было сравнивать степень центральности актора не только внутри одной сети, но и между сетями разной структуры, необходимо рассчитать стандартизированную оценку центральности по следующей формуле:
.
Также можно рассчитать степень центральности для всей сети:
.
Часто бывает необходимо сравнить различные структуры и определить, какая же из них обеспечивает наилучшую централизацию акторов. Для этого существует формула подсчёта нормированной степень центральности для всей сети:
.
При данном подходе измеряется плотность центральности — насколько близко актор располагается относительно других акторов. То есть При таком подходе централь — это позиция, из которой необходимо делать минимальное количество шагов ко всем остальным позициям группы.
Плотность центральности актора измеряется следующим образом:
.
Здесь - число связей между акторами и . Максимальное значение индекса равно . Таким образом, нормированный коэффициент плотности центральности актора рассчитывается по следующей формуле:
Нормированная плотность центральности сети рассчитывается по формуле:
В рамках данного подхода центральность рассматривается как контроль связей между определёнными позициями. Так, если кратчайшее расстояние между акторами n 2 и n 3 n 2 , n 1 , n 4 и n 3 , то позиции n 1 и n 4 являются контролирующими по отношению к паре акторов n 2 и n 3 .
Центральность посредничества актора можно рассчитать по формуле:
Здесь - число кратчайших путей, которые проходят через актор . Поскольку максимальное количество связей между всеми вершинами графа равно , то нормированная оценка центральности посредничества актора вычисляется соответственно по формуле:
.
Стандартизированная оценка центральности сети можно рассчитывается по следующей формуле:
.
Часто при описании структурных свойств сети прибегают к понятиям структурного сходства отдельных акторов. Выявление структурно похожих позиций позволяет упростить граф, объединяя схожие по своим структурным свойствам акторы в новые, корпоративные акторы. Соответственно для выявления эквивалентности между двумя позициями как правило используется следующая формула, предложенная Бёртом :