Валиханов, Чокан Чингисович
- 1 year ago
- 0
- 0
Бикластеризация , блоковая кластеризация , сокластеризация , также двух модальная кластеризация — методика data mining , которая позволяет одновременную кластеризацию строк и столбцов матрицы . Термин был впервые предложен Б.Г. Миркиным, хотя сам метод был придуман гораздо раньше (J.A. Hartigan ).
Принимая на вход набор строк в столбцах (матрица размера ), алгоритм бикластеризации генерирует бикластеры — подмножество строк, которые проявляют похожее поведение через подмножество столбцов.
Бикластеризация была впервые представлена J. A. Hartigan в 1972 году . Термин бикластеризация был позднее введен Б.Г. Миркиным . Этот алгоритм не был обобщён до 2000 года, когда Y. Cheng и G. M. Church предложили алгоритм бикластеризации, основанный на дисперсии, и применили его к биологическим данным по экспрессии генов . Их статья до сих пор остаётся одним из наиболее важных литературных материалов в области бикластеризации экспрессии генов.
В 2001 и 2003 годах I. S. Dhillon предложил два алгоритма, в которых бикластеризация применяется для файлов и слов. Одна из версий была основана на разделении двудольных спектральных графов . Вторая была основана на теории информации. Dhillon допустил, что потеря взаимной информации при бикластеризации равна KL ( расстояние Кульбака-Лейблера ) между P и Q. P означает распределение файлов и характеристических слов перед бикластеризацией. Q, в свою очередь, — распределение после кластеризации. KL-расстояние необходимо в качестве меры отличий между двумя случайными распределениями. KL = 0, когда два распределения одинаковы, и возрастает, если возрастает отличие . Таким образом, целью алгоритма являлась минимизация KL-расстояния между P и Q. В 2004 A. Banerjee использовал взвешенное расстояние Брегмана вместо KL-расстояния, чтобы разработать алгоритм бикластеризации, подходящий для любого типа матрицы, в отличие от KL алгоритма .
С целью кластеризовать более чем два типа объектов Bekkerman в 2005 году расширил взаимную информацию в теореме Dhillon от одной пары до множества пар.
Сложность задачи бикластеризации зависит от конкретной формулировки, в особенности от функции, используемой для оценки качества полученного бикластера. Наиболее интересные варианты этих задач являются NP-полными и требуют больших вычислительных мощностей или использования эвристических подходов .
Различные алгоритмы бикластеризации имеют различные определения бикластера.
Основные типы:
На основе обзора С. Мадейры и А. Оливейры и некоторых других была так же предложена таксономия методов бикластеризации на основе типов бикластеров, их структуры, характера порождения, стратегии поиска и типов значений данных.