Interested Article - Строковое ядро

Строковое ядро — это ядерная функция , определённая на строках , т.е. конечных последовательностях символов, которые не обязательно имеют одну и ту же длину. Строковые ядра можно интуитивно понимать как функции, измеряющие похожесть пар строк — чем больше похожи две строки a и b , тем больше значение строкового ядра K(a, b) .

Использование строковых ядер с ядерных алгоритмами обучения, таких как метод опорных векторов , позволяет таким алгоритмам работать со строками без необходимости преобразовывать их к векторам признаков постоянной длины, имеющих вещественные элементы . Строковые ядра используются в областях, где кластеризуется или классифицируется последовательность данных, например, при обработке текстовых данных и анализе генов .

Неформальное введение

Предположим, что кто-то собирается сравнить два фрагмента текста автоматически и определить их относительную похожесть. Для многих приложений может быть достаточным найти некоторые полностью совпадающие ключевые слова. Примером, когда такое точное совпадение не всегда достаточно, можно найти в детекторах спама . Другим примером может служить компьютерный анализ генов, в котором гомологичные гены имеют мутации , при которых в общей последовательности символы могут быть удалены, вставлены или заменены.

Предпосылки

Поскольку некоторые хорошо себя зарекомендовавшие методы кластеризации, классификации и извлечения информации из данных (например, метод опорных векторов) разработаны для работы с векторами (т.е. данные представляют элементы векторного пространства), использование строкового ядра позволяет распространить эти методы на последовательные данные.

Метод строкового ядра контрастирует с распространёнными до его появления подходами для классификации текстов, где вектора признаков показывали только присутствие или отсутствие слова. Это не только улучшило существовавшие подходы, но и является примером, как весь класс ядер адаптируется под структуры данных, которые начали появляться в 21-м веке. Обзор таких методов сделал Гэртнер .

В биоинформатике строковые ядра используются для преобразования биологических последовательностей, таких как протеины или ДНК, в вектора для дальнейшего использования в моделях машинного обучения. Примером строкового ядра для таких целей является профильное ядро .

Определение

Ядро области D — это функция $K:D\times D\to \mathbb {R}$ , удовлетворяющая некоторым условиям ( симметричная по аргументам, непрерывная , в некотором смысле).

утверждает, что К может затем быть выражен как $K(x,y)=\varphi (x)\cdot \varphi (y)$ c функцией $\varphi$ , отображающей аргументы в пространство со скалярным произведением .

Мы можем теперь воспроизвести определение ядра строковых подпоследовательностей над строками из алфавита $\Sigma$ . Покоординатно отображение определяется следующим образом:

\varphi _{u}:\left\{{\begin{array}{l}\Sigma ^{n}\rightarrow \mathbb {R} ^{\Sigma ^{n}}\\s\mapsto \sum _{\mathbf {i} :u=s_{\mathbf {i} }}\lambda ^{l(\mathbf {i} )}\end{array}}\right.

Индексы $\mathbf {i}$ являются мультииндексами , а u является строкой длины n — подпоследовательности могут оказаться разрывными, но промежутки штрафуются. Мультииндекс $\mathbf {i}$ задаёт позиции соответствия символов в u и s . $l(\mathbf {i} )$ является разницей между первым и последним элементом в $\mathbf {i}$ , то есть как далеко отстоит подпоследовательность в s от соответствующей ей подпоследовательности в u . Параметр $\lambda$ может быть установлен в любое значение между 0 (промежутки не разрешены, так как только 0 ⁰ равно не 0, а 1) и 1 (подпоследовательности даже с большими расстояниями весят столько же, сколько и без расстояний, то есть как непрерывные подпоследовательности), так как $1^{l(\mathbf {i} )}=1$ .

Для некоторых важных алгоритмов данные получаются алгоритмом только в выражениях, использующих скалярное произведение от вектора признаков, вследствие чего они и получили название ядерные методы . Поэтому желательно, чтобы не нужно было явно вычислять преобразование $\varphi (x)$ , а можно было бы вычислять только скалярное произведение через ядро, что может быть много быстрее, особенно при применении аппроксимации .

Примечания

↑ , с. 419-444.
, с. 566-575.
.
.
, с. 527-550.

Литература

Huma Lodhi, Craig Saunders, John Shawe-Taylor, Nello Cristianini, Chris Watkins. Text classification using string kernels // Journal of Machine Learning Research. — 2002.
Leslie C., Eskin E., Noble W.S. Pacific Symposium on Biocomputing Proceedings. — 2002.
Ola Amayri, Nizar Bouguila. Improved online support vector machines spam filtering using string kernels // Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications. 14th Iberoamerican Conference on Pattern Recognition, CIARP 2009, Guadalajara, Jalisco, Mexico, November 15-18. — Springer. — Т. 5856. — (Lecture Notes in Computer Science).
Gärtner T. A survey of kernels for structured data // ACM SIGKDD Exploration Newsletter. — ACM, 2003. — Т. 5 , вып. 1 .
Rui Kuang, Eugene Ie, Ke Wang, Kai Wang, Mahira Siddiqi, Yoav Freund, Christina Leslie. Profile-based string kernels for remote homology detection and motif extraction // Journal of Bioinformatics and Computational Biology. — 2005. — Июнь ( т. 3 , вып. 3 ). — ISSN .

[_ba070fb41e1f8e47-1] , с. 419-444.

[_87d44e7aad07b880-2] , с. 566-575.

[_ce6775f5177992ca-3] .

[_1ee02e346860158d-4] .

[_5d10a33ddd5486f1-5] , с. 527-550.

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	JMLR

Неформальное введение

Предпосылки

Определение

Примечания

Литература

Ядро Linux

Same as Строковое ядро

Ядро Linux

Внутреннее ядро Земли

Солнечное ядро

Звёздное ядро

Гонки «Пушечное ядро»

Гонки «Пушечное ядро» 2

Клеточное ядро

Прилежащее ядро

Тритон (ядро)

Ядро микропроцессора

Пушечное ядро

Ударное ядро

Калёное ядро

Каменное ядро

Ядро энциклопедии

Ядро энциклопедии

Вентролатеральное преоптическое ядро

Ядро (статистика)

Ядро микропроцессора

Ядро (группировка рестлеров)

Составное ядро

Ядро

Ядро (теория игр)

Внутреннее ядро Земли

Ядро (алгебра)

Ядро энциклопедии/Информационные технологии

Пушечное ядро (Marvel Comics)

Пушечное ядро (Marvel Comics)

Латеральное дорсальное ядро таламуса

Латеральное заднее ядро таламуса

Земное ядро: Бросок в преисподнюю

Клеточное ядро

Ядро (группировка рестлеров)

Хвостатое ядро

Геометрическое ядро САПР