Interested Article - Авторский инвариант

Авторский инвариант ( англ. writer invariant, authorial invariant, author's invariant ) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов. ^{[

источник не указан 2385 дней

]} Авторский инвариант применяется в задаче идентификации авторства текста.

Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.

Описание

Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:

Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его «бессознательным параметром», коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.
Искомый параметр должен сохранять «постоянное значение» для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом .
Параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта. ^{[

источник не указан 2385 дней

]}

Такими количественными характеристиками могут быть:

Длина предложений, то есть среднее число слов в предложении.
Длина слов, то есть среднее количество слогов в слове.
Общая частота употребления служебных слов - предлогов, союзов, частиц, то есть процентное содержание служебных слов.
Частота употребления существительных, то есть их процентное содержание.
Частота употребления глаголов, то есть их процентное содержание.
Частота употребления прилагательных (в процентах).
Частота употребления предлога «в» (в процентах).
Частота употребления частицы «не» (в процентах).
Количество служебных слов в предложении, то есть среднее число союзов, предлогов и частиц в предложении. ^{[

источник не указан 2385 дней

]}

Идентификация авторства текста

Задача идентификации авторства текста

Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:

$T=\{t_{1},...,t_{k}\}$ — множество текстов,

$A=\{a_{1},...,a_{l}\}$ — множество авторов.

Для некоторого подмножества текстов $T'=\{t_{1},...t_{m}\}\subseteq T$ авторы известны , т.е. существует множество пар «текст–автор» $D=\{(t_{i},a_{j})\}_{i=1}^{m}$ . Необходимо установить, кто из множества $A$ является истинным автором остальных текстов (анонимных или спорных) $T''=\{t_{m+1},...,t_{k}\}\subseteq T$

Методика идентификации автора неизвестного текста

Методика включает последовательность следующих действий:

Выбор модели представления текстов в виде наборов признаков.
Выбор группы признаков для проверки и формирования из неё авторского инварианта.
Выбор классификаторов и их параметров.
Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
Непосредственно определение авторства неизвестного текста.
Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.

Программное обеспечение для идентификации авторства текста

Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:

Название программы (Application name)	Автор (Developer)	Сайт (Website)	Описание (Description)
Программы для определения авторства текста
Штампомер	Делицын Л. Л.		Программа статистического анализа текста и определения авторства.
Лингвоанализатор	Хмелев Д. В.		Программа математического анализа структуры текста. Работает онлайн . Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения.
СМАЛТ	ПетрГУ		Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству.
Стилеанализатор	Шевелев О. Г.	—	Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора.
Программы выявления плагиата
Антиплагиат	ЗАО «Анти-Плагиат», «Форексис»		Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете.
Плагиат Информ	«СофтИнформ»		Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей.
АУРА-Текст	СПбГУ	(недоступная ссылка)	Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики.
Программы интеллектуального анализа данных
Intelligent Miner for Text	IBM		Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации.
TextAnalyst, PolyAnalyst	Мегапьютер Интеллидженс	,	PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами : создание семантической сети текста, аннотация текста, кластеризация и классификация документов.
Text Miner	SAS	(недоступная ссылка с 13-05-2013 [3896 дней] — )	Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными.
SemioMap	Semio Corporation	—	Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть , сервер представляет эту сеть в виде графиков.
Oracle Text, Oracle Data Mining	Oracle	,	Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат.
Knowledge Server	Autonomy		Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке.
Программы, составляющие психологический портрет автора текста
ЛИНГВА-ЭКСПРЕСС	Батов В. И.	—	Программа выявления особенностей речевого поведения и характера автора.
Prostyle	США	—	Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами.
ВААЛ	Белянина В. П.		Программа фоносемантического анализа текста.

Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов. Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.

См. также

Примечания

↑ , с. 1.
, с. 182.
.
, с. 183.
, с. 184.

Литература

на русском языке

Романов А. Шелупанов А. Бондарчук С. // Доклады Томского государственного университета систем управления и радиоэлектроники : журнал. — 2010. — № 1(21) . — С. 108-112 . — ISSN .
Романов А. : Материалы конф. / Научная сессия ТУСУР-2006, Томск, 4-7 мая, 2006. — В-Спектр, 2006. — С. 115-116 . — ISBN 5-91191-003-9 .
Романов А. : Материалы конф. / Научная сессия ТУСУР-2007, Томск, 5-8 мая, 2008. — В-Спектр, 2008. — С. 182-184 . — ISBN 978-5-91191-080-8 .

Хмелев Д. // Вестник МГУ : журнал. — 2000. — № 2 . — С. 115-126 . — ISSN .

на других языках

Bensefia A., Paquet T., Heutte L. (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 946-950 . — ISBN 0-7695-1960-1 . (недоступная ссылка)
Bensefia A., Nosary A., Paquet T., Heutte L. (англ.) : Материалы конф. / IWFHR '02, Ontario, Canada, August 6-8, 2002. — 2002. — P. 274-279 . — ISBN 0-7695-1692-0 . 28 октября 2005 года.
Seropian A., Grimaldi M., Vincent N. (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 1163-1167 . — ISBN 0-7695-1960-1 . (недоступная ссылка)