Инвариант графа
- 1 year ago
- 0
- 0
Авторский инвариант ( англ. writer invariant, authorial invariant, author's invariant ) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов. [ источник не указан 2385 дней ] Авторский инвариант применяется в задаче идентификации авторства текста.
Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.
Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:
Такими количественными характеристиками могут быть:
Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:
— множество текстов,
— множество авторов.
Для некоторого подмножества текстов авторы известны , т.е. существует множество пар «текст–автор» . Необходимо установить, кто из множества является истинным автором остальных текстов (анонимных или спорных)
Методика включает последовательность следующих действий:
Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:
Название программы (Application name) | Автор (Developer) | Сайт (Website) | Описание (Description) |
---|---|---|---|
Программы для определения авторства текста | |||
Штампомер | Делицын Л. Л. | Программа статистического анализа текста и определения авторства. | |
Лингвоанализатор | Хмелев Д. В. | Программа математического анализа структуры текста. Работает онлайн . Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения. | |
СМАЛТ | ПетрГУ | Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству. | |
Стилеанализатор | Шевелев О. Г. | — | Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора. |
Программы выявления плагиата | |||
Антиплагиат | ЗАО «Анти-Плагиат», «Форексис» | Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете. | |
Плагиат Информ | «СофтИнформ» | Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей. | |
АУРА-Текст | СПбГУ | (недоступная ссылка) | Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики. |
Программы интеллектуального анализа данных | |||
Intelligent Miner for Text | IBM | Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации. | |
TextAnalyst, PolyAnalyst | Мегапьютер Интеллидженс | , | PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами : создание семантической сети текста, аннотация текста, кластеризация и классификация документов. |
Text Miner | SAS | (недоступная ссылка с 13-05-2013 [3896 дней] — ) | Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными. |
SemioMap | Semio Corporation | — | Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть , сервер представляет эту сеть в виде графиков. |
Oracle Text, Oracle Data Mining | Oracle | , | Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат. |
Knowledge Server | Autonomy | Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке. | |
Программы, составляющие психологический портрет автора текста | |||
ЛИНГВА-ЭКСПРЕСС | Батов В. И. | — | Программа выявления особенностей речевого поведения и характера автора. |
Prostyle | США | — | Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами. |
ВААЛ | Белянина В. П. | Программа фоносемантического анализа текста. |
Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов. Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.