Interested Article - Выявление плагиата
- 2020-01-25
- 1
Ана́лиз плагиа́та (определение плагиата, выявление плагиата) — это компьютерные методы поиска и обнаружения плагиата .
Плагиат ( англ. plagiarism ) — это использование, перефразирование и подведение итогов работы в любой форме без подтверждения ссылками на источники и представление её как своей собственной работы .
Плагиат — это заимствование чужой работы, будь то преднамеренно или непреднамеренно, как своей, ради собственной выгоды .
В настоящее время существует достаточно большое количество сервисов и программ , позволяющих каким-либо образом выявить плагиат . Также существует ряд компьютерных методов обнаружения плагиата .
Проблема плагиата
Плагиат с появлением Интернета превратился в серьёзную проблему. Попав в Интернет, знание становится достоянием всех, соблюдать авторское право становится всё труднее и даже невозможно . Постепенно становится сложнее определить первоначального автора.
Стремительное развитие сети Интернет, наряду с увеличивающейся компьютерной грамотностью, способствует проникновению плагиата в различные сферы человеческой деятельности: плагиат является острой проблемой в образовании, промышленности и научном сообществе .
Плагиат является преступлением. Это вводит в заблуждение читателей, приносит ущерб автору, и предоставляет незаслуженные блага плагиатору .
Широкий доступ к отечественной и зарубежной литературе, многократное увеличение числа профессиональных изданий, публикаций в Интернете — всё это практически сводит на нет какие бы то ни было редакторские стремления «проверить» или «установить» подлинность и оригинальность аргументов и фактов, используемых в рукописях, предлагаемых к публикации .
Методы обнаружения плагиата
На иллюстрации представлена классификация методов компьютерного обнаружения плагиата с технической точки зрения.
- Методы характеризуются по типу оценки сходства.
Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.
- В настоящее время наиболее распространённым подходом является Дактилоскопия :
Из ряда документов выбирается набор из нескольких подстрок, которые и являются «отпечатками». Рассматриваемый документ будет сравниваться с «отпечатками» для всех документов коллекции. Найденные соответствия с другими документами указывают на общие сегменты текста .
- Проверка документа дословным перекрытием текста представляет собой классическое сравнение строк.
Проверка подозрительных документов в этой ситуации требует расчёта и хранения эффективно сопоставимые представления всех документов в справочной коллекции, которые сравниваются попарно. Как правило, используют модели, такие как суффиксное дерево или суффиксный массив , которые были адаптированы для выполнения этой задачи в контексте компьютерного обнаружения плагиата. Однако сопоставление подстроки является нежизнеспособным решением для проверки больших коллекций документов (алгоритм отрабатывает в среднем 2h сравнений, где h — длина строки, в которой ведётся поиск) .
является упрощением представления, используемого в обработке естественного языка и поиска информации. В этой модели текст представлен как неупорядоченный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства .
- Цитирование — компьютерный метод выявления плагиата, предназначенный для использования в научных документах, позволяющий использовать цитаты и справочный материал. Определяет общие цитаты двух научных работ.
Шаблон цитат представляет собой подпоследовательности, содержащие не только общие цитаты для двух документов, но и подобный порядок и близость цитат в тексте, являющихся основными критериями для определения шаблона цитат .
- Стилометрия или изучение языковых стилей — это статистический метод для выявления авторства анонимных документов и для компьютерной проверки на плагиат.
Строятся стилометрические модели для различных фрагментов текста , отрывков, которые стилистически отличаются от других. И путём сравнения моделей можно обнаружить плагиат .
Например, анализ на основе последовательностей частей речи . Рассматривается способ разбиения текста на фрагменты однородности. В качестве параметров разбиения берутся различные последовательности частей речи. Далее проводится анализ фрагментов. И в результате для текста находятся последовательности, которые выделяли из текстов фрагменты, то есть алгоритм выделяет из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи, что показывает на возможный плагиат в данном месте .
Обзор существующих систем
В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить заимствования. В числе таковых можно назвать: систему «Антиплагиат» , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyser II, Plagiatinform, Copyscape .
- Система «Антиплагиат»
Система разработана компанией «Форексис» . Система осуществляет онлайн поиск по большому количеству документов, хранящихся в собственной базе системы, по базам данных партнеров, в том числе: Российская государственная библиотека, Научная электронная библиотека ELibrary.ru, компания Lexpro, а также по базе данных пользователя. «Антиплагиат» осуществляет поиск по сети Интернет собственными средствами и поэтому обладает меньшей оперативностью чем системы, использующие Яндекс. XML. В бесплатной версии системы доступна только сокращенная форма отчета.
- Программа Advego Plagiatus
Программа осуществляет онлайн проверку с использованием поисковых систем . В отличие от аналогичных систем, Advego Plagiatus не использует Яндекс.XML (бесплатный сервис, предоставляющий возможность производить автоматические поисковые запросы к « Яндексу » и публиковать его выдачу у себя на ресурсе).
Программа выдаёт процент совпадения текста и выводит найденные источники. Программа не преобразует буквы, то есть нет преобразования регистра , нет обработки и изменения латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке.
Также отсутствует поддержка поиска по собственной базе; из-за особенностей работы возникают ситуации, когда результаты проверки отличаются от раза к разу.
- Сервис Unplag
Сервис проверки на плагиат Unplag может осуществлять проверку на плагиат как в режиме реального времени онлайн, так и сравнивать документ с сохраненной базой документов в библиотеке пользователя. Поддерживает работу с различными типами документов. Есть персональная и корпоративная программы. Также работает с системой управления курсами Moodle , Canvas, Blackboard, Sakai [ источник не указан 2734 дня ] .
- Сервис www.miratools.ru
Сервис позволяет осуществлять онлайн проверку текста на плагиат . Система использует результаты выдачи поисковых систем. Существует возможность замены английских букв на русские. Также имеется возможность изменения длины и шага шингла , используемых для проверки. По результатам проверки выдаётся процент совпадений и найденные источники. Система не работает с собственной базой, существует ограничение на длину текста в 3000 символов и ограничение на число проверок в течение суток.
- Сервис www.istio.com
Сервис осуществляет проверку текста на наличие заимствованного контента с использованием поисковых систем Яндекс.XML и Yahoo.com. . По результатам проверки выдаётся сообщение о том, является ли текст уникальным или нет, и выдаётся список подобных страниц сайтов. Сервис предоставляет дополнительные средства для анализа текстов, например, проверку орфографии, анализ наиболее частотных слов и т. д. У системы отсутствует преобразование букв и поиск по собственной базе.
- Программа Praide Unique Content Analyser II
Программа проверяет тексты с использованием поисковых систем . Имеется возможность выбора используемых поисковых систем, содержит средства добавления новых поисковых систем. Проверка осуществляется шинглами, длину которых можно изменять. Можно задавать количества слов перекрытия шинглов. Выводится подробный отчёт по проверке в каждой поисковой системе. В программе отсутствует замены букв, обработка стоп-слов и нет поддержки работы с собственной базой.
- Система Plagiatinform
Система проверяет документы на наличие заимствований как в локальной базе, так и в сети Интернет . Система умеет находить плагиат в виде документов, скомпонованных из «перемешанных» кусков текста нескольких источников. Проверка может осуществляться с использованием быстрого или углублённого поиска. Результаты проверки выдаются в виде наглядного отчёта. Отсутствует преобразование букв. Отсутствует возможность свободного использования или тестирования системы.
- Сервис Copyscape
Система Copyscape позволяет осуществлять поиск копий веб-страниц в Интернете . Система возвращает список веб-страниц, у которых есть похожий по содержанию текст. Сервис осуществляет проверку на наличие заимствованного контента с использованием поисковых систем Google и Yahoo!
Проверяется только контент веб страницы, то есть, для выяснения уникальности текста необходимо опубликовать текст на сайте и ввести в системе адрес страницы. Без регистрации существует ограничение на количество проверок в месяц и на количество отображаемых результатов — 10 сайтов. Для зарегистрированных пользователей нет ограничений на количество проверок и выводимых результатов, но каждый запрос стоит 5 центов.
Соревнования по определению плагиата
Выявление плагиата (особенно перефразированного) является активно изучаемой инженерной и научной проблемой. Соревнования по автоматическому выявлению плагиата регулярно проводятся под эгидой инициативы PAN . Первое соревнование по выявлению плагиата в русскоязычных документах прошло в 2017 году в рамках конференции по компьютерной лингвистике «Диалог» .
См. также
Примечания
- .
- .
- .
- .
- , pp. 23.
- , pp. 331.
- .
- , pp. 36-41.
- , pp. 226–227.
- , pp. 70-77.
- , pp. 601-614.
- , pp. 47-55.
- , pp. 571–575.
- , pp. 273–274.
- , pp. 255–258.
- , pp. 249–258.
- , pp. 565–569.
- .
- .
- от 13 октября 2012 на Wayback Machine
- . Дата обращения: 9 декабря 2012. 11 декабря 2012 года.
- (англ.) . unplag.com. Дата обращения: 21 июля 2016. 14 июля 2016 года.
- от 9 декабря 2012 на Wayback Machine
- . Дата обращения: 9 декабря 2012. 9 декабря 2012 года.
- . Дата обращения: 9 декабря 2012. Архивировано из 20 ноября 2012 года.
- от 29 июля 2012 на Wayback Machine
- . Дата обращения: 9 декабря 2012. 8 декабря 2012 года.
- . Дата обращения: 5 сентября 2017. Архивировано из 15 сентября 2017 года.
- . Дата обращения: 5 сентября 2017. 5 сентября 2017 года.
Литература
- на русском языке
- Аушра А. // Международный форум Educational Technology & Society 9(3). — 2006. 20 сентября 2016 года.
- Дягилев В. В., Цхай А. А., Бутаков С. В. (недоступная ссылка) // Вестник НГУ. Серия:Информационные технологии.. — 2011.
- Ушакин С. // Общественные науки и современность. — 2001.
- Седов А. В., Рогов А. А. Вып. 1 . // Современные проблемы науки и образования.. — 2013. —
- Шахрай С. М. , Аристер Н. И. , . — М. : МИИ, 2014. — 176 с. — 1000 экз. — ISBN 978-5-00077-056-6 . от 25 октября 2015 на Wayback Machine
- Шарапов Р. В., Шарапова Е. В. // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.. — 2011.
- на других языках
- Brin S., Davis J., Garcia-Molina H. (англ.) // Vine.. — 2001.
- Bouville M. (англ.) // Science and Engineering Ethics. — 2008.
- Dreher H. (англ.) // Information and Beyond: The Journal of Issues in Informing Science and Information Technology. — 2007.
- Johnston B. (англ.) . — 2008. (недоступная ссылка)
- Gipp B., Beel J. (англ.) // International Society for Scientometrics and Informetrics. — 2009. 13 сентября 2012 года.
- Gipp B., Beel J. (англ.) // ACM. — 2010. 25 апреля 2012 года.
- Gipp B., Meuschke N., Beel J. (англ.) // ACM. — 2011. 25 апреля 2012 года.
- Gipp B., Meuschke N. (англ.) // ACM. — 2011. 25 апреля 2012 года.
- Leong A., Lau H., Rynson W. H. (англ.) // ACM. — 1997.
- Meyer zu Eissen S., Stein B. (англ.) // Springer . — 2006. 2 апреля 2012 года.
- Monostori K., Zaslavsky A., Schmidt H. (англ.) // ACM. — 2000. 15 апреля 2012 года.
- Muhr M., Zechner M. (англ.) . — 2009. 2 апреля 2012 года.
- Stein B., Koppel M. (англ.) // ACM SIGIR Forum.. — 2011. 2 апреля 2012 года.
- ACT BSSS. (англ.) // ACT Board of Senior Secondary Studies.. — 2011. 18 апреля 2013 года.
- (англ.) // Unplag Wiki. — 2015.
- 2020-01-25
- 1