Interested Article - Генератор текста

Генера́тор те́кста компьютерная программа , генерирующая тексты, корректные с точки зрения большинства языковых норм , но, как правило, лишённые смысла . Существуют разные виды генераторов текста, различающиеся своими возможностями (например, некоторые из них могут самостоятельно формировать новые слова).

Джонатан Свифт в « Путешествиях Гулливера », пародируя Раймунда Луллия , сатирически описал , генерирующую тексты.

Типы генераторов

Генерация текста путём его составления из полностью случайных слов чаще всего не применяется: программа выдаёт бессмысленный результат и легко распознаётся анализаторами текстов. Обычно используют генерацию по вручную написанным фразам-шаблонам.

В случаях, когда не важен смысл генерируемого текста, он составляется из «мешанки» предложений из разных исходных текстов или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в чат-ботах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам , поэтому их ответ более приближен к теме диалога.

Синонимайзеры и генерация фраз по шаблонам

Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы , в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами .

Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах «сделанных для людей» ( СДЛ ) синонимайзеры могут применяться только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами , комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую морфологию .

Виды синонимизации:

  • Программа-переводчик. Иногда для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают склонения слов и их правильный порядок в предложениях.
  • Генерация по заданному шаблону. Популярен SEO anchor generator , он имеет онлайн-версию с несколькими базами, которые, однако, нельзя редактировать.
  • Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: Generating the web, Article clone easy , и генератор входящий в Allsubmitter (программа для раскрутки сайта ссылками).
  • Синонимизация по базе синонимов. Известен синонимайзер SmartRewriter , он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — Ifritus , расширяющий текст «описательными связями».
  • С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, библиотеки функций , онлайн-сервиса, или онлайн- API для программистов. Например, Морфер способен склонять словосочетания, и phpMorphy, pyMorphy склоняют только отдельные слова.

«Мешанка» текста из разных источников

Дорвеи быстро «вылетают» из поисковой выдачи из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».

  • Обычно в генерируемом тексте используется «мешанка» предложений, взятых из различных текстов. Источниками могут быть сборки рассказов в несколько мегабайтов текста, или страницы сайтов схожей тематики. Но если источниками являются только 1-3 сайтов, простая онлайн- проверка на плагиат это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет.
  • Также предложения генерёнки могут составляться из частей предложений нескольких источников, разделяясь запятой. Проверка по Advego показывает, что уникальность такой мешанки выше на 30 % и более.
  • Некоторые доргены (генераторы дорвеев) собирают текстовые фрагменты, парся сниппеты поисковой выдачи в интернет. Таковы доргены Seodor и SED .

«Умные» генераторы

Ряд компаний развивает более сложную технологию. Создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки, и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты), вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.

Применение

На данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения.

Разработка и оптимизация сайтов

Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов : для генерации названий, описаний, и содержимого целых сайтов с помощью доргенов (генераторов дорвеев ).

Существуют крупные англоязычные сайты, зарабатывающие на размещении рекламы, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Примеры таких сайтов: en и en . Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено.

Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности. [ прояснить ] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки. [ источник не указан 3124 дня ]

Виртуальные собеседники

Виртуальные собеседники (чат- боты ) — программы, предназначенные имитировать общение в чатах . Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям.

Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга , а программам, использующим генераторы текста, это сделать ещё сложнее.

Массовая пропаганда и троллинг в соцсетях

В связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания.

Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php - скрипта . Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом:

Все ваши посты — типичное клише лживой инсинуации, которая стремится дискредитировать и осмеять всякого, кто начинает прозревать и открыто говорить о преступлениях преступного режима. Колет глаза держимордам кровавого кремлёвского упыря правда об их бесчеловечии и о фашистской сути кровавого кремлёвского режима! Интересной особенностью данного форума является то, что путинисты в основном занимаются флудом или обсуждением личностей, а топиков по существу проблем России, вроде этого, боятся как черт ладана. Во врунете достаточно простора, где НКВД-фашисты, вроде вас, могут, не отягощаясь правдой и анализом сталино- путинизма , проводить своё время. Потому и считаю я вас, путинистов, моральными выродками. Ведь подобного рода «участники дискуссии» не появляются на подконтрольных кремлю и ястржембскому «чеченских» сайтах врунета. Пути-Пут и его кровожадные подёнщики ответят за всё.

На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования.

Проверка качества рецензирования издательств

Известны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах . Особенно известна в этом плане программа SCIgen .

См. также

Примечания

  1. . Хабрахабр (8 июля 2010). Дата обращения: 2 июля 2015. 3 июля 2015 года.

Ссылки

  • — научная конференция по теме, на сайте есть архив публикаций (англ.)
Источник —

Same as Генератор текста