Крылатые выражения
- 1 year ago
- 0
- 0
Регуля́рные выраже́ния ( англ. regular expressions ) — формальный язык , используемый в компьютерных программах, работающих с текстом, для поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов ( символов-джокеров , англ. wildcard characters ). Для поиска используется строка-образец ( англ. pattern , по-русски её часто называют «шаблоном», «маской»), состоящая из символов и метасимволов и задающая правило поиска. Для манипуляций с текстом дополнительно задаётся строка замены, которая также может содержать в себе специальные символы.
Регулярные выражения используются некоторыми текстовыми редакторами и утилитами для поиска и подстановки текста. Например, при помощи регулярных выражений можно задать шаблоны, позволяющие:
Регулярные выражения позволяют задавать и гораздо более сложные шаблоны поиска или замены.
Результатом работы с регулярным выражением может быть:
Если регулярное выражение используется для замены текста, то результатом работы будет новая текстовая строка, представляющая собой исходный текст, из которого удалены найденные подстроки (сопоставленные образцу), а вместо них подставлены строки замены (возможно, модифицированные запомненными при разборе группами символов из исходного текста). Частным случаем модификации текста является удаление всех вхождений найденного образца — для чего строка замены указывается пустой.
Набор утилит (включая редактор sed и фильтр grep ), поставляемых в дистрибутивах UNIX , одним из первых способствовал популяризации регулярных выражений для обработки текстов. Многие современные языки программирования имеют встроенную поддержку регулярных выражений. Среди них Perl , Java , PHP , JavaScript , языки платформы .NET Framework , Python , Tcl , Ruby , Lua , Gambas , C++ ( стандарт 2011 года ), Delphi , D , Haxe и другие.
Истоки регулярных выражений лежат в теории автоматов , теории формальных языков и классификации формальных грамматик по Хомскому .
Эти области изучают вычислительные модели (автоматы) и способы описания и классификации формальных языков . В 1940-х гг. Уоррен Маккалок и Уолтер Питтс описали нейронную систему , используя простой автомат в качестве модели нейрона .
Математик Стивен Клини позже описал эти модели, используя свою систему математических обозначений, названную « регулярные множества ».
Кен Томпсон встроил их в редактор QED , а затем — в редактор ed под UNIX. С этого времени регулярные выражения стали широко использоваться в UNIX и UNIX-подобных утилитах, например в expr , awk , Emacs , vi , lex и Perl .
Регулярные выражения в Perl и Tcl происходят от реализации, написанной . разработал библиотеку PCRE ( англ. Perl-compatible regular expressions — Perl-совместимые регулярные выражения), которая используется во многих современных инструментах, таких как PHP и Apache [ источник не указан 1743 дня ] .
Регулярные выражения состоят из констант и операторов , которые определяют множества строк и множества операций на них соответственно. Определены следующие константы:
и следующие операции:
Регулярные выражения, входящие в современные языки программирования (в частности, PCRE ), имеют больше возможностей, чем то, что называется регулярными выражениями в теории формальных языков; в частности, в них есть нумерованные обратные ссылки . Это позволяет им разбирать строки, описываемые не только регулярными грамматиками, но и более сложными, в частности, контекстно-свободными грамматиками .
Большинство символов в регулярном выражении представляет само себя за исключением специальных символов
[
]
\
/
^
$
.
|
?
*
+
(
)
{
}
(в разных типах регулярных выражений этот набор различается, см.
),
которые могут быть экранированы символом
\
(обратная косая черта) для представления самих себя в качестве символов текста.
Можно экранировать целую последовательность символов, заключив её между
\Q
и
\E
.
Пример | Соответствие |
---|---|
a\.?
|
a.
или
a
|
a\\\\b
|
a\\b
|
a\[F\]
|
a[F]
|
\Q+-*/\E
|
+-*/
|
Аналогично могут быть представлены другие специальные символы (наборы символов, требующих экранирования, могут различаться в зависимости от конкретной реализации).
Часть символов, которые в той или иной реализации не требуют экранирования (например, угловые скобки
<
>
), может быть экранирована из соображений удобочитаемости.
Метасимвол
.
(точка) означает один любой символ, но в некоторых реализациях — исключая символ новой строки.
Вместо символа
.
можно использовать
[\s\S]
(все пробельные и непробельные символы, включая символ новой строки).
Набор символов в квадратных скобках
[
]
именуется символьным классом и позволяет указать интерпретатору регулярных выражений, что на данном месте в строке может стоять один из перечисленных символов.
В частности,
[абв]
задаёт возможность появления в тексте одного из трёх указанных символов, а
[1234567890]
задаёт соответствие одной из цифр.
Возможно указание диапазонов символов: например,
[А-Яа-я]
соответствует всем буквам русского алфавита, за исключением букв «Ё» и «ё»
. Некоторые реализации регулярных выражений могут позволять включать в символьные классы не только символы, но и целые строки.
Если требуется указать символы, которые не входят в указанный набор, то используют символ
^
внутри квадратных скобок, например
[^0-9]
означает любой символ, кроме цифр.
Добавление в набор специальных символов путём экранирования — самый бесхитростный способ. Однако в современных регулярных выражениях унаследован также и традиционный подход — см. .
Некоторые символьные классы можно заменить специальными метасимволами:
Символ | Возможный эквивалент | Соответствие |
---|---|---|
\d
|
[0-9]
|
Цифровой символ
|
\D
|
[^0-9]
|
Нецифровой символ
|
\s
|
[ \f\n\r\t\v]
|
Пробельный символ
|
\S
|
[^ \f\n\r\t\v]
|
Непробельный символ
|
\w
|
[A-Za-z0-9_]
|
Буквенный или цифровой символ или знак подчёркивания; буквы ограничены латиницей
|
\W
|
[^A-Za-z0-9_]
|
Любой символ, кроме буквенного или цифрового символа или знака подчёркивания
|
Следующие символы позволяют спозиционировать регулярное выражение относительно элементов текста: начала и конца строки, границ слова.
Представление | Позиция | Пример | Соответствие |
---|---|---|---|
^
|
Начало текста (или строки при модификаторе ?m) |
^a
|
a
aa aaa
|
$
|
Конец текста (или строки при модификаторе ?m) |
a$
|
aaa aa
a
|
\b
|
Граница слова |
a\b
|
aa
a
aa
a
|
\ba
|
a
aa
a
aa
|
||
\B
|
Не граница слова |
\Ba\B
|
a
a
a a
a
a
|
\G
|
Предыдущий успешный поиск |
\Ga
|
aaa
aaa
(поиск остановился на 4-й позиции — там, где не нашлось
a
)
|
\n — перевод строки
\r — возврат каретки
Круглые скобки используются для определения области действия и
приоритета операций
.
Шаблон внутри группы обрабатывается как единое целое и может быть квантифицирован.
Например, выражение
(тр[ау]м-?)*
найдёт последовательность вида
трам-трам-трумтрам-трум-трамтрум
.
Вертикальная черта разделяет допустимые варианты.
Например,
gray|grey
соответствует
gray
или
grey
.
Следует помнить, что перебор вариантов выполняется слева направо, как они указаны.
Если требуется указать перечень вариантов внутри более сложного регулярного выражения, то его нужно заключить в группу.
Например,
gray|grey
или
gr(a|e)y
описывают строку
gray
или
grey
.
В случае с односимвольными альтернативами предпочтителен вариант
gr[ae]y
, так как сравнение с символьным классом выполняется проще, чем обработка группы с проверкой на все её возможные модификаторы и генерацией обратной связи.
Квантификатор после символа, символьного класса или группы определяет, сколько раз предшествующее выражение может встречаться. Следует учитывать, что квантификатор может относиться более чем к одному символу в регулярном выражении, только если это символьный класс или группа.
Представление | Число повторений | Эквивалент | Пример | Соответствие |
---|---|---|---|---|
?
|
Ноль или одно |
{0,1}
|
colou?r
|
color
,
colour
|
*
|
Ноль или более |
{0,}
|
colou*r
|
color
,
colour
,
colouur
и т. д.
|
+
|
Одно или более |
{1,}
|
colou+r
|
colour
,
colouur
и т. д.
(но не
color
)
|
Представление | Число повторений | Пример | Соответствие |
---|---|---|---|
{
n
}
|
Ровно n раз |
colou{3}r
|
colouuur
|
{
m
,
n
}
|
От m до n включительно |
colou{2,4}r
|
colouur
,
colouuur
,
colouuuur
|
{
m
,}
|
Не менее m |
colou{2,}r
|
colouur
,
colouuur
,
colouuuur
и т. д.
|
{,
n
}
|
Не более n |
colou{,3}r
|
color
,
colour
,
colouur
,
colouuur
|
Часто используется последовательность
.*
для обозначения любого количества любых символов между двумя частями регулярного выражения.
Символьные классы в сочетании с квантификаторами позволяют устанавливать соответствия с реальными текстами. Например, столбцами цифр, телефонами, почтовыми адресами, элементами HTML -разметки и др.
Если символы
{
}
не образуют квантификатора, их специальное значение игнорируется.
Выражение
(<.*>)
соответствует строке, содержащей несколько тегов
HTML
-разметки, целиком.
<p><b>Википедия</b> — свободная энциклопедия, в которой <i>каждый</i> может изменить или дополнить любую статью.</p>
Чтобы выделить отдельные теги, можно применить ленивую версию этого выражения:
(<.*?>)
Ей соответствует не вся показанная выше строка, а отдельные теги (выделены цветом):
<p><b>
Википедия
</b>
— свободная энциклопедия, в которой
<i>
каждый
</i>
может изменить или дополнить любую статью.
</p>
В некоторых реализациях квантификаторам в регулярных выражениях соответствует максимально длинная строка из возможных (квантификаторы являются
жадными
,
англ.
greedy
).
Это может оказаться значительной проблемой.
Например, часто ожидают, что выражение
(<.*>)
найдёт в тексте
теги
HTML
.
Однако если в тексте есть более одного HTML-тега, то этому выражению соответствует целиком строка, содержащая множество тегов.
<p><b>Википедия</b> — свободная энциклопедия, в которой <i>каждый</i> может изменить или дополнить любую статью.</p>
Эту проблему можно решить двумя способами.
<[^>]*>
для вышеописанного случая).
Использование ленивых квантификаторов может повлечь за собой обратную проблему, когда выражению соответствует слишком короткая, в частности, пустая строка.
Жадный | Ленивый |
---|---|
*
|
*?
|
+
|
+?
|
{
n
,}
|
{
n
,}?
|
Также общей проблемой как жадных, так и ленивых выражений являются точки возврата для перебора вариантов выражения. Точки ставятся после каждой итерации квантификатора. Если интерпретатор не нашёл соответствия после квантификатора, то он начинает возвращаться по всем установленным точкам, пересчитывая оттуда выражение по-другому.
При поиске выражения
(
a
+
a
+)+
a
в строке
aaaaa
интерпретатор пойдёт приблизительно по следующему пути:
aaaaa
aaaa
aaaa
a
aaa
aaa
aa
aaa
a
aaa
a
a
— и только тут, проверив все точки возврата, остановится.
При использовании ревнивого квантификатора будет выполнен только первый шаг алгоритма.
В отличие от обычной (жадной) квантификации, ревнивая (possessive) квантификация не только старается найти максимально длинный вариант, но ещё и не позволяет алгоритму возвращаться к предыдущим шагам поиска для того, чтобы найти возможные соответствия для оставшейся части регулярного выражения.
Использование ревнивых квантификаторов увеличивает скорость поиска, особенно в тех случаях, когда строка не соответствует регулярному выражению. Кроме того, ревнивые квантификаторы могут быть использованы для исключения нежелательных совпадений.
Жадный | Ревнивый |
---|---|
*
|
*+
|
?
|
?+
|
+
|
++
|
{
n
,}
|
{
n
,}+
|
Пример | Соответствие |
---|---|
ab(xa)*+a
|
abxa
a
bxaa
; но не
abxa
abxaa
, так как буква
a
уже занята
|
Это аналогично .
Одно из применений группировки — повторное использование ранее найденных групп символов ( подстрок , блоков , отмеченных подвыражений , захватов ). При обработке выражения подстро́ки, найденные по шаблону внутри группы, сохраняются в отдельной области памяти и получают номер, начиная с единицы. Каждой подстроке соответствует пара скобок в регулярном выражении.
Обычно поддерживается до 9 нумерованных подстрок с номерами от 1 до 9, но некоторые интерпретаторы позволяют работать с бо́льшим количеством.
Впоследствии в пределах данного регулярного выражения можно использовать обозначения от
\1
до
\9
для проверки на совпадение с ранее найденной подстрокой. В некоторых реализациях вместо бэкслеша используется знак доллара.
Например, регулярное выражение
(та|ту)-\1
найдёт строку
та-та
или
ту-ту
, но пропустит строку
та-ту
.
Квантификация группы трактуется как многократное сохранение подстроки под одним и тем же номером, то есть запоминается последнее вхождение: например, регулярное выражение
(.)+\1
найдёт строку
abcc
, но пропустит
abca
.
Также ранее найденные подстро́ки можно использовать при замене по регулярному выражению. В таком случае в замещающий текст вставляются те же обозначения, что и в пределах самого выражения.
Если группа используется только для группировки и её результат в дальнейшем не потребуется, то можно использовать группировку вида
(?:
шаблон
)
.
Под результат такой группировки не выделяется отдельная область памяти и, соответственно, ей не назначается номер.
Это положительно влияет на скорость выполнения выражения, но понижает удобочитаемость.
Атомарная группировка вида
(?>
шаблон
)
так же, как и группировка без обратной связи, не создаёт обратных связей.
В отличие от неё, такая группировка запрещает возвращаться назад по строке, если часть шаблона уже найдена.
Пример | Соответствие | Создаваемые группы |
---|---|---|
a(bc|b|x)cc
|
abcc
axcc
|
a
b
ccaxcc
|
a(?:bc|b|x)cc
|
abcc
axcc
,
abcc
axcc
|
нет |
a(?>bc|b|x)cc
|
abcc
axcc
но не
|
нет |
a(?>x*)xa
|
не найдётся
axxxa
: все
x
заняты, и нет возврата внутрь группы
|
Атомарная группировка выполняется ещё быстрее, чем группировка без обратной связи, и сохраняет процессорное время при выполнении остального выражения, так как запрещает проверку любых других вариантов внутри группы, когда один вариант уже найден. Это очень полезно при оптимизации групп со множеством различных вариантов.
Это аналогично .
Модификаторы действуют с момента вхождения и до конца регулярного выражения или противоположного модификатора. Некоторые интерпретаторы могут применить модификатор ко всему выражению, а не с момента его вхождения.
Синтаксис | Описание | |
---|---|---|
(?i)
|
Включает | нечувствительность выражения к регистру символов ( англ. case insensitivity ) |
(?-i)
|
Выключает | |
(?s)
|
Включает | режим соответствия точки символам переноса строки и возврата каретки |
(?-s)
|
Выключает | |
(?m)
|
Символы
^
и
$
вызывают соответствие только
|
после и до символов новой строки |
(?-m)
|
с началом и концом текста | |
(?x)
|
Включает |
режим без учёта пробелов между частями регулярного выражения и позволяет использовать
#
для комментариев
|
(?-x)
|
Выключает |
Группы-модификаторы можно объединять в одну группу:
(?i-sm)
.
Такая группа включает режим
i
и выключает режимы
s
и
m
.
Если использование модификаторов требуется только в пределах группы, то нужный шаблон указывается внутри группы после модификаторов и после двоеточия.
Например,
(?-i)(?i:tv)set
найдёт
TVset
, но не
TVSET
.
Для добавления комментариев в регулярное выражение можно использовать группы-комментарии вида
(?#
комментарий
)
.
Такая группа интерпретатором полностью игнорируется и не проверяется на вхождение в текст.
Например, выражение
А(?#тут комментарий)Б
соответствует строке
АБ
.
В большинстве реализаций регулярных выражений есть способ производить поиск фрагмента текста, «просматривая» (но не включая в найденное) окружающий текст, который расположен до или после искомого фрагмента текста. Просмотр с отрицанием используется реже и «следит» за тем, чтобы указанные соответствия, напротив, не встречались до или после искомого текстового фрагмента.
Представление | Вид просмотра | Пример | Соответствие |
---|---|---|---|
(?=
шаблон
)
|
Позитивный просмотр вперёд |
Людовик(?=XVI)
|
ЛюдовикXV,
Людовик
XVI,
Людовик
XVIII, ЛюдовикLXVII, ЛюдовикXXL
|
(?!
шаблон
)
|
Негативный просмотр вперёд (с отрицанием) |
Людовик(?!XVI)
|
Людовик
XV, ЛюдовикXVI, ЛюдовикXVIII,
Людовик
LXVII,
Людовик
XXL
|
(?<=
шаблон
)
|
Позитивный просмотр назад |
(?<=Сергей )Иванов
|
Сергей
Иванов
, Игорь Иванов
|
(?<!
шаблон
)
|
Негативный просмотр назад (с отрицанием) |
(?<!Сергей )Иванов
|
Сергей Иванов, Игорь
Иванов
|
Во многих реализациях регулярных выражений существует возможность выбирать, по какому пути пойдёт проверка в том или ином месте регулярного выражения на основании уже найденных значений.
Представление | Пояснение | Пример | Соответствие |
---|---|---|---|
(?(?=
если
)
то
|
иначе
)
|
Если операция просмотра успешна, то далее выполняется часть
то
, иначе выполняется часть
иначе
. В выражении может использоваться любая из четырёх операций просмотра. Следует учитывать, что операция просмотра нулевой ширины, поэтому части
то
в случае позитивного или
иначе
в случае негативного просмотра должны включать в себя описание шаблона из операции просмотра.
|
(?(?<=а)м|п)
|
ма
м
,
п
ап
|
(?(
n
)
то
|
иначе
)
|
Если
n
-я группа вернула значение, то поиск по условию выполняется по шаблону
то
, иначе по шаблону
иначе
.
|
(а)?(?(1)м|п)
|
м
ам
,
п
а
п
|
В некоторых языках (например, в JavaScript ) реализованы т. н. «флаги», которые расширяют функции RegExp. Флаги указываются после регулярного выражения (порядок флагов значения не имеет). Типичные флаги:
.
(точка) соответствует любой одиночный символ, включая символ новой строки;
/\p{Lu}/
— заглавные буквы.
Флаг указывается после паттерна, например, вот так:
/[0-9]$/
m
.
( англ. basic regular expressions (BRE)). Традиционные регулярные выражения UNIX . Синтаксис базовых регулярных выражений на данный момент определён POSIX 'ом как устаревший, но он до сих пор широко распространён из соображений обратной совместимости. Многие UNIX-утилиты используют такие регулярные выражения по умолчанию.
В данную версию включены метасимволы:
.
;
[
]
;
[^
]
;
^
(действует только в начале выражения);
$
(действует только в конце выражения);
*
;
\{
\}
— первоначальный вариант для
{
}
;
\(
\)
— первоначальный вариант для
(
)
;
\
n
, где
n
— номер от 1 до 9.
Особенности:
[xyz]*
.
\(
блок
\)*
следует считать неправильным. В некоторых случаях оно соответствует нулю или более повторений строки
блок
. В других оно соответствует строке
блок
*
.
^
в набор, его следует поместить туда не первым.
-
в набор, его следует поместить туда первым или последним. Например:
[-0-9a-zA-Z.]
;
[^-0-9]
.
[
или
]
в набор, его следует поместить туда первым. Например:
[][ab]
соответствует
]
,
[
,
a
или
b
.
( англ. extended regular expressions (ERE)). Синтаксис в основном аналогичен традиционному.
{ }
и
( )
.
\
n
.
+
,
?
,
|
.
Perl-совместимые регулярные выражения ( англ. Perl-compatible regular expressions (PCRE)) имеют более богатый синтаксис, чем даже POSIX ERE. По этой причине очень многие приложения используют именно Perl-совместимый синтаксис регулярных выражений.
Unicode
— это набор символов, целью которого является определение всех символов и символов со всех человеческих языков, живых и мёртвых. Регулярные выражения, рассчитанные на множество языков, таким образом не привязываются к конкретным наборам символов, а описывают их согласно принятым правилам. Так, например, выражение для нахождения заглавных букв в любом алфавите будет выглядеть так:
/\p{Lu}/
.
представление | функциональность | |
---|---|---|
возможная краткая форма | возможная полная форма | |
Буквы | ||
\p{L}
|
\p{Letter}
|
любые буквы любого языка |
\p{Ll}
|
\p{Lowercase_Letter}
|
буквы нижнего регистра (строчные) из тех, что имеют прописной вариант написания |
\p{Lu}
|
\p{Uppercase_Letter}
|
буквы верхнего регистра (прописные) для тех, что имеют строчный вариант написания |
\p{Lt}
|
\p{Titlecase_Letter}
|
прописная буква, которая появляется с начала слова из строчных букв |
\p{L&}
|
\p{Cased_Letter}
|
буква, которая имеет как прописной, так и строчный варианты написания |
\p{Lm}
|
\p{Modifier_Letter}
|
специальные символы, которые используются как буквы |
\p{Lo}
|
\p{Other_Letter}
|
символ или идеограмма, которая не имеет прописных и строчных вариантов написания |
Специальные символы | ||
\p{M}
|
\p{Mark}
|
символы, вставленные для комбинирования с другими символами (например акценты, умляуты, оборачивающие скобки) |
\p{Mn}
|
\p{Non_Spacing_Mark}
|
символ, вставленный для комбинирования с другими символами, не занимая дополнительной ширины |
\p{Mc}
|
\p{Spacing_Combining_Mark}
|
символы, вставленные для комбинирования с другими символами, занимая дополнительную ширину (как во многих восточных языках) |
\p{Me}
|
\p{Enclosing_Mark}
|
символы, которые оборачивают символ. Например круг, квадрат и т.п |
Пробелы и разделители | ||
\p{Z}
|
\p{Separator}
|
любые виды пробелов или невидимых разделителей |
\p{Zs}
|
\p{Space_Separator}
|
пробельные символы, которые невидимы, но имеют ширину |
\p{Zl}
|
\p{Line_Separator}
|
символ разделения в виде линии U+2028 |
\p{Zp}
|
\p{Paragraph_Separator}
|
знак параграфа U+2029 |
Математические символы | ||
\p{S}
|
\p{Symbol}
|
математические символы, символы валюты, символы псевдографики (рамки) и т. п. |
\p{Sm}
|
\p{Math_Symbol}
|
любые математические символы |
\p{Sc}
|
\p{Currency_Symbol}
|
любые символы валют |
\p{Sk}
|
\p{Modifier_Symbol}
|
комбинированный символ (пометка) как комбинация самого символа и символа отметки |
\p{So}
|
\p{Other_Symbol}
|
различные символы, не математические, не символы валют или их комбинации |
Цифровые символы | ||
\p{N}
|
\p{Number}
|
любые виды цифровых символов в любых языках |
\p{Nd}
|
\p{Decimal_Digit_Number}
|
цифры от нуля до девятки в любых языках |
\p{Nl}
|
\p{Letter_Number}
|
число, которое может выглядеть как буквы, например как римские числа |
\p{No}
|
\p{Other_Number}
|
число, представленное как верхний или нижний индекс, или число, которое не состоит из цифр (исключая числа из идеографических письменностей) |
Знаки пунктуации | ||
\p{P}
|
\p{Punctuation}
|
любой вид пунктуационных знаков |
\p{Pd}
|
\p{Dash_Punctuation}
|
любой вид дефисов или тире |
\p{Ps}
|
\p{Open_Punctuation}
|
любой вид открывающих скобок |
\p{Pe}
|
\p{Close_Punctuation}
|
любой вид закрывающих скобок |
\p{Pi}
|
\p{Initial_Punctuation}
|
любой вид открывающих кавычек |
\p{Pf}
|
\p{Final_Punctuation}
|
любой вид закрывающих кавычек |
\p{Pc}
|
\p{Connector_Punctuation}
|
пунктуационные символы, такие как знаки подчёркивания или соединения слов |
\p{Po}
|
\p{Other_Punctuation}
|
любые виды пунктуационных символов, что не являются точками, скобками, кавычками или соединителями |
Управляющие символы | ||
\p{C}
|
\p{Other}
|
невидимые управляющие символы и неиспользуемые позиции |
\p{Cc}
|
\p{Control}
|
ASCII или Latin-1 управляющие символы: 0x00-0x1F и 0x7F-0x9F |
\p{Cf}
|
\p{Format}
|
невидимые индикаторы форматирования |
\p{Co}
|
\p{Private_Use}
|
любые позиции, зарезервированные для личного использования |
\p{Cs}
|
\p{Surrogate}
|
половина суррогатных пар в кодировке UTF-16 |
\p{Cn}
|
\p{Unassigned}
|
любые позиции, у которых не назначены символы |
В некоторых случаях регулярные выражения удобно применить для анализа текстовых фрагментов на естественном языке , то есть написанных людьми, и, возможно, содержащих опечатки либо нестандартные варианты употреблений слов. Например, если проводить опрос (допустим, на веб-сайте) «какой станцией метро вы пользуетесь», может оказаться, что «Невский проспект» посетители могут указать как:
Здесь обычные регулярные выражения неприменимы, в первую очередь из-за того, что входящие в образцы слова могут совпадать не очень точно (нечётко), но, тем не менее, было бы удобно описывать регулярными выражениями структурные зависимости между элементами образца, например в нашем случае указать, что совпадение может быть с образцом «Невский проспект» ИЛИ «Канал Грибоедова», притом «проспект» может быть сокращено до «пр» или отсутствовать, а перед «Канал» может находиться сокращение «наб.».
Эта задача сродни полнотекстовому поиску , отличаясь в том, что здесь короткий фрагмент должен сравниваться с набором образцов, а при полнотекстовом поиске, наоборот, образец обычно один, в то время как фрагмент текста очень большой, или задаче разрешения лексической многозначности , которая, однако, не позволяет задать структурирующие отношения между элементами образца.
Существует небольшое количество библиотек , реализующих механизм регулярных выражений с возможностью нечёткого сравнения: