Smile Empty Soul
- 1 year ago
- 0
- 0
SMILES ( Simplified Molecular Input Line Entry System , с англ. — «система упрощённого представления молекул в строке ввода») — система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с использованием строки символов ASCII . Название в английском языке является омонимом к слову smiles ( улы́бки ), однако пишется только заглавными буквами. В русском языке однозначного аналога не имеет, рекомендуется употребление на языке оригинала. Произносится как «смайлз».
Строка символов, составленная по правилам SMILES, может быть преобразована многими молекулярными редакторами в двумерную или трёхмерную структурную формулу молекулы .
Первоначальный вариант спецификации SMILES был разработан (Arthur Weininger) и (David Weininger) в конце 1980-х . В дальнейшем стандарт был модифицирован и расширен; наиболее активное участие в этой работе приняла компания Daylight Chemical Information Systems, Inc. [ источник не указан 263 дня ] .
В изначальной спецификации SMILES отсутствуют правила, касающиеся способа построения записи и способа различения пространственных изомеров молекул. Для решения этих проблем были разработаны расширения стандарта:
В терминах теории графов SMILES представляет собой строку, полученную путём вывода символов вершин молекулярного графа в порядке, соответствующем их обходу в глубину . Первоначальная обработка графа включает в себя удаление атомов водорода и разбивку циклов таким образом, чтобы получившийся граф представлял собой остовный лес . Местам разбиения графа ставятся в соответствие числа, показывающие наличие связи в исходной молекуле. Для указания точек ветвления молекулы используются скобки .
Атомы
обозначаются символами химических элементов в
квадратных скобках
, например,
золото
обозначается как
[Au]
. Для элементов-органогенов (
B
,
C
,
N
,
O
,
P
,
S
,
F
,
Cl
,
Br
,
I
) скобки могут быть опущены. В этом случае атомы водорода можно не указывать в явном виде, если их число соответствует наименьшей нормальной
валентности
в соответствии с явно заданными связями. Атомы в составе
ароматических циклов
обычно записываются строчными буквами вместо прописных, хотя в некоторых диалектах SMILES применяется явное чередование двойных и одинарных связей (как в
структурной формуле
бензола, предложенной
Кекуле
). При необходимости указать формальный заряд частицы атомы водорода и символ заряда записываются в явном виде
. Изотопы записываются в квадратных скобках с указанием атомного веса перед символом атома, например, изотоп
13
C будет записан как
[13C]
.
Например, запись SMILES для
воды
будет выглядеть как
O
, для
этанола
—
CCO
.
Гидроксильный
анион
записывается
[OH-]
, а ион
железа (II)
как
[Fe+2]
.
Одинарная химическая связь может быть записана с использованием символа
-
между атомами, соединёнными связью, но на практике это не применяется, символ
дефиса
опускают. Обозначение ароматической связи (
:
) обычно тоже опускают.
Двойная связь
обозначается с помощью
знака равенства
, например,
двуокись углерода
записывается в виде
O=C=O
.
Тройная связь
обозначается с помощью
октоторпа
, например,
синильная кислота
записывается как
C#N
.
Боковые цепи молекулы заключаются в
круглые скобки
. Например,
пропионовая кислота
записывается как
CCC(=O)O
. Каноническая форма записи
трифторметана
выглядит как
C(F)(F)F
, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как
FC(F)F
.
Атомы, находящиеся на концах разорванной при построении остовного леса связи, обозначаются одним и тем же номером. Например,
циклогексан
записывается как
C1CCCCC1
, а
бензол
— как
c1ccccc1
.
Конфигурация относительно
двойной связи
записывается при помощи символов
/
и
\
. Например,
F/C=C/F
соответствует
транс
-
, а
F/C=C\F
или
F\C=C/F
соответствует
цис
-дифторэтилену (см. рис.).
SMARTS — модификация SMILES, которая позволяет использовать неупорядоченную структуру атомов и связей. Широко используется в системах поиска в базах данных о веществах. Практика применения вызвала распространённое заблуждение, что в компьютерном поиске структур производится сравнение записей-цепочек, в то время как производится гораздо более производительное сравнение графов, построенных на основании формул SMILES.
Среди остальных линейных нотаций стоит выделить (WLN), и ( ). В начале 2000-х годов IUPAC предложил InChI в качестве стандарта для линейного представления формул. SMILES имеет преимущества перед InChI , в частности, лучшее восприятие формул человеком, а также более простая программная поддержка в связи с наличием обширной теоретической базы на основе теории графов .
Формула SMILES может быть преобразована в двухмерную структурную формулу при помощи алгоритма (Structure Diagram Generation algorithms), разработанного Хелсоном . Преобразование не всегда даёт однозначный результат. Преобразование в трехмерную структурную формулу производится с использованием принципа минимальной энергии образования вещества.