Аделия Альбертовна, расскажите, пожалуйста, подробнее о коэффициенте Танимото и конкретно, каким образом он используется в качестве метрики? По какой причине не удалось подобрать алгоритм синтеза для 10 из 15 молекул и как можно улучшить предложенный алгоритм?
Уважаемая Татьяна, коэффициент Танимото отражает насколько одна молекула похожа на другую и изменяется в пределах от 0 до 1. Он расчитывается на основе молекулярных отпечатков — бинарных строк, которые кодируют отдельные структурные фрагменты молекулы (С=С, С=О, С-С-С и т.д.). Танимото равен 0, если две молекулы не имеют общих фрагментов, и 1 — если фрагменты совпадают. Таким образом, чем выше коэффициент Танимото, тем более высоким сходством обладают структуры. На рисунке 4 видим, что при Танимото=0.96 полученный продукт структурно похож на целевую молекулу (бевантолол), он отличается лишь орто-положением метокси-радикалов и дополнительным фрагментом CH2NHCH2.
Алгоритм предсказал путь для 5 молекул из 15 за определенное количество итераций. Это говорит о том, что база данных реакционных правил содержала подходящие трансформации для того, чтобы в конечном итоге получить целевую молекулу, а так же необходимые строительные блоки. Для оставшихся 10 молекул причин может быть несколько: недостаточно шагов итерации для получения пути синтеза конкретной молекулы (это зависит и от сложности молекулы, в том числе), необходимый реагент для определенной стадии мог отсутствовать в базе данных строительных блоков, и, возможно, что среди имеющихся реакционных правил не нашлось того самого, которое могло привести к целевой молекуле. Алгоритм можно улучшить внедрением в него методов машинного обучения, например, нейронной сети, которая будет предсказывать второй реактант для проведения двухкомпонентной химической реакции. Также планируется валидация реакционных правил, которые были извлечены автоматически.
Аделия Альбертовна, расскажите, пожалуйста, подробнее о коэффициенте Танимото и конкретно, каким образом он используется в качестве метрики? По какой причине не удалось подобрать алгоритм синтеза для 10 из 15 молекул и как можно улучшить предложенный алгоритм?
Уважаемая Татьяна, коэффициент Танимото отражает насколько одна молекула похожа на другую и изменяется в пределах от 0 до 1. Он расчитывается на основе молекулярных отпечатков — бинарных строк, которые кодируют отдельные структурные фрагменты молекулы (С=С, С=О, С-С-С и т.д.). Танимото равен 0, если две молекулы не имеют общих фрагментов, и 1 — если фрагменты совпадают. Таким образом, чем выше коэффициент Танимото, тем более высоким сходством обладают структуры. На рисунке 4 видим, что при Танимото=0.96 полученный продукт структурно похож на целевую молекулу (бевантолол), он отличается лишь орто-положением метокси-радикалов и дополнительным фрагментом CH2NHCH2.
Алгоритм предсказал путь для 5 молекул из 15 за определенное количество итераций. Это говорит о том, что база данных реакционных правил содержала подходящие трансформации для того, чтобы в конечном итоге получить целевую молекулу, а так же необходимые строительные блоки. Для оставшихся 10 молекул причин может быть несколько: недостаточно шагов итерации для получения пути синтеза конкретной молекулы (это зависит и от сложности молекулы, в том числе), необходимый реагент для определенной стадии мог отсутствовать в базе данных строительных блоков, и, возможно, что среди имеющихся реакционных правил не нашлось того самого, которое могло привести к целевой молекуле. Алгоритм можно улучшить внедрением в него методов машинного обучения, например, нейронной сети, которая будет предсказывать второй реактант для проведения двухкомпонентной химической реакции. Также планируется валидация реакционных правил, которые были извлечены автоматически.
Да, вот как раз хотела Вам про нейронные сети написать, спасибо за подробный ответ!