Разработать программу для распознавания рукописных химических схем.
В штате компании «Химрар» много химиков:
регулярно разрабатывают новые молекулы
перерисовывают молекулы из научных статей
Запрос от ученых:
Хотелось бы быстро переводить рукописные наброски в цифровую версию.
Чат-бот, возвращающий цифровое представление молекул.
Итог разработки
Результатом модели клиент остался доволен.
Принцип работы
02/
Химик рисует молекулу
Фотографирует рисунок
Отправляет в телеграм бот
Получает цифровое представление молекулы
Формат
03/
SMILES-представление — общепринятая спецификация состава и структуры химического вещества.
Из SMILES-представления легко однозначно восстановить молекулу в редакторе.
Наша программа — работает на произвольных молекулах (существующих и только что придуманных). Нет привязки к базе.
Цифры проекта
04/
Год разработки
Длительность разработки
Набор данных для обучения модели
месяца
молекул
При заявленном качестве 70% мыполучили 80%, имея небольшой объем исходных данных.
Интересный факт
Критерий качества
05/
Полностью корректно распознанная молекула.
По результатам разработки:
Правильно собранные молекулы
Практически правильно
Неправильно
Этапы разработки
06/
сегментация
сборка молекулы
извлечение атомов
извлечение связей
проверка наличия связи между атомами
построение
Сложности, с которыми столкнулись
07\
Иногда между атомами очень короткое ребро, поэтому на маске сегментации два соседних атома могут слиться в один
Бензольные кольца содержат чередующиеся одинарные и двойные связи. Если наша модель некорректно определяла хотя бы один тип связи, то чтобы восстановить бензольное кольцо, приходилось добавлять дополнительную постобработку
Некоторые элементы встречались слишком редко в обучающей выборке, поэтому на тесте они плохо обнаруживались
Разные разметчики — разные наборы классов
Если неправильно распознаны атом/связь, молекула не строится
Мы выступали с этим проектом на конференции Big Data Conference.