Система распознавания рукописных химических схем

живи без страха logo
Основная информация
01/
Клиент
Задача
«Химрар» — российская фармацевтическая компания.
Разработать программу для распознавания рукописных химических схем.
В штате компании «Химрар» много химиков:
регулярно разрабатывают новые молекулы
перерисовывают молекулы из научных статей
Запрос от ученых:
Хотелось бы быстро переводить рукописные наброски в цифровую версию.
Итог разработки
Чат-бот, возвращающий цифровое представление молекул.
Результатом модели клиент остался доволен.
Принцип работы
02/
Химик рисует молекулу
Фотографирует рисунок
Отправляет в телеграм бот
Получает цифровое представление молекулы
Формат
03/
SMILES-представление — общепринятая спецификация состава и структуры химического вещества.
Из SMILES-представления легко однозначно восстановить молекулу
в редакторе.
Наша программа — работает на произвольных молекулах (существующих и только что придуманных). Нет привязки к базе.
Цифры проекта
04/
Год разработки
Длительность разработки
Набор данных для обучения модели
месяца
молекул
При заявленном качестве 70%, получили - 80% имея небольшой объем исходных данных.

Суть навыка

Критерий качества
05/
Полностью корректно распознанная молекула.
По результатам разработки:
Правильно собранные молекулы
Практически правильно
Неправильно
Этапы разработки
06/
сегментация
сборка молекулы
извлечение атомов
извлечение связей
проверка наличия связи между атомами
построение
Сложности, с которыми столкнулись
07\
Иногда между атомами очень короткое ребро, поэтому на маске сегментации два соседних атома могут слиться в один
Бензольные кольца содержат чередующиеся одинарные и двойные связи. Если наша модель некорректно определяла хотя бы один тип связи, то чтобы восстановить бензольное кольцо, приходилось добавлять дополнительную постобработку
Разные разметчики — разные наборы классов
Если неправильно распознаны атом/связь, молекула не строится
Некоторые элементы встречались слишком редко в обучающей выборке, поэтому на тесте они плохо обнаруживались
Мы выступали с этим проектом
на конференции Big Data Conference.

Интересный факт

Команда проекта
07/
Data scientist
Data scientist
Data scientist
Эмиль Магеррамов
Артем Кондюков
Влад Виноградов
Где можно применить наработки
09/
Чертежи
Электросхемы
Карты местности
Напишите нам