Магистрант факультета информационных технологий Новосибирского государственного университета Степан Гудков создал программный комплекс для автоматического распознавания рукописных исторических документов. Как сообщает пресс-служба вуза, разработка предназначена для оцифровки решений волостных крестьянских судов, действовавших в России в начале XX века, и направлена на введение в научный оборот сотен тысяч уникальных свидетельств о быте сибирского крестьянства.
В архивах Сибири хранятся десятки тысяч страниц таких судебных книг, написанных от руки. Их ручная расшифровка - крайне трудоёмкий процесс. На подготовку книги с несколькими сотнями решений у историков уходит около трёх лет. Новый алгоритм на основе машинного зрения призван радикально ускорить эту работу.
«Хотя это и документы суда, но на самом деле это не про суд, это про жизнь в разнообразных её проявлениях. … Это фотографический портрет крестьянской России, которая потом ушла», - цитирует пресс-служба старшего научного сотрудника Института истории СО РАН Алексея Кириллова.
Разработка ведётся под руководством профессора кафедры общей информатики ФИТ НГУ Владимира Барахнина. Система разбивает изображение страницы на строки и символы, используя нейросетевые модели, а затем преобразует последовательность рукописных знаков в печатный текст. Ключевая сложность - разнообразие почерков, дореволюционная орфография и нестандартное оформление документов.
Сейчас создан алгоритм, обучающий нейросети распознавать слова на уровне символов. Дальнейшая доработка, как отметил Владимир Барахнин, предполагает создание интеллектуального редактора, который будет предлагать варианты правки сложных слов, а окончательное решение останется за экспертом-историком.
В перспективе на основе технологии планируется создать публичную информационную систему с контекстным поиском. Это позволит исследователям и всем интересующимся легко находить дела по сёлам, персонам или категориям.
Фото: volsud.sibistorik.ru