Студент Новосибирского государственного университета Степан Гудков научил нейросеть читать архивы сибирских крестьянских судов

1 минута
Разработанное в Новосибирском госуниверситете программное обеспечение автоматизирует распознавание рукописных решений волостных судов начала XX века, открывая доступ к уникальным свидетельствам крестьянской жизни Сибири
Студент Новосибирского государственного университета Степан Гудков научил нейросеть читать архивы сибирских крестьянских судов

Магистрант факультета информационных технологий Новосибирского государственного университета Степан Гудков создал программный комплекс для автоматического распознавания рукописных исторических документов. Как сообщает пресс-служба вуза, разработка предназначена для оцифровки решений волостных крестьянских судов, действовавших в России в начале XX века, и направлена на введение в научный оборот сотен тысяч уникальных свидетельств о быте сибирского крестьянства.

В архивах Сибири хранятся десятки тысяч страниц таких судебных книг, написанных от руки. Их ручная расшифровка - крайне трудоёмкий процесс. На подготовку книги с несколькими сотнями решений у историков уходит около трёх лет. Новый алгоритм на основе машинного зрения призван радикально ускорить эту работу.

«Хотя это и документы суда, но на самом деле это не про суд, это про жизнь в разнообразных её проявлениях. … Это фотографический портрет крестьянской России, которая потом ушла», - цитирует пресс-служба старшего научного сотрудника Института истории СО РАН Алексея Кириллова.

Разработка ведётся под руководством профессора кафедры общей информатики ФИТ НГУ Владимира Барахнина. Система разбивает изображение страницы на строки и символы, используя нейросетевые модели, а затем преобразует последовательность рукописных знаков в печатный текст. Ключевая сложность - разнообразие почерков, дореволюционная орфография и нестандартное оформление документов.

Сейчас создан алгоритм, обучающий нейросети распознавать слова на уровне символов. Дальнейшая доработка, как отметил Владимир Барахнин, предполагает создание интеллектуального редактора, который будет предлагать варианты правки сложных слов, а окончательное решение останется за экспертом-историком.

В перспективе на основе технологии планируется создать публичную информационную систему с контекстным поиском. Это позволит исследователям и всем интересующимся легко находить дела по сёлам, персонам или категориям.

Фото: volsud.sibistorik.ru

👍 0
👎 0
☺️ 0
😲 0
😔 0
😡 0