Новосибирская студентка Анна Мурашкина создала приложение для анализа тибетских текстов на основе ИИ

1 минута
В Сибири разработали систему для распознавания и оцифровки старых рукописей на тибетском языке
Новосибирская студентка Анна Мурашкина создала приложение для анализа тибетских текстов на основе ИИ

Студентка Новосибирского госуниверситета Анна Мурашкина разработала систему автоматического распознавания классического тибетского письма. Технология, созданная в Институте вычислительной математики СО РАН, предназначена для оцифровки старопечатных документов и рукописей XVIII-XX веков.

Актуальность проекта обусловлена критической необходимостью сохранения тибетского культурного наследия. В фондах Института монголоведения, буддологии и тибетологии (ИМБТ) СО РАН хранится около 70 тысяч уникальных документов по философии, религии, медицине и истории. Эти хрупкие бумажные носители, включая рукописи и гравюры, подвержены разрушению.

Целью исследования сибирской студентки стало создание модели машинного обучения, превосходящую по точности существующие решения в распознавании сложной тибетской графики. Для этого Анна вручную разметила строки текста из архивов ИМБТ СО РАН, разработала специализированную систему оценки качества распознавания (OCR) с учетом особенностей письма и выбрала и дообучила модель сверточной нейронной сети на размеченных данных.

Результатом стал полный модульный алгоритм OCR, обрабатывающий изображения от предобработки до постобработки.

Разработка будет использоваться сотрудниками ИМБТ СО РАН для оцифровки своего архива. Также ведутся переговоры о сотрудничестве с Буддистским центром цифровых технологий для масштабной оцифровки документов из монастырей и храмов. 

Фото: пресс-служба НГУ

👍 0
👎 0
☺️ 0
😲 0
😔 0
😡 0