ПРОЕКТ 2025 ГОДА

Разработка приложения по оцифровке и атрибуции кириллических рукописных текстов с применением методов компьютерного зрения и мультимодальных моделей

Никишин Андрей Павлович

Никишин Андрей Павлович

Руководитель

Магистрант Высшей школы цифровой культуры

Исполнители

Коробковский Вадим Андреевич

Вдовиченко Михаил Сергеевич

Нематов Азизилло Тахирович

Мамаева Анастасия Сергеевна

Графеева Наталья Генриховна

Графеева Наталья Генриховна

Научный консультант

Кандидат физико-математических наук, доцент Высшей школы цифровой культуры

ОПИСАНИЕ

Проект направлен на сохранение исторической ценности и культурного наследия посредством оцифровки исторических документов. Он включает в себя оцифровку рукописей и их атрибуцию по писцовым школам и историческим периодам. В рамках проекта планируется создать многофункциональную платформу, которая позволит не только оцифровывать исторические документы, но и автоматически распознавать текст на загруженных изображениях. Основными инструментами станут методы компьютерного зрения, основанные на мультимодальных подходах. Библиотека Российской академии наук выразила заинтересованность в системе и станет одним из ее первых пользователей. Внедрение искусственного интеллекта позволит значительно упростить работу историков и архивистов, что и обусловило интерес со стороны библиотеки.

ХАРАКТЕРИСТИКИ


МодельМетрикаТребование
Модель оцифровкиКачество (CER), %≤ 6

Вес модели, Мб≤ 2048

Время отклика, сек≤ 40 
Модель атрибуцииКачество (Precision@10), %≥ 80

Качество (NDCG@5), %≥ 60

Вес модели, Мб≤ 1024

Время отклика, сек≤ 20


1. Библиотеки и архивы: автоматизация процессов оцифровки и анализа исторических документов.

2. Научные исследователи: анализ и атрибуция рукописей для историков и лингвистов, которые занимаются изучением кириллических текстов.

3. Образовательные учреждения: университеты и научные центры могут использовать платформу в учебных целях, например, для обучения студентов работе с историческими документами.

1. Тонкая настройка: использование мультимодальных моделей, обученных на кириллических документах XI-XV в., позволит достичь высокой точности распознавания.

2. Атрибуция текстов: платформа будет в формате рекомендательной системы определять документы, относящиеся определенным письменным школам или историческому периоду, что значительно упростит работу научных исследователей и сотрудников библиотек и архивов.

3. Возможность интеграции с архивными системами: платформа будет разработана с учетом потребностей историков, архивистов и библиотекарей, предлагая интуитивно простой и понятный интерфейс.

4. Автоматизация процессов: внедрение разрабатываемой системы позволит значительно сократить время, требуемое для проведения тщательного анализа документов, что повысит эффективность работы научных исследователей и сотрудников библиотек и архивов.