Классификатор сканов книжных страниц
Классификатор сканов книжных страниц
Классификатор сканов книжных страниц
Классификатор сканов книжных страниц
Классификатор сканов книжных страниц
Классификатор сканов книжных страниц

клиент

МТС AI, Московский физико-технический институт (МФТИ)

время работы

2025 - Настоящее время

ПРИ СОЗДАНИИ ИСПОЛЬЗОВАЛОСЬ

Python, EasyOCR, PyTorch, EfficientNet-B0, TF-IDF, CNN, MLP, REST API, GPU

Информация

Проект был разработан в 2025 году в рамках форума Всероссийской олимпиады студентов «Я — профессионал» по искусственному интеллекту, математике и физике от МТС AI и МФТИ для решения актуальной проблемы — ручной классификации сложных случаев выпускных данных книжных изданий.

По результатам форума занял 1-е место.

Библиотеки, архивы, издательства и индивидуальные пользователи (студенты, преподаватели, научные сотрудники) тратят значительное время на определение типов страниц (обложка, титул, оборот титула, колофон), что снижает скорость каталогизации и повышает риск ошибок.

Целью проекта стало создание автоматизированной системы распознавания типов страниц книжных изданий с использованием OCR и компьютерного зрения. В результате работы была разработана гибридная нейросетевая модель MultiModalClassifier, объединяющая CNN (EfficientNet-B0) для визуальных признаков и MLP для текстовых признаков, извлечённых через EasyOCR и TF-IDF. Точность модели на валидационном наборе достигла 97%.

Ошибки классификации минимизированы за счёт комбинирования визуального и текстового анализа, а также возможности ручной корректировки результатов через веб-интерфейс. Система поддерживает загрузку изображений (PDF/JPEG), автоматическое распознавание, редактирование типов страниц и экспорт данных. Для организаций предусмотрено API для интеграции с существующими системами.