Практическое применение машинного обучения из Ватикана (оцифровка исторических книг)

Проект In Codice Ratio планирует окончательно разобраться архивами Сикстинской Капеллы и перевести в цифровой вид оставшуюся половину исторических книг.
 
Раньше оцифровку этих книг делали с помощью OCR технологии, которая неплохо справляется с распознаванием текста (даже рукописного), но когда речь идет о книгах восьмого века с сотнями вариантов шрифтов, с буквами, которые накладываются друг на друга, OCR уже не справляется. 
 
Нейронная сеть, описанная в документе проекта In Codice Ratio, в отличие от OCR распознает целое слово (опираясь на данные в своей базе знаний), а не пытается его собрать из конкретных символов.
 
Как утверждают в документе, процесс тренировки нейронной сети очень быстр, что особенно важно, так как от века к веку стиль письма сильно менялся и под каждый стиль письма алгоритм нужно тренировать снова.
 
Примечательно, что помимо ученых из Roma Tre University в создании нейронной сети участвовал ученый из организации Vatican Secret Archiv. То есть формально это первая публичная нейронка от Ватикана? 
 
Все работает на TensorFlow, код и детали проекта можно найти тут:
https://www.fastcodesign.com/90170833/ai-is-exposing-the-mysteries-of-the-vatican-secret-archives


  • 0
  • 0
  • 557