+

Исследователи нашли новое применение искусственному интеллекту (ИИ) — теперь он помогает историкам восстанавливать древние документы. Новое программное обеспечение назвали Ithaca (Итака) в честь родины Одиссея, древнегреческого героя, отличавшегося, как известно, умом и сообразительностью. Чтобы «научить» нейросеть работать с древними документами, специалисты загрузили в нее более 78 тысяч древнегреческих надписей. Каждая из них сопровождалась данными о времени и месте создания.

Ithaca ищет в имеющихся текстах закономерности, а затем использует их для оценки других текстов. Исследователи утверждают, что ИИ может восстановить утраченные фрагменты текста: от государственных указов до произведений Сафо.

Проблема неполных древних текстов затрагивает многие дисциплины, в которых специалисты работают с деградировавшими материалами. Первоначальный документ может быть сделан из камня, глины или папируса, написан на аккадском, древнегреческом или линейном письме и описывать что угодно, от счета бакалейщика до путешествия героя. Что их всех объединяет, так это ущерб, накопленный за тысячи лет.

Пробелы, в которых текст стерт или оторван, часто называют лакунами, и они могут быть как отсутствующей буквой, так и целой главой.

Обученный огромной библиотеке древнегреческих текстов, Итака (названный в честь родного острова Одиссея) не только может сказать, каким может быть пропущенное слово или фраза, но также может определить, сколько ему лет и где оно было написано.

Статья, опубликованная в журнале Nature, демонстрирует ее действенность на примере некоторых декретов из Афин Перикла. Считалось, что они были написаны примерно в 445 г. до н.э., Итака предположила на основе своего текстового анализа, что на самом деле они были написаны примерно в 420 г. до н.э..

+

Результаты исследования показывают, что Ithaca достигла 62% точности, когда работала самостоятельно и 72% точности вместе с историком, что примерно в три раза выше, чем когда историки работали в одиночку.

Вы можете протестировать урезанную версию Итаки здесь, если у вас под рукой есть какой-нибудь древнегреческий текст с пробелами, или использовать один из предоставленных ими примеров. Для более длинных частей или если в вашем фрагменте пропущено более 10 букв, то попробуйте в этом блокноте Colab. Код доступен на этой странице GitHub .

Хоть Итака была разработана для распознования древнегреческого языка, но команда уже усердно работает и над другими языками. Аккадский, демотический, иврит и майя - все в списке, и, надеюсь, со временем будет добавлено больше.

«Итака иллюстрирует потенциальный вклад обработки естественного языка и машинного обучения в гуманитарные науки»,

— сказал Ион Андруцопулос, профессор Афинского университета, работавший над проектом.

«Нам нужно больше таких проектов, как Итака, чтобы еще больше продемонстрировать этот потенциал, а также подходящие курсы и учебные материалы для обучения будущих исследователей, которые будут лучше понимать как гуманитарные науки, так и методы ИИ».