Южная Америка

Технология раскрывает стертую историю древних рукописей, которые были использованы повторно

Технология раскрывает стертую историю древних рукописей, которые были использованы повторно
В 1229 году священник Йоханнес Миронас не нашел лучшего носителя для записи своих молитв, чем старый 300-летний пергамент с греческими текстами и формулировками, которые ему ничего не говорили. В то время любой материал для письма был роскошью. Он стер содержание, скопированное анонимным писцом в том, что сегодня является Стамбулом, разрезал страницы, сложил их пополам и присоединил к другим пергаментам, чтобы написать свои молитвы. В 2000 году команда из более чем 80 экспертов из Музея искусств Уолтерса в Балтиморе (США) взялась за расшифровку того, что изначально было в палимпсесте (древней рукописи со следами искусственно стертого предыдущего текста), и после пяти лет усилий раскрыла после пяти лет усилий обнаружила копию трактатов Архимеда, таких как «Метод механических теорем», имеющих основополагающее значение для классической и современной математики. Исследование, проведенное в Испании и опубликованное в журнале Mathematics, предлагает формулу для чтения измененных оригиналов с помощью искусственного интеллекта, что сэкономит и сэкономило бы огромный труд по раскрытию скрытых и поврежденных текстов. Применение этой технологии выходит за рамки стертой истории. «Наука не была единственной, кто пострадал от этой практики: в Ватиканской библиотеке хранится текст христианского теолога, который стер библейские фрагменты, написанные более 1500 лет назад, чтобы выразить свои мысли. Несколько греческих медицинских трактатов были расшифрованы после букв византийской литургии. Список длинный, но он мог бы быть еще длиннее, если бы восстановление этих оригиналов не было столь сложным». Как объясняют авторы исследования, опубликованного в журнале Mathematics, Хосе Луис Сальмерон и Ева Фернандес Палоп, первоначальные тексты палимпсестов имеют механические, химические и оптические изменения, которые требуют использования сложных технологий, таких как мультиспектральная визуализация, компьютерный анализ, рентгеновская флуоресценция и томография, для их восстановления. Но даже эти дорогостоящие методы дают частичные и ограниченные результаты. «Чтобы преодолеть этот разрыв между оригиналом и измененным текстом, «недавние достижения в области искусственного интеллекта (ИИ), особенно в области машинного обучения и глубокого обучения, продемонстрировали значительный потенциал для улучшения усвоения данных и количественной оценки неопределенности», — пишут авторы. Их модель позволяет генерировать синтетические данные для точного моделирования ключевых процессов деградации и преодолевать недостаток информации, содержащейся в объекте. Она также дает лучшие результаты по сравнению с традиционными моделями, основанными на мультиспектральных изображениях, и позволяет проводить исследования с использованием обычных цифровых изображений. «Сальмерон, профессор ИИ в Университете Cunef, исследователь в Автономном университете Чили и руководитель Stealth AI Startup, объясняет, что исследование возникло по предложению Евы Фернандес Палоп, которая работает над диссертацией о палимпсестах. Исследователь тогда подумал о возможности применения новых компьютерных технологий. « Преимущество нашей системы заключается в том, что мы можем контролировать любой аспект этих систем, такой как уровень деградации, цвета, языки... и это позволяет создать базу данных по запросу со всеми возможностями», — объясняет Сальмерон. «Они работали с текстами на сирийском, кавказском албанском и латинском языках с результатами, превосходящими результаты классических систем. Исследование включает в себя разработку алгоритма, который может быть использован любым исследователем. Потому что эта разработка не ограничивается историческими документами, а выходит за их рамки. «Эта двойная сетевая структура особенно подходит для задач, связанных с шумными, частично видимыми или перекрывающимися шаблонами данных», — поясняет исследователь. Такие условия встречаются в области медицинской визуализации, дистанционного зондирования, биологической микроскопии или промышленных систем контроля, не исключая криминалистическую экспертизу изображений и документов. «Она также применима в области кибербезопасности и разработки моделей обучения для искусственного интеллекта. «Компании могут генерировать высококачественные и безопасные для конфиденциальности наборы данных для обучения моделей ML [языковых моделей], создания прототипов решений или моделирования операций, не рискуя конфиденциальной информацией и не ожидая чистых данных из реального мира. «Если вы работаете с записями о медицинском обслуживании, финансовых транзакциях, поведении клиентов или любыми конфиденциальными табличными данными, это кардинально меняет ситуацию», — объясняет Сальмерон. Сами исследователи признают ограничения предлагаемого метода исследования палимпсестов: «Эффективность подхода снижается при обработке чрезвычайно размытых текстов с уровнем контрастности менее 5 %, когда важная информация в штрихах становится неотличимой от шума пергамента. Кроме того, эффективность модели зависит от тщательного баланса на этапе обучения, поскольку неравномерное представление систем письма может исказить изученные характеристики». «Тем не менее, эти ограничения только побуждают продолжить начатую работу не только для преодоления обнаруженных барьеров, но и для применения в других областях».