Чили ищет исчезнувших во времена диктатуры Пиночета с помощью искусственного интеллекта

В понедельник 15, на открытии Конгресса будущего в Сантьяго, президент Габриэль Борич заявил, что искусственный интеллект, тема 13-й версии встречи, "будет играть важную роль в поиске наших исчезнувших заключенных". Он имел в виду план поиска более 1000 человек, ставших жертвами диктатуры Аугусто Пиночета (1973-1990), который его администрация представила 30 августа 2023 года, накануне празднования 11 сентября 50-й годовщины переворота, в результате которого был свергнут президент-социалист Сальвадор Альенде. План, возглавляемый министром юстиции Луисом Кордеро, представляет собой инициативу, которая должна стать постоянной государственной политикой. По данным министерства юстиции, в Чили после диктатуры было 1469 жертв насильственных исчезновений, из них 1092 - исчезнувшие заключенные, а 377 казненных находятся в таком же состоянии. На данный момент удалось установить личности только 307 человек. Кордеро рассказал EL PAÍS, что для проведения этого нового поиска, который уже проводился судами, он работает с двумя основными источниками. С одной стороны, судебные расследования, которые насчитывают миллионы страниц. А с другой - административные записи по делам, которые разбросаны по государственным учреждениям. Среди них - созданная в 1997 году Программа по правам человека, входящая в состав Министерства юстиции, а также старые расследования военных прокуратур (которые обычно закрывали дела) и материалы, послужившие основой для доклада Комиссии по установлению истины и примирению 1991 года, подготовленного бывшим президентом Патрисио Эйлвином (1990-1994), в котором впервые были приведены данные о жертвах. Компания Unsholster, специализирующаяся на анализе данных, науке о данных и разработке программного обеспечения, генеральным директором которой является инженер-строитель Антонио Диас-Араухо, занимается технологическим анализом информации, которую уже оцифровала Программа по правам человека, а также оцифровала 80% материалов судебной системы. В рамках Плана поиска фирма получила проект на тендере: она отвечает за применение искусственного интеллекта. Важным фактом в этой работе является то, что судебные файлы, разделенные для каждого дела, были обработаны в старой чилийской системе правосудия (измененной в 2005 году), что означает, что запросы судей находятся на бумаге: большинство из них имеют страницы, сшитые вручную, чтобы сделать блокнот, напечатанные на машинке, и есть даже несколько рукописных частей. Они содержат заявления, черно-белые фотографии, ксерокопии фотографий, заключения экспертов и старые полицейские отчеты. Но, кроме того, более актуальной информационной базой для анализа станут судебные расследования, которые с 2000 года, когда были возобновлены сотни дел, закрытых во времена диктатуры, проводятся судьями, занимающимися исключительно делами о нарушениях прав человека с вынесением приговоров. Кордеро отмечает, что "в руках государства находится огромное количество информации, и нет человеческих возможностей для ее обработки, поскольку ее необходимо связать друг с другом. Например, есть свидетельства, которые есть в одних файлах и нет в других. Кроме того, в зависимости от судей существовали разные направления расследования, поэтому в них могла быть справочная информация, которая была полезна для одних и не полезна для других". По этой причине он считает, что искусственный интеллект может сыграть решающую роль, поскольку, по его словам, в таких случаях перекрестные ссылки на информацию будут иметь ключевое значение. "Вся эта информация находится между судебными и административными делами, и оцифровка, в первую очередь, позволяет объединить их в одном месте. А затем работать с искусственным интеллектом, который позволяет нам сократить пробелы в расследовании с помощью алгоритмов, которые сейчас тестируются и которые считывают, например, даты, имена, места в этих файлах", - добавляет министр. В настоящее время Unsholster находится на стадии предпроекта, до того, как начнется программирование, сказал Диас-Араухо в интервью EL PAÍS. "Но мы уже затронули большую часть типов архивов, которые нам предстоит обработать", - говорит он. Поступающие документы, ранее отсканированные лист за листом, находятся в папках, в формате PDF, поэтому в них нет логики, позволяющей искать данные, так как они записаны в виде изображений. Поэтому первым делом мы начали применять технологию OCR (оптического распознавания символов), чтобы преобразовать их в данные. Например, у них уже есть информация - которая еще не включает тысячи файлов в судебной системе - в количестве 46 768 PDF-файлов, что соответствует более чем 4,7 миллиона страниц. "Если бы человек читал каждую из этих страниц вслух, не понимая и не соотнося факты, он бы читал по восемь часов в день в течение 27 лет", - объясняет инженер-строитель. Как только эти файлы превращаются в страницы, говорит Диас-Араухо, "создается большое дерево классификации, которое позволяет классифицировать листы с изображениями, рукописями, машинописными или словесными файлами. А затем начать применять к каждому из них наилучший OCR" для каждого типа страницы, поскольку ключевым, добавляет он, является то, "какой материал попадает на ту или иную страницу". Другой этап заключается в создании различных типов словарей и сущностей, "которые учатся по мере использования", объясняет он. Например, прозвища людей, места, улицы (многие из них изменили названия со времен диктатуры), способы написания и даты. Это подразумевает, объясняет он, создание топологии сущностей при чтении каждого из текстов с помощью технологии, "которая способна быстро соотнести различные страницы, людей, места и даты очень гибким способом". Он поясняет: "У многих преступников могут быть прозвища, а некоторые из них могут быть написаны по-разному, но это не значит, что они не будут связаны. Вы создаете технологию, которая способна предложить аналитику другие взаимосвязи с течением времени". Поэтому, добавляет он, "существует искусственный интеллект в классификации документов; высокий интеллект в преобразовании документов из изображения в данные для поиска, а также, что немаловажно, в создании сущностей, которые позволяют нам соединять одни документы с другими". И, наконец, самое необходимое в платформе - это то, что она основана на возможности конкуренции алгоритмов, искусственного интеллекта или нет, на этих данных. Но она не должна быть привязана к одной технологии, потому что самый большой ключ - быть открытой для новых технологий будущего. Если вы оставите ее закрытой, она станет камнем преткновения". Он добавляет: "Еще один ключ к этой платформе заключается в том, что исходные данные и преобразованные данные остаются. Но вы можете продолжать создавать другие данные поверх этих. Не существует машины времени, которая бы заморозила возможность создавать больше алгоритмов и больше информации с помощью новых платформ завтра". Спустя пять месяцев после того, как технология начала применяться к почти 47 000 документов в программе Unsholster по правам человека, с помощью первых OCR-систем для идентификационных документов стало возможным найти тысячи упоминаний по крайней мере четырех военных, которые входили в состав тайной полиции Пиночета, ужасной DINA. Мануэль Контрерас, ее генеральный директор, приговоренный на момент смерти в 2015 году к 526 годам тюрьмы за сотни преступлений, упоминается 2800 раз; Педро Эспиноза и Мигель Красснофф, отбывающие наказание в тюрьме Пунта-Пеуко, упоминаются 2 079 и 2 954 раза, соответственно. А Марсело Морен Брито, который был мучителем Анхелы Херии, матери бывшего президента-социалиста Мишель Бачелет, - 2 284. Пока это только упоминания. Но с этого момента имена, факты, даты и места могут быть связаны между собой, говорит Диас-Араухо.