Как искусственный интеллект создает изображение из ничего?
На этой неделе стало известно, что компания Open AI, создавшая и разработавшая ChatGPT, выпустит новый инструмент генеративного ИИ под названием DALL-E 3, который будет использоваться для генерации изображений. DALL-E 3 (в честь сочетания художника Сальвадора Дали и персонажа Wall-E компании Pixar) будет доступен с октября для подписчиков ChatGPT Plus и Enterprise через их API, исследовательские лаборатории получат доступ осенью, однако они не сообщили, когда он будет доступен для широкой публики. Но как же тогда работает инструмент искусственного интеллекта, создающий изображения из ничего? Во-первых, история начинается с того, что группа экспертов или исследователей загружает в компьютерную систему сотни миллионов изображений, обычно взятых из самого Интернета. Каждое изображение сопрягается с соответствующим описанием, так что компьютер учится определять взаимосвязи между изображениями и словами. Предположим, вы выбрали бенгальского тигра. После обработки изображений и соответствующего текста модель искусственного интеллекта начинает сопоставлять слова "бенгальский тигр" с визуальным представлением бенгальского тигра. Здесь очень важно пояснить, что модель хороша лишь настолько, насколько хороши ее обучающие данные. Это означает, в частности, что предвзятость, присутствующая в Интернете, может проявляться в результатах поиска, например, при указании "мировой лидер" в результатах появляются только изображения белых мужчин. Предположим теперь, что человек, использующий эту систему, просит "луну ночью" в стиле уругвайского художника Хосе Кунео. Модель искусственного интеллекта создает внутреннюю карту понятий, преобразуя изображения и текст в числа и присваивая некоторым ассоциациям более высокую вероятность (например, игра на гитаре часто предполагает использование рук). Хотя ИИ, возможно, никогда не найдет изображение бенгальского тигра в ночном небе Хосе Кунео, теперь он обучен интерпретировать базу данных слов и изображений и создавать изображение, которое в точности соответствует нашим запросам. И здесь происходит любопытная вещь: исследователи добавляют в набор данных этих изображений "шум", т.е. визуальный беспорядок. Визуальный шум представляет собой картину из случайных точек или пикселей, похожую на телевизионные помехи. Эти помехи выступают в качестве наложения, заслоняющего исходное изображение. Исследователи добавляют все больше и больше шума, чтобы обучить модель распознавать, что на базовом изображении все еще присутствует бенгальский тигр. Эта модель известна как "диффузионная модель" машинного обучения, и большинство популярных генераторов текста в изображения используют именно ее. Затем инструмент искусственного интеллекта учится "извлекать" изображение из-под всего этого шума. Со временем ИИ становится настолько хорош в "обесшумливании" изображений, что приобретает способность генерировать детальное изображение из чистого шума. Это кажется замечательным, но существует ряд этических проблем, которые необходимо решить. Первый связан с предубеждениями, о которых я говорил ранее, и воспроизводством моделей, с которыми мы хотим бороться. Второе - это то, что используемые для обучения наборы данных в очень многих случаях включают изображения, защищенные авторским правом, работы художников и фотографов. Это, в частности, стало причиной возникновения судебных исков с требованием удалить их из учебных изображений или выплатить денежную компенсацию за использование их работ. Об этом и других дилеммах, которые ставит перед нами искусственный интеллект, мы поговорим в других колонках.