Увеличить / Эти зазубренные разноцветные блоки — именно то, на что похожа концепция сжатия изображений.

Бендж Эдвардс / Ars Technica

+

На прошлой неделе швейцарский инженер-программист Маттиас Бюльманн обнаружил, что популярная модель синтеза изображений Stable Diffusion может сжимать существующие растровые изображения с меньшим количеством визуальных артефактов, чем JPEG или WebP, при высоких коэффициентах сжатия.

Стабильная диффузия — это модель синтеза изображений ИИ, которая обычно генерирует изображения на основе текстовых описаний (называемых «подсказками»). Модель ИИ научилась этой способности, изучая миллионы изображений, вытащенных из Интернета. В процессе обучения модель создает статистические ассоциации между изображениями и связанными словами, создавая гораздо меньшее представление ключевой информации о каждом изображении и сохраняя их как «веса», которые представляют собой математические значения, которые представляют то, что модель изображения ИИ знает, так сказать.

Когда Stable Diffusion анализирует и «сжимает» изображения в весовую форму, они находятся в том, что исследователи называют «скрытым пространством», что является способом сказать, что они существуют как своего рода нечеткий потенциал, который может быть реализован в изображения после их декодирования.

В Stable Diffusion 1.4 файл весов занимает примерно 4 ГБ, но он представляет собой информацию о сотнях миллионов изображений.

+

Увеличить / Примеры использования Stable Diffusion для сжатия изображений.

В то время как большинство людей используют Stable Diffusion с текстовыми подсказками, Бюльманн вырезал текстовый кодировщик и вместо этого прогнал свои изображения через процесс кодирования изображений Stable Diffusion, который берет низкоточное изображение 512×512 и превращает его в более точное скрытое 64×64. космическое представление.

На данный момент изображение существует с гораздо меньшим размером данных, чем оригинал, но его все еще можно расширить (декодировать) обратно в изображение 512×512 с довольно хорошими результатами.

Во время тестов Бюльманн обнаружил, что изображения, сжатые с помощью Stable Diffusion, субъективно выглядели лучше при более высоких коэффициентах сжатия (меньшем размере файла), чем JPEG или WebP. В одном примере он показывает фотографию кондитерской, сжатую до 5,68 КБ с помощью JPEG, 5,71 КБ с помощью WebP и 4,98 КБ с помощью Stable Diffusion. Изображение Stable Diffusion, по-видимому, имеет больше деталей и меньше очевидных артефактов сжатия, чем изображения, сжатые в других форматах.

+

Увеличить / Экспериментальные примеры использования Stable Diffusion для сжатия изображений. Результаты SD находятся в крайнем правом углу.

Однако в настоящее время метод Бюльмана имеет существенные ограничения: он плохо работает с лицами или текстом, а в некоторых случаях он может на самом деле галлюцинировать детализированные детали в декодированном изображении, которых не было в исходном изображении. (Вероятно, вы не хотите, чтобы ваш компрессор изображения изобретал детали в несуществующем изображении.) Кроме того, для декодирования требуется файл весов стабильной диффузии объемом 4 ГБ и дополнительное время на декодирование.

Хотя такое использование Stable Diffusion является нетрадиционным и скорее забавным, чем практическим решением, оно потенциально может указать на новое будущее использование моделей синтеза изображений.

Код Бюльмана можно найти тут, а более подробную техническую информацию об его эксперименте вы найдете в его посте на Towards AI.