Антикейс icontext: как мы пытались добавить товары клиента на визуалы, или почему Midjourney не всесильна

Эксперты агентства icontext, входящего в iConText Group, провели серию тестов Midjourney в попытке заставить нейросеть корректно поместить товары клиента на визуалы. Как это было и что получили по результатам тестирования, читайте в статье.

Артем Попов

Head of New Media агентства icontext (iConText Group)

Не секрет, что с появлением AI для многих бизнесов открылся новый дивный мир возможностей по созданию контента, в первую очередь, визуального. За секунды они получили то, на что у дизайнеров уходили часы или даже дни.

Прогресс? Безусловно. Для тех, кто предлагает услуги, а не физические товары, ведь тогда мы можем силами нейросети визуализировать эту услугу. Но что делать тем, у кого есть конкретные товары и жесткий брендбук? Как применить возможности нейросети, например, Midjourney?

Чтобы ответить на вопрос, мы провели серию тестов в попытке заставить Midjourney корректно поместить товары клиента на визуалы.

Спойлер! Пока у нас ничего не вышло, но мы не оставляем попыток.

Как возникла идея теста

Сама идея теста возникла после обращения одного из наших клиентов из сегмента Fashion. Он хотел понять, можно ли поместить каталожные снимки на уже сгенерированных людей, не прибегая к дополнительным ухищрениям и услугам дизайнеров.

Вопрос был не праздный, так как клиент уже столкнулся с определенными сложностями, связанными с быстрым формированием каталогов одежды, одетой на разных людей.

Тогда мы решили протестировать возможности нейросетей. За основу взяли Midjourney как самую удобную и быструю сеть, максимально корректно рисующую лица людей и фигуры на момент первой половины 2023 года.

Соединяем два изображения в одно

Сначала мы протестировали подход с базовой моделью. Для этого с помощью нейросети создали «базовую девушку», в простом белом платье, чтобы в дальнейшем работать с этим изображением. Белый цвет выбрали как максимально контрастирующий с другими, чтобы нейросеть могла корректно отделить один тип одежды от другого.

Затем выбрали несколько вариантов одежды одного из наших клиентов. Взяли разные модели, но их всех объединяло одно — контрастность. Среди прочего в тесте были куртки, комбинезоны, а также такие банальные сочетания одежды, как джинсы и легкий свитер.

Сначала применили команду Blend, которая позволяет бесшовно соединить два изображения в одно. Загрузили все в нейросеть и отдали ей на откуп без корректировок.

Как видите, результаты можно лишь частично назвать корректными. Например, с комбинезоном сеть справилась вполне неплохо. Но все равно продолжала убирать или дорисовывать детали, добавляя воротники, изменяя размер, тип карманов и форму пояса.

Даже после уточняющих запросов (промтов) ситуация не изменилась. Вероятно, несмотря на все возможности компьютерного зрения, нейросеть все еще не может полностью повторить фото товара и частично продолжает дорисовывать детали.

Если посмотреть на комбинацию «джинсы и свитер», то тут сеть полностью не справилась. Мы получили очень странные изображения. И ситуация не изменилась, несмотря на дополнительные уточняющие детали.

Неплохо получилось передать текстуру и цвет пиджака.

Загружаем фото товаров с уточняющим промтом

Когда мы поняли, что история с командой Blend не дает нужного эффекта, то попробовали загрузить фото товара с уточняющим промтом для генерации. В итоге получили более предсказуемые результаты, процент нелепых и странных фото уменьшился. Это связано с тем, что не было второй фотографии, которая путала нейросеть, заставляя добавлять на изображение странные элементы.

Тот же комбинезон сеть вполне корректно поместила на сгенерированного человека почти без изменений.

Неплохо при таких запросах сеть справилась с кожаной курткой — помогла простая текстура и понятная форма.

Однако, когда дело дошло до сложных текстур, например, вязанной ткани, у сети начались проблемы: она не всегда корректно генерирует мелкие детали.

Причем иногда получались совсем странные и неожиданные результаты, несмотря на максимально корректный промт. Вот яркий пример обработки фото, на котором были представлены джинсы и свитер.

Как видим, результаты стали лучше, хотя иногда все равно получаются достаточно странные изображения.

В качестве резюме данного теста хотел отметить несколько вещей:

1. Нейросети, безусловно, — полезное изобретение человеческого гения, расширяющее наши возможности до невероятного уровня.

2. Несмотря на всю мощь технологий, иногда достаточно тривиальные задачи могут ставить нейросеть в тупик. Подчеркну, на сегодня.

3. Учитывая невиданный прогресс в области обучаемых моделей, могу предположить, что проблема надевания чего-либо на сгенерированное изображение человека, равно как и передача в руки какого-то товара, — вопрос самого короткого времени.

Тем не менее, на сегодня можно констатировать, что тест все же не удался. Так что ждем обновления нейросети MidJourney, чтобы снова ее протестировать.

*Данная статья написана БЕЗ использования ChatGPT 4.0.

Больше полезного контента — в нашем Telegram-канале Business Diving. Подписывайтесь!