Imagen 3 против DALL-E 3: 11 подсказок для тестирования каждого ИИ-художника

Содержание

Несколько месяцев назад Google представила Imagen 3, новое поколение генератор текста в изображение , находящееся на этапе бета-тестирования на платформе ImageFX. Теперь она доступна каждому в рамках Гугл Близнецы. Google утверждает, что новая модель может создавать очень подробные и реалистичные изображения и более точно следовать подсказкам. Итак, мы протестировали Imagen 3, сравнив его с DALL-E 3 от OpenAI, искусственным интеллектом, генерирующим изображения в ChatGPT.

Мы дали одинаковые подсказки Imagen 3 и Dall-E 3, чтобы протестировать их по различным показателям, включая возможности рендеринга текста, стили анимации, ракурсы камеры и даже способность следовать подсказкам. Вот результаты нашего сравнения, показывающие, какая модель ИИ в целом работает лучше.

Примечание. Во всех приведенных ниже примерах Imagen 3 находится слева, а DALL-E 3 — справа.

1. Реалистичный городской уличный тест

Мы начали с создания реалистичной сцены городской улицы, чтобы оценить, как модели обрабатывают освещение и отражения. Вот запрос, который мы предоставили обеим моделям:

Generate a realistic photo of a bustling city street at sunset, with reflections on wet pavement, capturing realistic lighting and shadows.

И вот результаты.

С самого начала вы можете видеть, что DALL-E 3 ChatGPT с трудом создает реалистичные изображения. Хотя ему удается генерировать отражения, изображение по-прежнему кажется анимированным. Это справедливо и для всех последующих подсказок. DALL-E 3 имеет тенденцию создавать изображения, которые кажутся более анимированными по сравнению с Imagen 3 или MidJourney .

2. Тест угла камеры и композиции кадра

Далее мы хотели оценить, насколько хорошо каждый ИИ может отслеживать ракурсы камеры и предлагать варианты кадров. Мы предоставили обеим моделям следующую подсказку:

Generate an image of a dog playing fetch in a park, a low-angle ultra-wide shot with the ball mid-air.

Хотя мне нравится качество результата Gemini, DALL-E 3 от ChatGPT более точно следовал рекомендациям, захватывая перспективу камеры под низким углом и сверхширокоугольный снимок. Gemini также последовали рекомендациям по ракурсу камеры, но в целом ChatGPT работал лучше, сохраняя заданные ракурсы и композиции кадров.

3. Тест тона кожи человека

Получить правильные оттенки кожи человека непросто даже для MidJourney, которая известна тем, что создает реалистичные изображения людей, но часто испытывает трудности со снимками крупным планом. Чтобы протестировать возможности Imagen 3 и Dall-E 3, мы предоставили следующую подсказку:

Generate a close-up portrait of an elderly woman with wrinkles and glasses, in natural lighting with a blurred background.

Как и ожидалось, DALL-E 3 от ChatGPT создал изображение, которое выглядит анимированным. Хотя результат Gemini был сравнительно лучше, все же было легко понять, что изображение было создано искусственным интеллектом.

4. Тест стиля рисования

Все три предыдущих примера были направлены на создание реалистичных изображений, что не учитывало сильные стороны DALL-E 3. Чтобы оценить, насколько хорошо оба генератора изображений AI могут создавать изображения в стиле рисования, мы предоставили следующую подсказку:

Generate a floating island in the sky with waterfalls cascading into the clouds, in the style of a surrealist painting

Обе модели хорошо справились с этой подсказкой. DALL-E 3 от ChatGPT создал изображение с более сложными деталями и ярким блеском, тогда как Gemini добился результата, который казался мягким в более сплоченном художественном стиле. Хотя оба имеют свои сильные стороны, выбор между ними может сводиться к предпочтению либо детальных, резких образов (DALL-E 3), либо более смешанной, сказочной эстетики (Близнецы).

Но Gemini на самом деле лучше последовали подсказке, создав изображение, больше похожее на картину, и удачно изобразив водопады, ниспадающие в облака. Однако создается впечатление, что у ChatGPT есть свой стиль, и по какой-то причине ему нравится его придерживаться.

5. Понимание абстрактных концепций

Далее мы проверили, насколько хорошо модели интерпретируют абстрактные концепции. Вот один из примеров приглашения, который мы предоставили:

Generate an image that shows the feeling of happiness represented as an abstract explosion of colorful swirls and shapes.

Очень сложно объявить победителя в этой категории, но лично мне больше нравится результат ChatGPT Dall-E 3. В большинстве случаев результат Gemini Imagen 3 на самом деле противоречит тому, который я предоставил, но у вас может быть другое мнение.

6. Стиль 2D-анимации и создание мультяшных изображений

Мы также проверили способность моделей создавать изображения в стиле 2D-анимации и в мультяшном стиле. Вот пример запроса из наших тестов:

Generate an image of a 2D animation-style panda character, holding an umbrella in a rainstorm, with raindrops bouncing off the umbrella.

Хотя я ожидал, что ChatGPT преуспеет в этой области, я сразу же столкнулся с трудностями при создании 2D-изображений с помощью ChatGPT. Первоначально он создавал изображения в стиле 3D-анимации, и только после повторного запроса он создавал 2D-изображения. Эта проблема возникала несколько раз в разных примерах, поэтому мы рассматриваем 2D-анимацию, созданную после нескольких запросов.

Gemini часто создает 2D-изображения с большей детализацией, а ChatGPT имеет тенденцию преобразовывать 2D-изображения в более мультяшные изображения. В конце концов, выбор между ними зависит от ваших личных предпочтений и стиля, который вы ищете. Мы предпочитаем ChatGPT, поскольку он выглядит в 2D, как мы и предлагали.

7. Создание реальных людей

Мы также проверили, могут ли Imagen-3 и Dall-E 3 создавать изображения с участием реальных людей, таких как Илон Маск или Дональд Трамп. Однако обе модели не способны генерировать изображения реальных людей. Хотя Gemini сразу заявляет, что не может создавать изображения с реальными людьми, ChatGPT сначала пытается создавать изображения в различных настройках, а затем в конечном итоге заявляет, что не может создавать изображения реальных людей.

8. Тест исторических личностей

Раньше генератор изображений Gemini столкнулся с противоречиями не создавал изображения белых людей. Он создавал изображения цветных людей, даже когда давались подсказки типа «Отцы-основатели Америки». Чтобы увидеть, как работает новая модель, мы использовали ту же подсказку:

Generate a portrait of a founding father of America.

Похоже, что эта проблема решена, поскольку обе модели во время наших тестов создавали изображения, которые были точными и соответствовали историческим изображениям.

9. Тест рендеринга текста

Затем мы протестировали возможности рендеринга текста, поскольку многие модели часто создают трудночитаемый или бессмысленный текст. И Google, и OpenAI утверждают, что их модели улучшились в этой области, поэтому мы использовали следующую подсказку:

Generate an image of a brick wall covered with graffiti, with the word 'TechWiser' in vibrant colors and a grungy style.

В этом примере обе модели правильно отобразили текст. Однако, если в подсказке не указан точный текст, обе модели по-прежнему испытывают трудности. Например, с помощью этого приглашения:

An open book lying on a wooden table, with its pages clearly visible and well-lit. The words should be clear enough to read.

DALL-E 3 от ChatGPT не смог точно отобразить текст, создав неразборчивые слова, а Gemini отклонилась от подсказки, сделав текст на страницах менее заметным, часто скрывая или размывая его.

10. Подробный быстрый тест

Наконец, мы проверили, насколько хорошо оба генератора изображений AI следуют подсказкам, содержащим множество конкретных деталей. Вот пример подробного приглашения, которое мы использовали:

Generate an image of a young female warrior with short, silver hair and piercing blue eyes, wearing intricately designed armor made of dark metal with red accents. She is holding a double-edged sword with runes engraved along the blade. A small scar runs across her left cheek. Behind her, a twilight sky fades from deep purple to orange, with the silhouette of a ruined castle in the distance. She stands on a rocky cliff with a black wolf by her side, its eyes glowing in the dim light.

Обе модели хорошо справились с этой сложной подсказкой, но были заметные различия в том, как они обрабатывали детали. В DALL-E 3 от ChatGPT не хватает нескольких элементов, таких как шрам на левой щеке и красные акценты на броне. Кроме того, персонаж не был изображен держащим меч, как указано.

Gemini уловила каждую деталь, включая шрам, красные акценты и точный градиент сумеречного неба от фиолетового до оранжевого, что позволило более точно интерпретировать подсказку.

11. Редактирование в Paint

ChatGPT может создавать изображения, но с его помощью вы также можете редактировать изображения. Чтобы отредактировать изображение, выберите сгенерированное изображение, нажмите кнопку рисования и выберите часть, которую вы хотите изменить или отредактировать. Затем вы можете предоставить подсказку, и изменения появятся только в этой конкретной части. Например, вот изображение линии горизонта, которое я создал с помощью ChatGPT.

Но теперь, если я предпочитаю оранжевое и яркое небо, я могу выбрать часть неба и предоставить подсказку, чтобы сделать небо ярким. Вот отредактированное изображение.

Подобное редактирование изображений в Google Gemini пока невозможно. Кроме того, Imagen 3 генерирует изображения намного медленнее, чем DALL-E 3.

Imagen 3 превосходит DALL-E 3

Imagen 3 отлично справляется с созданием более реалистичных изображений и может настраивать стиль анимации в соответствии с подсказками. Напротив, DALL-E 3 от ChatGPT имеет тенденцию придерживаться своего собственного стиля, даже когда запрашиваются разные стили. Однако у ChatGPT есть свои преимущества — он лучше отслеживает ракурсы и перспективы камеры, а также может редактировать сгенерированные изображения.

Оба инструмента искусственного интеллекта могут генерировать изображения даже в бесплатная версия , но с такими ограничениями, как:

невозможно создавать изображения с реальными людьми.
дневной лимит на количество изображений, которые они могут создать

Прошли те времена, когда изображения, созданные с помощью искусственного интеллекта, имели бросающиеся в глаза проблемы, например, у персонажей с 10 пальцами на одной руке. Большинство изображений, созданных с помощью этих моделей, теперь являются точными, что делает их ценными инструментами для создателей контента.

Gemini Live против ChatGPT 4o Режим голосового чата: наш опыт