Meta AI Llama 3.1: практический опыт: лучше, чем ChatGPT и Claude?

Содержание

Вчера компания Meta представила свою новейшую модель искусственного интеллекта — Llama 3.1. На первый взгляд, это итеративное обновление модели Llama 3. Однако Meta утверждает, что эта новая модель превзойдет все текущие модели, включая GPT-4 и даже Клод 3.5 Сонет , когда дело доходит до тестов. Чтобы опробовать это, мы углубились в Llama 3.1 от Meta AI, чтобы проверить, как она сочетается с ChatGPT и Claude.

Что такое Llama 3.1 от Meta AI

В ChatGPT использовалась модель искусственного интеллекта третьего поколения, называемая GPT или генеративные предварительно обученные трансформаторы, которые представляют собой языковые модели и платформы, предназначенные для выполнения широкого спектра задач. Точно так же модель ИИ, лежащая в основе Meta AI, — это Llama. Для каждой новой версии Llama Meta обычно выпускает три варианта для разных целей. В Llama 3.1 вы можете выбирать модели с параметрами 8B, 70B и 405B.

Параметр 8B : легкая и сверхбыстрая модель, которую можно использовать где угодно.
Параметр 70B : сбалансированная модель, сочетающая скорость и производительность.
Параметр 405B : модель высокой производительности, полезная для сложных задач.

Модель Llama 3.1 405B находится на одном уровне с GPT 4o и Claude 3.5 Sonnet и даже превосходит такие категории, как математика и длинный контекст.

А их версии 8B и 70B превосходят по производительности Gemma 2 9B и GPT 3.5 Turbo соответственно.

Поскольку Llama — это модель с открытым исходным кодом, она совершенно бесплатна для всех. Вы можете скачать модель и использовать ее офлайн без каких-либо ограничений. Разработчики также могут бесплатно интегрировать Llama 3.1 в свои приложения, если их приложения имеют менее 70 миллионов пользователей. Для сравнения: создание модели ИИ с такими же возможностями может стоить более 100 миллионов долларов.

Основные особенности Llama 3.1

Превосходство в контрольных показателях: Особенно в математике, рассуждениях и широком контексте.
Открытый исходный код: Llama 3.1 бесплатна и имеет открытый исходный код, в отличие от других моделей, у которых есть ограничение на количество сообщений в день.
Удобство для разработчиков. Позволяет тонкую настройку, что делает его лучшим выбором для разработчиков, желающих интегрировать искусственный интеллект в свои приложения или веб-сайты.
Безопасность и конфиденциальность. Поскольку Llama 3.1 можно запускать локально, она обеспечивает повышенную конфиденциальность и безопасность по сравнению с облачными моделями искусственного интеллекта. Конфиденциальные данные никогда не должны покидать ваше устройство, но это применимо только тогда, когда вы загружаете модель на свое устройство и запускаете ее локально.

Сравнение Llama 3.1 с Claude и ChatGPT

Я сравнил Meta AI (вариант параметра Llama 3.1 405B) с моделями ChatGPT (GPT4o) и Claude (3.5 Sonnet) по различным аспектам, таким как генерация кода, скорость, навыки рассуждения и т. д. Для версии 405B я использовал Обнимающее лицо app, поскольку веб-сайт Meta AI использует модель параметров 70B. Вот результаты:

1. Генерация кода

Я попросил Meta AI (вариант Llama 3.1 405B), ChatGPT 4 и Claude 3.5 Sonnet создать игру-змейку с использованием Python, включая систему оценок.

Use Pygame library and write the code for snake game in Python, including the score system.

В этом первом тесте производительность Meta оказалась разочаровывающей по сравнению с ChatGPT и Claude. Модель Meta создала код с 3–4 ошибками в именах, которые мне пришлось исправлять вручную. Даже после исправления этих ошибок я не мог управлять змеей с помощью клавиатуры. После нескольких попыток сгенерировать и исправить код мне наконец удалось запустить игру. Но в нем по-прежнему отсутствовала система подсчета очков.

С другой стороны, ChatGPT и Claude создали код, который работал без проблем и включал запрошенную систему оценки. Игра Клода в целом была лучшей, с более плавным управлением по сравнению с версией ChatGPT, в которой управление было немного привередливым. В целом, Claude — лучшая модель искусственного интеллекта для кодирования, поскольку ее пользовательский интерфейс часто является чистым, а также предоставляет возможность предоставлять больше инструкций и улучшать код с помощью функции артефактов.

Мы повторили тесты кодирования с использованием JavaScript и других языков. Хотя результаты Meta иногда совпадали с результатами других моделей, генерация кода была неудачной. Я также протестировал генерацию кода с меньшими вариантами Llama 3.1 8B и 70B, и результат оказался хуже, чем ожидалось. В частности, модель 8B часто выдавала результат, который зацикливался, сколько бы раз я ни пытался.

2. Написание историй и электронных писем

С выпуском Claude 3.5 Sonnet Claude стал лучшей моделью для создания человеческих текстов и историй. Он по-прежнему считается лучшим выбором для подобных работ.

С другой стороны, ChatGPT хорошо подходит для создания статей, тем и аналогичного контента. Стиль письма Меты часто кажется странным, и его сложно настроить с помощью подсказок.

Однако эти предпочтения могут быть субъективными, поэтому я рекомендую вам попробовать все три модели самостоятельно, поскольку вы можете протестировать их бесплатно. Одной из примечательных возможностей Meta AI является его способность писать 10 предложений, заканчивающихся определенным словом. Хотя это может показаться простым, другие языковые модели, такие как Claude и ChatGPT, с трудом справляются с этой задачей.

3. Проверка навыков рассуждения

Meta AI превзошла Claude и ChatGPT в тестах по категориям рассуждений и длинного контекста. Это говорит о том, что он должен намного лучше разгадывать загадки или понимать сложные вопросы. Чтобы проверить это, я загадал несколько загадок и провел тесты на моделях. Вот пример загадки, которую я дал в качестве подсказки:

You are blindfolded and 10 coins are placed in front of you. You can touch, but can't tell which side is up. There are 5 heads and 5 tails. Can you make two piles with the same number of heads? You can flip the coins any number of times.

В ходе нашего тестирования все три сервиса работали одинаково.

Однако мы заметили, что Meta AI чаще дает точные ответы при решении сложных математических задач по сравнению с другими вариантами. Вот один пример вопроса о функциях и графиках, который я задал всем трем моделям:

Given the function f(x)=2x3−3x2+x−5f(x) = 2x^3 - 3x^2 + x - 5f(x)=2x3−3x2+x−5, find the points where the graph intersects the x-axis.

В то время как другие чат-боты успешно решали даже сложные функциональные проблемы, Meta AI была единственной моделью, которая точно ответила на вопрос, а также предоставила подробные инструкции.

4. Разговорные навыки

Самым большим недостатком Meta AI является отсутствие достаточных разговорных способностей. Meta больше фокусируется на создании языковой модели с открытым исходным кодом для разработчиков, а не на чат-боте с искусственным интеллектом, ориентированном на потребителя. В результате его тон часто бывает мягким и роботизированным. С другой стороны, Claude придерживается более человеческого подхода, а ChatGPT находится где-то посередине.

Однако когда дело доходит до запоминания контекста темы, Meta AI и Claude превосходят ChatGPT. Это становится очевидным при предоставлении серии команд ИИ. Хотя и Клод, и Meta AI могут следовать всем инструкциям, ChatGPT часто забывает старые инструкции или пытается правильно включить новые.

5. Повышение скорости

Когда дело доходит до скорости, Meta AI, несомненно, берет верх. Его вариант параметров с 8B — это самая быстрая модель искусственного интеллекта, генерирующая результаты за доли секунды, будь то создание таблиц, поиск информации или создание шаблона электронной почты. Эта модель с параметрами 8B может быть менее эффективной при решении математических задач или задач по кодированию, но во многих задачах она так же эффективна, как и другие модели, такие как ChatGPT 3.5 Turbo или Gemini 1.5 Flash.

Я рекомендую использовать вариант Llama 3.1 8B для сайт Грока, , который ориентирован на максимально быстрое получение результатов. Хотя официальных данных о скорости вывода нет, но Грок утверждает, что скорость составляет около 450 токенов в секунду.

6. Локальный запуск без ограничений

Поскольку Llama — это модель с открытым исходным кодом, вы можете настроить или взломать ее, чтобы получать результаты без цензуры. Больше, чем варианты параметров 405B и 70B, меня интересует вариант 8B, потому что он настолько легкий, что я могу запустить его даже на своем MacBook. Однако генерация результатов может замедлиться, если на вашем ноутбуке недостаточно оперативной и видеопамяти.

Вы можете загрузить модели ИИ непосредственно с веб-сайта Meta AI. Они предоставляют вам модель ИИ, с которой вы можете взаимодействовать либо из Терминала с помощью команд, либо интегрируя ее в свое приложение. Кроме того, вы можете загрузить модели Llama 3.1 из Приложение LM Studio. . Это приложение позволяет загружать модели искусственного интеллекта с открытым исходным кодом, включая Llama 3.1 от Meta, и предоставляет интерфейс чат-бота для взаимодействия с ними. Эта настройка полностью локальна, и вы можете отключить Интернет, если хотите. По умолчанию модель не взломана и не может предоставить все ответы без цензуры. При необходимости вы можете настроить модель, но этот процесс может оказаться немного техническим.

Лама 3.1 лучше других моделей?

Модель 8B удивляет своей скоростью, но в остальном Llama 3.1 не лучше GPT-4 или Claude 3.5 Sonnet по большинству аспектов. Однако Meta AI бесплатен и имеет открытый исходный код, в отличие от других моделей, у которых есть ограничение на количество сообщений в день. Если вы разработчик, желающий внедрить искусственный интеллект в свое приложение или веб-сайт, Llama 3.1 — лучший выбор, поскольку он позволяет вам точно настроить модель, чего на данный момент нет в других моделях.