Действительно ли OpenAI o1 лучше, чем ChatGPT-4o? Давайте сравним

Содержание

Недавно появился OpenAI выпустила новую модель o1 (также известный как Strawberry), посвященный рассуждениям и логике. В некоторых областях, таких как математика, естествознание и программирование, он значительно превосходит GPT-4o. Однако GPT-4o по-прежнему имеет свои преимущества и сильные стороны по сравнению с новой моделью o1. Для доступа к обеим моделям ChatGPT требуется Подписка ChatGPT плюс . В этой статье модели ChatGPT 4o и o1 рассматриваются с помощью различных подсказок для решения различных проблем, чтобы определить, какая модель лучше подходит для конкретных задач. Итак, начнем.

1. Кодирование

Давайте начнем наши тесты с кодирования. В качестве примера я привел скрипт Python с несколькими ошибками, неэффективными методами решения задачи и проблемами, не позволяющими ему генерировать выходные данные. Я передал этот код как o1 Strawberry, так и GPT-4o, используя следующую подсказку.

Review the code and correct any errors or omissions. Optimize all functions for better efficiency, using comments to understand and implement any missing functionality. Ensure the purpose of the {main} function is clear and fully realized. Focus strictly on code improvements without adding extra documentation or deviating from the original code's intent.

Результаты оказались весьма неожиданными. Код, сгенерированный GPT 4o, не смог выдать результат, но ему удалось исправить 90% ошибок. Напротив, модель o1 создала идеально работающее решение. Кроме того, код модели o1 был более кратким, в нем использовались функции списков и расширенные присваивания.

Примечательно, что он также автоматически добавил основную функцию, которой не было в версии GPT 4o. Однако интересный момент заключается в том, что в то время как GPT 4o импортировал только необходимые компоненты, модель o1 импортировала весь модуль heapq. Хотя этот подход по-прежнему эффективен, он менее элегантен.

Модель o1

Модель GPT 4o

Возможно, это связано с тем, что изначально мы тестировали модели искусственного интеллекта с помощью простой программы корзины покупок. Чтобы дополнительно оценить их возможности, мы снова протестировали их с более сложным кодом, включающим многопоточность, машинное обучение и сложные структуры данных, такие как графики и деревья. В этом коде было еще больше ошибок, и он был крайне неэффективен.

И здесь модель o1 действительно проявила себя. В то время как GPT 4o удалось исправить около 40-50% ошибок, модель o1 снова исправила их все. Кроме того, GPT 4o никоим образом не повысил эффективность; сгенерированный код по-прежнему использовал неэффективные методы многопоточности, полагался на базовую модель, такую как MLPClassifier, для обнаружения мошенничества и не настраивал какие-либо модели машинного обучения. Напротив, модель o1 прекрасно реализовала все эти аспекты.

Модель GPT 4o

У нас есть несколько интересных Советы по ChatGPT для программистов , которые помогут вам получить больше от подсказок ИИ.

2. Создание электронных писем, заданий, статей и т. д.

На втором этапе тестирования мы сосредоточились на создании различных текстов: от простых электронных писем до статей на 2000 слов. В данном случае обе модели дали одинаковые результаты, что затрудняет ранжирование одной над другой. Причина проста: модель o1 превосходно справляется с задачами, требующими рассуждений высокого уровня, тогда как создание электронных писем и заданий может эффективно выполняться с помощью стандартных языковых моделей. Например, результаты теста вы можете увидеть на скриншоте ниже.

Модель o1

Модель GPT 4o

Хотя результат был аналогичным, GPT 4o генерировал текст в три раза быстрее, чем модель o1. Модель o1, возможно, провела внутреннюю цепочку размышлений, тратя больше времени на размышления и анализ, но для таких задач, как генерация текста, GPT 4o — лучший выбор с точки зрения скорости. Кроме того, поскольку в модели o1 доступно только 30 сообщений в неделю, практичнее зарезервировать ее для более сложных задач, а не для рутинного создания текста.

3. Создание сценариев, публикаций в социальных сетях и идей

Хотя создание простых электронных писем и статей может не требовать серьезных рассуждений, можно предположить, что от этого выиграет творческий контент. Однако это не обязательно так. Например, при создании случайного сценария или публикации в социальных сетях модель o1 не показывает каких-либо существенных преимуществ, за исключением того, что она медленнее. Однако если ваши требования точны и включают длинный список инструкций, модель o1 работает немного лучше.

Например, я предоставил обеим моделям статью на 2000 слов и попросил их создать ветку в Твиттере. Я также попросил его соблюдать ограничение на количество символов, использовать короткие формы в Твиттере и использовать разговорный и дружелюбный тон, чтобы генерировать больше кликов по ссылке. Было также несколько других второстепенных инструкций.

Модель o1

Модель GPT 4o

Как видите, модель GPT 4o полностью игнорировала ограничение на количество символов в Twitter. Я также указал не включать хэштеги, но модель GPT 4o также не следовала этой инструкции. Кроме того, в версию o1 добавлены необходимые теги изображений, чтобы поддерживать интерес аудитории. Хотя это может показаться не похожим на проблемы, связанные с рассуждениями, модели o1 требуется время, чтобы провести цепочку мыслей в фоновом режиме, придавая больший вес всем вашим инструкциям в своем ответе.

Просмотрев цепочку мыслей автора, вы увидите, что он думал о том, как написать так, чтобы получить больше кликов. Таким образом, даже если вы генерируете текст, но у вас длинный список инструкций, которым версия GPT 4o не полностью соответствует, модель o1 определенно может прийти на помощь.

4. Документы, PDF-файлы, изображения и другие файлы

GPT 4o может идентифицировать объекты и элементы на изображениях, суммировать документы и PDF-файлы, а также легко обрабатывать различные типы загрузки файлов. Однако в модели o1 в настоящее время отсутствует возможность загрузки файлов. Как только переходишь на модель о1, возможность загружать файлы пропадает. Это ограничение означает, что задачи, связанные с визуальным распознаванием или анализом документов, не могут выполняться непосредственно с помощью модели o1. В этом аспекте GPT 4o — явный победитель.

5. Решайте математические задачи

Я протестировал обе модели с помощью некоторых простых математических вопросов, и GPT 4o ответил на некоторые из них неправильно. GPT 4o, похоже, больше ориентирован на получение информации из обучающих данных. Всякий раз, когда я задавал сложный вопрос, которого не было в Интернете напрямую, существовала как минимум 30%-ная вероятность (ограниченный размер выборки) того, что он допустит ошибку.

Модель o1 также допустила ошибку в вопросе, связанном с графиком. Но в целом я задал обеим моделям около 12 математических вопросов, и навыки решения математических задач у o1 были впечатляющими — значительное улучшение по сравнению с моделью 4o. В тест на олимпиаду по математике модель o1 набрала около 83 %, а модель 4o – только 13 %.

6. Сложный финансовый раскол

Если модель o1 преуспевает в математике, она, скорее всего, хорошо справится и с финансовыми задачами. Чтобы проверить это, я представил сценарий, в котором двое моих друзей и я снимали новую комнату и неравномерно тратили деньги на различные расходы, такие как аванс, аренда, брокерские комиссии и другие покупки.

Я предоставил всю информацию обеим моделям и попросил их подсчитать, сколько каждому человеку придется заплатить, чтобы обеспечить справедливое распределение всех потраченных денег. В этой ситуации модели необходимо было понимать как математические расчеты, так и контекст, чтобы дать точный ответ.

Three friends, Alice, Bob, and Charlie, are renting a new room together and have made several payments for different expenses. Alice paid $800 for the advance payment, Bob paid $500 for the rent, and Charlie paid $200 for brokerage fees. Additionally, Alice spent $150 on groceries, Bob bought furniture for $300, and Charlie spent $100 on kitchen supplies. I want to ensure that the total expenses are evenly split among the three friends.

Calculate how much each person needs to pay or be reimbursed to achieve a fair division of all the expenses. Provide a breakdown of the amount each person owes or should receive

Обе модели GPT 4o и o1 дают правильный ответ, поскольку математические расчеты достаточно просты. Обе модели ИИ имеют одинаковый уровень понимания контекста, и рассуждения модели o1 здесь не имеют большого преимущества. Однако нам нравится ответ модели o1, поскольку она лучше объясняет решение с помощью таблицы. Но их легко получить в модели 4о с помощью подсказки. Итак, в этом раунде ничья.

Модель o1

Модель OpenAI GPT 4o и o1

Мы сравнили обе модели в различных тестах, таких как составление расписания, создание финансового плана для бизнеса и решение загадок. Модель o1 преуспела, особенно в задачах, требующих рассуждения. Однако для задач, не требующих особых рассуждений, таких как генерация текста или исследование информации, обе модели дали схожие результаты, с той основной разницей, что o1 работала намного медленнее.

Действительно ли OpenAI o1 лучше, чем ChatGPT-4o? Давайте сравним

1. Кодирование

2. Создание электронных писем, заданий, статей и т. д.

3. Создание сценариев, публикаций в социальных сетях и идей

4. Документы, PDF-файлы, изображения и другие файлы

5. Решайте математические задачи

6. Сложный финансовый раскол

Модель OpenAI GPT 4o и o1

AirPods 4 будет иметь полезную функцию AirPods Pro 2

Создавайте события Календаря Google напрямую из Gemini

Возможно вам будет интересно