Сравнение ChatGPT o1 OpenAI с GPT 4o, Gemini 1.5 Pro и Claude 3.5 Sonnet

Содержание

Новая модель ChatGPT o1 от OpenAI фокусируется на рассуждениях для решения сложных задач по кодированию и математике — областей, в которых предыдущие модели OpenAI испытывали трудности. OpenAI утверждает, что модель o1 (также называемая Strawberry) предназначена для того, чтобы тратить больше времени на размышления, прежде чем реагировать. В этой статье мы рассмотрим, что предлагает новая модель o1, чем она может быть полезна для нас и, самое главное, как она сравнивается с другими моделями высшего уровня, такими как GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet. Начнем.

Что такое модель OpenAI o1

До сих пор языковые модели OpenAI входили в серию GPT, например GPT-3.5, GPT-4 и GPT-4o. Новая модель o1 знаменует собой начало новой серии «o», предназначенной для улучшения рассуждений и комплексного мышления перед выработкой ответа. В отличие от предыдущих моделей, o1 использует подход «цепочки мыслей», поэтапно разбивая проблемы внутри, чтобы предоставить более точные ответы на гораздо более сложные проблемы. OpenAI предоставляет аспирантов в качестве целевой базы пользователей.

Вот график, которым OpenAI поделился, сравнивая модель o1 Strawberry с предыдущей моделью GPT4o, где первой задавали научные вопросы на уровне доктора философии.

Сложные проблемы требуют нескольких шагов. По мере увеличения количества шагов предыдущие модели давали неточные ответы, если пользователи не сопровождали их на каждом этапе с помощью серии подсказок. Напротив, модель o1 утверждает, что справляется с этой цепочкой мыслей самостоятельно, как если бы она участвовала во внутреннем диалоге для получения правильного ответа.

Однако, поскольку Strawberry тратит больше времени на обработку и обдумывание, он работает намного медленнее, чем другие. Во многих случаях он даже не начинает отвечать на запросы, в то время как такие модели, как GPT-4o, уже завершают ответ.

Основные особенности модели OpenAI o1

Рассуждение

Благодаря лучшему рассуждению и решению сложных задач новая модель o1 хорошо справляется с математикой, естественными науками, программированием и некоторыми другими сложными задачами высокого уровня. OpenAI протестировала эти модели вместе с GPT 4o на различных экзаменах и тестах ML, таких как математика, код и естествознание.

Тогда как GPT 4o удалось решить только с точностью 13 %, новая модель o1 смогла решить с точностью 83 %, а o1-preview имеет точность около 56 %.

Цепочка мыслей

В модели o1 используется цепочка мыслей. Вы можете просмотреть весь мыслительный процесс, нажав на опцию «Мысль» вверху. Хотя вы не можете увидеть конкретные данные, которые привели к этой мысли, вы можете просмотреть направление рассуждений и то, что ChatGPT учел, прежде чем ответить.

Как получить доступ к модели ChatGPT o1

Новая линейка моделей o1 включает OpenAI o1, OpenAI o1-preview и OpenAI o1-mini. С сегодняшнего дня предварительная версия и мини-модели доступны для платных Пользователи ChatGPT Plus с ограничением на использование 30 сообщений в неделю для o1-preview и 50 сообщений в неделю для o1-mini.

Чтобы максимально эффективно использовать эти модели, используйте их только при необходимости. Чтобы получить доступ к моделям o1-preview и o1-mini, откройте ChatGPT, нажмите на номер модели выше и выберите вариант o1-preview или o1-mini, чтобы начать их использовать.

Сравнение ChatGPT o1 с GPT 4o, Claude 3.5 Sonnet и Gemini 1.5 Pro

Поскольку модель ChatGPT o1 ориентирована на математику и кодирование, мы протестировали ее производительность в реальных сценариях на примере других языковых моделей, включая GPT-4o, Клод 3.5 Сонет и Gemini 1.5 Pro.

1. Математический вопрос

Я начал тест с того, что задал этот математический вопрос всем моделям ИИ.

Consider a grid of size n×n where n≥2. You start at the bottom-left corner of the grid and want to reach the top-right corner. You can move only to the right or upward. However, you are not allowed to pass through any point on the diagonal y=x.

Determine the number of distinct paths from the bottom-left to the top-right corner that do not cross or touch the diagonal y=x.

Выходные данные модели o1 более подробные и правильные, как показано ниже.

GPT-4o не учел инструкцию избегать касания или пересечения диагональной точки, что привело к неправильному ответу.

Однако, когда я разбил шаги, GPT-4o смог сгенерировать правильный ответ. Удивительно, но Близнецы 1.5 Про выдал результат, который было трудно понять. Необъяснимым образом это привело к обсуждению Python, хотя в вопросе он вообще не упоминался.

Однако GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet сумели правильно решить проблему, когда я вручную провел их через все этапы.

2. Вопрос по кодированию

Что касается кодирования, я провел несколько знакомых мне тестов, и все модели показали одинаковые результаты. Вот один из примеров, которые я пробовал:

Write a Python function that takes a string representing a series of tasks and their dependencies in the format "A->B, B->C, C->D" and returns the order in which the tasks should be completed.

Все модели, а не только ChatGPT o1, предоставили правильный код. Фактически, мы попробовали пример, предоставленный OpenAI на их сайте, и результаты были схожими. GPT-4o обычно плохо справляется с кодированием на основе пользовательского интерфейса. , и то же самое относится и к ChatGPT o1. Когда дело доходит до фронтенд-разработки, Claude 3.5 Sonnet занимает первое место. Однако все модели работают одинаково, когда дело касается внутреннего и логического кодирования.

Однако при возникновении уникальных проблем ChatGPT o1 может превзойти другие модели — чего нам еще предстоит наблюдать.

Модель ChatGPT o1 – как она полезна в реальной жизни

ChatGPT o1 особенно эффективен для задач, требующих продвинутого мышления, таких как математика, естествознание и программирование на уровне докторской степени, которые могут быть неактуальны для повседневного использования или обычных людей. Однако, если вам нужна помощь в бизнес-планировании, управлении финансами или составлении расписания — задачи, требующие сильных рассуждений и навыков принятия решений — мы обнаружили, что модель ChatGPT o1 работает исключительно хорошо по сравнению с другими моделями. Кроме того, поскольку он включен в подписку ChatGPT Plus без дополнительной оплаты, он предлагает дополнительную ценность для пользователей Plus.