Главная страница » Gemini Live против ChatGPT 4o Режим голосового чата: наш опыт

Gemini Live против ChatGPT 4o Режим голосового чата: наш опыт

Автор: Евгений Стерликов

В мае компания OpenAI представила ChatGPT 4.0 с режимом, похожим на голосовой вызов. В отличие от существующих голосовых помощников, таких как Google Assistant, Alexa и Siri, он может лучше понимать контекст, участвовать в большем количестве двусторонних разговоров и разговаривать более человеческим тоном. Такое ощущение, будто вы разговариваете по телефону с ИИ, а не просто вызываете ИИ-помощника за помощью.

Чтобы противостоять этому, Google представил Gemini Live в Событие Пиксель 9 , который очень похож на голосовую модель ChatGPT 4.0. Я использовал Gemini Live больше недели и вот мой опыт их использования.

Доступ и доступность

Доступ к ChatGPT 4.0 Voice и Gemini Live можно получить через соответствующие приложения. Однако ChatGPT выделяется тем, что доступен на более широком спектре платформ, включая Android, iOS и даже Mac (извините, Windows). Напротив, Gemini Live в настоящее время ограничен некоторыми устройствами Android, такими как телефоны Pixel и Samsung. Хотя ожидается, что со временем ситуация улучшится, на момент написания этого сравнения доступность Gemini Live остается ограниченной. Важно отметить, что обе службы доступны только подписчикам ChatGPT Pro или Gemini Advanced соответственно.

Первое впечатление

На первый взгляд Gemini Live выглядит более привлекательно, чем более простой интерфейс ChatGPT. Первый имеет анимированные градиентные огни на заднем плане, а ChatGPT отображает простое белое пятно в центре экрана. Однако это белое пятно не просто статично — оно анимируется, когда ChatGPT говорит, и включает в себя визуализатор микрофона, который перемещается, когда вы говорите, показывая, что ChatGPT слушает. Таким образом, хотя Gemini может выглядеть лучше, ChatGPT предлагает более функциональную обратную связь через свой интерфейс. Оба сервиса позволяют в любой момент приостановить или завершить голосовой чат. Хотя мы обнаружили, что оба сервиса схожи по тону и способам общения, у них также есть свои уникальные особенности.

Преимущества голосового режима ChatGPT

Модели искусственного интеллекта обычно отвечают сразу после того, как вы перестанете говорить. Время отклика быстрое и одинаковое на обеих платформах. Однако бывают случаи, когда вы можете сделать паузу, чтобы собраться с мыслями или вспомнить детали. В то время как человек распознает паузу и ждет, пока вы продолжите, эти модели ИИ часто этого не делают — они могут начать отвечать, услышав только часть вашего предложения.

Чтобы решить эту проблему, ChatGPT предлагает функцию удержания вручную. Удерживая в любом месте экрана, вы можете активировать режим удержания, который гарантирует, что ИИ прослушает все ваше предложение. Это позволяет вам не торопиться и делать паузу, когда это необходимо. ChatGPT ответит только после того, как вы отпустите удержание. К сожалению, в Gemini нет этой функции, поэтому, когда мне нужно подумать в середине предложения, я заполняю пробелы фразами-вставками, например «что-то в этом роде» или «вы понимаете, о чем я» и т. д.

Преимущества Gemini Live

С другой стороны, Gemini может работать в фоновом режиме, что является преимуществом. Это означает, что вы можете закрыть приложение Gemini и продолжить разговор, используя другие приложения на своем телефоне. Многозадачность.

Например, на днях я проверял в Интернете рецепт, и мне нужно было развеять некоторые сомнения по поводу недостающих ингредиентов. Мне удалось заставить Gemini работать в фоновом режиме, проверяя рецепт. Всякий раз, когда у меня возникал вопрос, я просто задавал, и он отвечал в фоновом режиме. Это как если бы моя мама разговаривала по телефону на заднем плане.

Другим преимуществом Gemini является то, что он перестает говорить, как только вы начинаете говорить. Хотя OpenAI объявила, что ChatGPT в конечном итоге будет иметь эту функцию, она пока недоступна для широкой публики. В настоящее время ChatGPT останавливается только при касании экрана. Однако Близнецам также требуется время, чтобы понять, что вы говорите, поэтому они могут не сразу остановиться. Несмотря на это, вам не нужно повторяться: Gemini все равно сможет уловить ваши слова, даже пока отвечает.

Примеры из реальной жизни, подчеркивающие различия

За исключением нескольких функций и различий в пользовательском интерфейсе, оба сервиса на первый взгляд могут показаться похожими. Однако ситуация начинает меняться, когда дело доходит до понимания контекста, способности поддерживать беседу, языковой поддержки, точности информации и многого другого. Давайте рассмотрим эти различия на реальных примерах.

1. Мозговой штурм идей для истории

У меня есть привычка писать рассказы для развлечения. С момента запуска голосового режима ChatGPT я использую его для мозгового штурма идей. На прошлой неделе я пробовал Gemini Live. На мой взгляд, в этом аспекте есть явный победитель – ChatGPT.

При мозговом штурме и постоянном обсуждении я часто начинаю с конкретной идеи, но меняю темп по ходу обсуждения. ChatGPT постоянно следит за разговором и хорошо адаптируется к изменениям контекста и темы. Однако в случае с Близнецами, когда я сначала предлагаю идею, а затем переключаюсь на что-то другое, она продолжает возвращаться к исходной идее. Мне пришлось несколько раз повторять, что я передумал и что это новое направление, в котором я хочу двигаться. Эта проблема не ограничивается написанием рассказов; то же самое происходит и в других разговорах. Хотя оба голосовых бота понимают контекст, Близнецы часто сбиваются с толку и с трудом успевают за ходом разговора.

2. Перевод между языками

Мой родной язык — телугу, а мои друзья говорят на хинди, поэтому мы решили попробовать этих голосовых ботов в качестве переводчиков. Хотя ChatGPT смог выполнить задачу довольно хорошо, Gemini потерпела полную неудачу. Хотя Gemini может отвечать на нескольких языках, включая те, которые нам нужны, ему трудно понять все, что говорят на других языках, кроме английского. Ваш опыт может варьироваться в зависимости от языка, который вы используете, но в нашем случае, поскольку Gemini не может подобрать языки, которые мы знаем, явным победителем является ChatGPT. Однако по сравнению с режимом разговора Google Translate даже ChatGPT предстоит пройти долгий путь. Даже на бумаге Gemini на данный момент поддерживает только 40 языков, тогда как ChatGPT поддерживает примерно до 85 языков.

3. Изучение темы

По нашему опыту, и ChatGPT, и Gemini склонны к галлюцинациям, и ни один из них не является абсолютно точным. Это относится и к их голосовым режимам. Однако, когда дело доходит до предоставления самой последней информации, Близнецы имеют преимущество, поскольку они постоянно ищут ответы в Интернете. Напротив, ChatGPT полагается на свою внутреннюю базу данных и проверяет веб-страницы в Интернете только при необходимости. В результате иногда он предоставляет устаревшую или совершенно неверную информацию. Например, когда я запросил у Gemini и ChatGPT характеристики Pixel 9, Gemini предоставила точные сведения, а ChatGPT по ошибке предоставил характеристики Pixel 8.

Вы можете решить эту проблему, попросив ChatGPT проверить онлайн, прежде чем ответить. Когда я попробовал это, он вернулся со спецификациями Pixel 9. Однако при повседневном использовании вероятность получения неверной информации от ChatGPT выше, чем от Gemini.

Тем не менее, обе модели ИИ эффективны при передаче информации, будь то посредством примеров, аналогий или упрощения ее для 9-летнего ребенка. У каждого свой стиль, и мы считаем, что оба очень симпатичны. В целом я предпочитаю больше полагаться на Gemini, чем на ChatGPT, особенно когда узнаю что-то новое или когда появляются недавние обновления искомой информации.

Итак, что лучше — голосовой режим ChatGPT или Gemini Live

В целом ChatGPT на данный момент является лучшим голосовым помощником, чем Gemini Live. Его пользовательский интерфейс более функционален, он генерирует ответы немного быстрее и немного лучше поддерживает разговор. Однако Gemini Live является новым продуктом и имеет свои преимущества, такие как возможность работать в фоновом режиме и большую часть времени предоставлять точную информацию из Интернета. Хотя ChatGPT на данный момент может быть лучше, разница незначительна, поэтому вы можете выбрать любой из них, исходя из цены и преимуществ каждого из них.

Возможно вам будет интересно