В четверг OpenAI выпустила GPT-5.4, новую базовую модель, заявленную как “наша самая способная и эффективная передовая модель для профессиональной работы”. В дополнение к стандартной версии, GPT-5.4 также доступна в качестве логической модели (GPT-5.4 Thinking) или оптимизированной для высокой производительности (GPT-5.4 Pro).
API-версия модели будет доступна с контекстными окнами объемом до 1 миллиона токенов, что на сегодняшний день является самым большим контекстным окном, доступным в OpenAI.
OpenAI также подчеркнула повышенную эффективность использования токенов, заявив, что GPT-5.4 смогла решить те же проблемы со значительно меньшим количеством токенов, чем ее предшественница.
Новая модель обеспечивает значительно улучшенные результаты тестов, в том числе рекордные баллы в тестах использования компьютера, проверенных OSWorld и WebArena. Новая модель также набрала рекордные 83 процента в тесте OpenAI GDPval для выполнения заданий на знание английского языка.
Согласно заявлению генерального директора Mercor Брендана Фуди (Brendan Foody), GPT-5.4 также лидирует в тесте для APEX-агентов Mercor, разработанном для проверки профессиональных навыков в области права и финансов.
“[GPT-5.4] отлично подходит для создания долгосрочных результатов, таких как слайд-шоу, финансовые модели и юридический анализ, - говорится в заявлении Foody, - обеспечивая максимальную производительность при более быстрой работе и меньших затратах, чем конкурирующие модели frontier”.
GPT-5.4 продолжает усилия компании по ограничению количества галлюцинаций и фактических ошибок. В OpenAI заявили, что в новой модели на 33% меньше ошибок в отдельных заявлениях по сравнению с GPT 5.2, а в целом вероятность того, что ответы будут содержать ошибки, на 18% ниже.
В рамках запуска OpenAI переработал способ управления вызовом инструментов в версии API GPT-5.4, представив новую систему под названием Tool Search. Ранее системные запросы при вызове модели содержали определения для всех доступных инструментов — процесс, который мог потреблять много токенов по мере увеличения количества доступных инструментов. Новая система позволяет моделям искать определения инструментов по мере необходимости, что приводит к более быстрым и дешевым запросам в системах с большим количеством доступных инструментов.
OpenAI также включил новую оценку безопасности, чтобы протестировать логическую цепочку своих моделей, а также текущие комментарии, которые дает модель, чтобы продемонстрировать свой мыслительный процесс с помощью многоэтапных задач. Исследователи безопасности ИИ уже давно обеспокоены тем, что логические модели могут искажать ход их мыслей, и тестирование показывает, что это может произойти при определенных обстоятельствах.
Новая оценка OpenAI показывает, что в версии GPT-5.4, ориентированной на мышление, вероятность обмана меньше, “что говорит о том, что у модели отсутствует возможность скрывать свои рассуждения и что мониторинг CoT остается эффективным инструментом обеспечения безопасности”.