С 2024 года команда по оптимизации производительности Anthropic предлагает соискателям пройти тест на дому, чтобы убедиться, что они знают свое дело. Но по мере совершенствования инструментов ИИ-кодирования тест пришлось сильно изменить, чтобы кандидаты не могли просто заполнять все ответы с помощью Claude.
Руководитель команды Тристан Хьюм описал историю этого испытания в своем блоге в среду . “Каждая новая модель Claude заставляла нас перепроектировать тест”, - пишет Хьюм. “При одинаковых временных ограничениях Claude Opus 4 превзошел большинство кандидатов-людей. Это по—прежнему позволяло нам выявлять сильнейших кандидатов, но Claude Opus 4.5 соответствовал даже им.”
Кандидатам разрешено использовать инструменты искусственного интеллекта при тестировании, но ситуация по-прежнему представляет серьезную проблему при оценке кандидатов. Если люди больше не могут улучшить результаты работы модели, то тест - это всего лишь измерение различных используемых моделей, и он больше не полезен для поиска лучших исполнителей.
“Из-за ограничений, связанных с домашним тестированием, у нас больше не было возможности отличить результаты наших лучших кандидатов от нашей самой способной модели”, - пишет Хьюм.
Проблема использования искусственного интеллекта в тестах уже сеет хаос в школах и университетах по всему миру, так что ирония в том, что лабораториям искусственного интеллекта тоже приходится с этим сталкиваться. Но Anthropic также обладает уникальными возможностями для решения этой проблемы. В итоге Хьюм разработал новый тест, который в меньшей степени был связан с оптимизацией аппаратного обеспечения, что сделало его достаточно новым, чтобы поставить в тупик современные инструменты искусственного интеллекта.
Но в своем посте он также поделился оригинальным тестом, чтобы посмотреть, сможет ли кто-нибудь из читателей предложить лучшее решение.
“Если вы сможете улучшить Opus 4.5, - говорится в посте, - мы будем рады услышать ваше мнение”.
Исправление: В более ранней версии этой статьи была неверно указана политика Anthropic в отношении использования инструментов искусственного интеллекта при тестировании на дому. На самом деле, использование искусственного интеллекта прямо разрешено. AGI_LOG сожалеет об ошибке.