Anthropic приходится постоянно пересматривать свой технический тест на собеседование по мере того, как Клод совершенствуется

С 2024 года команда по оптимизации производительности Anthropic предлагает соискателям пройти тест на дому, чтобы убедиться, что они знают свое дело. Но по мере совершенствования инструментов ИИ-кодирования тест пришлось сильно изменить, чтобы кандидаты не могли просто заполнять все ответы с помощью Claude.

Руководитель команды Тристан Хьюм описал историю этого испытания в своем блоге в среду . “Каждая новая модель Claude заставляла нас перепроектировать тест”, - пишет Хьюм. “При одинаковых временных ограничениях Claude Opus 4 превзошел большинство кандидатов-людей. Это по—прежнему позволяло нам выявлять сильнейших кандидатов, но Claude Opus 4.5 соответствовал даже им.”

Кандидатам разрешено использовать инструменты искусственного интеллекта при тестировании, но ситуация по-прежнему представляет серьезную проблему при оценке кандидатов. Если люди больше не могут улучшить результаты работы модели, то тест - это всего лишь измерение различных используемых моделей, и он больше не полезен для поиска лучших исполнителей.

“Из-за ограничений, связанных с домашним тестированием, у нас больше не было возможности отличить результаты наших лучших кандидатов от нашей самой способной модели”, - пишет Хьюм.

Проблема использования искусственного интеллекта в тестах уже сеет хаос в школах и университетах по всему миру, так что ирония в том, что лабораториям искусственного интеллекта тоже приходится с этим сталкиваться. Но Anthropic также обладает уникальными возможностями для решения этой проблемы. В итоге Хьюм разработал новый тест, который в меньшей степени был связан с оптимизацией аппаратного обеспечения, что сделало его достаточно новым, чтобы поставить в тупик современные инструменты искусственного интеллекта.

Но в своем посте он также поделился оригинальным тестом, чтобы посмотреть, сможет ли кто-нибудь из читателей предложить лучшее решение.

“Если вы сможете улучшить Opus 4.5, - говорится в посте, - мы будем рады услышать ваше мнение”.

Исправление: В более ранней версии этой статьи была неверно указана политика Anthropic в отношении использования инструментов искусственного интеллекта при тестировании на дому. На самом деле, использование искусственного интеллекта прямо разрешено. AGI_LOG сожалеет об ошибке.

Категории

Искусственный интеллект (559) Приложения (199) Железо (179) Гаджеты (59)

Самое популярное

Apple приостанавливает изменения в App Store в Техасе после решения суда

2025-12-24

Plaud запускает новый PIN-код с ИИ и настольную записную книжку для совещаний

2026-01-04

Помощник Amazon по искусственному интеллекту выходит в Интернет с Alexa.com

2026-01-05

Сэм Альтман из OpenAI объявил о сделке Пентагона с ‘техническими гарантиями’

2026-02-28

Теги

ИИ (588) Приложения (315) Стартапы (191) Оборудование (148) вкратце (143) Средства массовой информации и развлечения (105) Общественный (104) Exclusive (98) Открытый мир (86) тс (84)