Поделиться
VK Telegram OK

Исследователь безопасности Meta AI сообщил, что агент OpenClaw взбесился в своем почтовом ящике

Искусственный интеллект
AGILog · 2026-02-24 00:57

Сообщение , ставшее теперь вирусным, от исследователя безопасности Meta AI Саммер Ю, поначалу воспринимается как сатира. Она попросила своего агента OpenClaw с искусственным интеллектом проверить ее переполненный почтовый ящик и предложить, что удалить или заархивировать.

Агент вышел из себя. Он начал удалять всю ее электронную почту в “ускоренном режиме”, игнорируя ее команды с телефона прекратить это.

“Мне пришлось бежать к своему Mac mini, как будто я обезвреживала бомбу”, - написала она, опубликовав в качестве квитанций фотографии проигнорированных запросов об остановке.

Mac Mini, недорогой компьютер Apple, который удобно располагается на столе и помещается на ладони, в наши дни стал излюбленным устройством для работы с OpenClaw. (Mini продается “как горячие пирожки”, - по-видимому, сказал один “сбитый с толку” сотрудник Apple известному исследователю искусственного интеллекта Андрею Карпати, когда он купил его для запуска альтернативы OpenClaw под названием NanoClaw.)

OpenClaw - это, конечно же, ИИ-агент с открытым исходным кодом, получивший известность благодаря Moltbook, социальной сети только для ИИ. Агенты OpenClaw были в центре событий , ныне в значительной степени разоблаченного эпизода на Moltbook, в котором все выглядело так, будто ИИ замышляли заговор против людей.

Но миссия OpenClaw, согласно ее странице на GitHub, не ориентирована на социальные сети. Он призван стать персональным помощником с искусственным интеллектом, работающим на ваших собственных устройствах.

Представители Кремниевой долины настолько влюбились в OpenClaw, что слова “claw” и “когти” стали популярными для агентов, работающих на персональном оборудовании. Другие такие агенты включают ZeroClaw , IronClaw и PicoClaw . Команда подкастеров Y Combinator даже появилась в их последнем выпуске в костюмах лобстеров.

Но пост Юя служит предупреждением. Как отмечали другие участники X, если исследователь в области безопасности ИИ может столкнуться с такой проблемой, на что надеяться простым смертным?

“Вы намеренно тестировали его защитные устройства или допустили ошибку новичка?” - спросил ее разработчик программного обеспечения на X.

“Ошибка новичка”, - ответила она. Она тестировала свой агент на маленьком “игрушечном” почтовом ящике, как она его называла, и он хорошо работал с менее важными электронными письмами. Это заслужило ее доверие, и она решила поделиться этим с другими пользователями.

Юй считает, что большой объем данных в ее реальном почтовом ящике “спровоцировал сжатие”, - написала она. Сжатие происходит, когда контекстное окно — текущая запись всего, что было сказано и что было сделано ИИ в ходе сеанса, — становится слишком большим, в результате чего агент начинает обобщать, сжимать и управлять диалогом.

В этот момент ИИ может пропустить инструкции, которые человек сочтет достаточно важными.

В этом случае он, возможно, пропустил ее последнюю подсказку, в которой она просила его не действовать, и вернулся к своим инструкциям из “игрушечного” почтового ящика.

Как указывали несколько других пользователей на X , подсказкам нельзя доверять в качестве средств защиты. Модели могут неверно истолковывать или игнорировать их.

Разные люди предлагали различные варианты, начиная от точного синтаксиса, который Yu должен был использовать для остановки агента, и заканчивая различными методами обеспечения лучшего соблюдения правил, такими как написание инструкций в специальных файлах или использование других инструментов с открытым исходным кодом.

В интересах полной прозрачности AGI_LOG не смог самостоятельно проверить, что произошло с почтовым ящиком Ю. (Она не ответила на наш запрос о комментариях, хотя ответила на многие вопросы и комментарии, отправленные ей на X.).

Но на самом деле это не имеет значения.

Суть этой истории в том, что агенты, предназначенные для работников умственного труда, на нынешнем этапе своего развития являются рискованными. Люди, которые говорят, что успешно их используют, на самом деле разрабатывают методы самозащиты.

Когда-нибудь, возможно, в скором времени (к 2027? 2028 году), они могут быть готовы к широкому использованию. Бог свидетель, многие из нас хотели бы помочь с электронной почтой, заказами продуктов и записью на прием к стоматологу. Но этот день еще не настал.