Поделиться
VK Telegram OK

Запуск моделей с искусственным интеллектом превращается в игру на запоминание

Искусственный интеллект
AGILog · 2026-02-17 16:44

Когда мы говорим о стоимости инфраструктуры искусственного интеллекта, основное внимание обычно уделяется Nvidia и графическим процессорам, но память становится все более важной частью картины. Поскольку гиперскейлеры готовятся к строительству новых центров обработки данных стоимостью в миллиарды долларов, цены на чипы DRAM подскочили примерно в 7 раз за последний год .

В то же время растет дисциплина в управлении всей этой памятью, чтобы гарантировать, что нужные данные будут доставлены нужному агенту в нужное время. Компании, которые овладеют этим, смогут выполнять те же запросы с меньшим количеством токенов, что может стать отличием между сворачиванием и сохранением бизнеса.

Аналитик по полупроводникам Дэн О'Лафлин (Dan O'Laughlin) в беседе с Вэлом Берковичи (Val Bercovici), директором по ИИ Weka, высказал интересный взгляд на важность чипов памяти в своем подразделении. Они оба занимаются полупроводниками, поэтому основное внимание уделяется чипам, а не архитектуре в целом; последствия для программного обеспечения искусственного интеллекта также весьма значительны.

Меня особенно поразил этот отрывок, в котором Берковичи рассматривает растущую сложность документации Anthropic по быстрому кэшированию :

Об этом можно узнать, перейдя на страницу с ценами на оперативное кэширование в Anthropic. Шесть или семь месяцев назад, когда появился Claude Code, это была очень простая страница — просто “используйте кэширование, это дешевле”. Теперь это энциклопедия советов о том, сколько именно кэш-записей требуется для предварительной покупки. У вас есть 5-минутные уровни, которые очень распространены в отрасли, или 1-часовые уровни — и ничего больше. Это действительно важная информация. Тогда, конечно, у вас есть всевозможные возможности для арбитража в отношении цен на чтение из кэша в зависимости от того, сколько записей из кэша вы предварительно приобрели.

Вопрос здесь в том, как долго Claude хранит ваше приглашение в кэшированной памяти: вы можете заплатить за 5-минутное окно или заплатить больше за часовое окно. Гораздо дешевле использовать данные, которые все еще находятся в кэше, поэтому, если вы правильно распорядитесь ими, вы сможете значительно сэкономить. Однако есть одна загвоздка: каждый новый бит данных, который вы добавляете в запрос, может удалить что-то еще из окна кэширования.

Это сложный процесс, но результат достаточно прост: управление памятью в моделях ИИ будет играть важную роль в развитии ИИ в будущем. Компании, которые делают это хорошо, поднимутся на вершину.

И в этой новой области предстоит еще многое сделать. Еще в октябре я рассказывал о стартапе под названием TensorMesh, который работал на одном уровне стека, известном как оптимизация кэша.

Возможности существуют и в других частях стека. Например, в нижней части стека возникает вопрос о том, как центры обработки данных используют различные типы памяти, которые у них есть. (Интервью включает в себя интересную дискуссию о том, когда чипы DRAM используются вместо HBM, хотя это довольно глубоко увязло в аппаратных проблемах.) На более высоком уровне конечные пользователи выясняют, как структурировать свои модели, чтобы использовать преимущества общего кэша.

По мере того как компании будут совершенствовать управление памятью, они будут использовать меньше токенов, а логический вывод станет дешевле. Между тем, модели становятся все более эффективными при обработке каждого токена, что еще больше снижает стоимость. По мере снижения стоимости серверов многие приложения, которые сейчас кажутся нежизнеспособными, начнут приносить прибыль.