Вскоре после того, как генеральный директор Amazon Энди Джасси объявил о новаторской инвестиционной сделке AWS с OpenAI стоимостью 50 миллиардов долларов, Amazon пригласила меня на частную экскурсию по лаборатории разработки чипов, которая была центром сделки, в основном за свой счет.
Отраслевые эксперты следят за чипом Trainium от Amazon, созданным на этом предприятии, из-за его применения для более дешевых вычислений с помощью искусственного интеллекта и, возможно, из-за почти полной монополии Nvidia.
Охваченный любопытством, я согласился пойти.
Моими гидами в течение дня были директор лаборатории Кристофер Кинг (на фото справа внизу) и директор по инженерным вопросам Марк Кэрролл (слева внизу), а также специалист по связям с общественностью, который организовал визит, Дорон Аронсон (на фото с вашим покорным слугой позже в сюжете).
AWS была основной облачной платформой Anthropic с первых дней существования лаборатории искусственного интеллекта, и эти отношения были достаточно важными, чтобы пережить то, что позже Anthropic добавила Microsoft в качестве партнера по облачным технологиям, а также растущее партнерство Amazon с OpenAI.
Сделка с OpenAI делает AWS эксклюзивным поставщиком нового разработчика ИИ-агентов Frontier от производителя моделей, который может стать важной частью бизнеса OpenAI, если агенты станут такими крупными, как того ожидает Кремниевая долина. Посмотрим, соответствует ли заявленная эксклюзивность. Financial Times сообщила на этой неделе, что Microsoft может полагать, что сделка OpenAI с Amazon нарушает ее собственное соглашение с OpenAI, а именно, что Редмонд получает доступ ко всем моделям и технологиям OpenAI .
Что делает AWS таким привлекательным для OpenAI? В рамках этой сделки облачный гигант согласился предоставить OpenAI 2 гигаватта вычислительной мощности Trainium. Это гигантское обязательство, учитывая, что Anthropic и собственный сервис Amazon Bedrock уже потребляют чипы Trainium быстрее, чем Amazon может их производить.
По данным компании, во всех трех поколениях установлено 1,4 миллиона чипов Trainium, а Claude от Anthropic работает на более чем 1 миллионе чипов Trainium 2.
Стоит отметить, что, хотя изначально Trainium был ориентирован на более быстрое и дешевое обучение по модели (что было большим приоритетом пару лет назад), теперь он также адаптирован и используется для логических выводов. Логический вывод — процесс фактического запуска модели искусственного интеллекта для генерации ответов — в настоящее время является самым большим узким местом в отрасли.
Показательный пример: Trainium2 обрабатывает большую часть трафика логических выводов на базовом сервисе Amazon, который поддерживает создание приложений искусственного интеллекта многими корпоративными клиентами Amazon и позволяет приложениям использовать несколько моделей.
“Наша клиентская база расширяется настолько быстро, насколько это возможно”, - сказал Кинг. “В один прекрасный день Bedrock может стать таким же большим, как EC2”, - добавил он, имея в виду огромный вычислительный облачный сервис AWS.
Amazon не только предлагает альтернативу устаревшим графическим процессорам Nvidia, которые трудно приобрести, но и сообщает, что ее новые чипы, работающие на новых специализированных ультрасерверах Trn3, стоят на 50% дешевле при сопоставимой производительности, чем при использовании классических облачных серверов.
Наряду с Trainium3, выпущенным в декабре, команда AWS также создала новые нейронные коммутаторы, и Кэрролл говорит, что combo преобразует систему.
“Это дает нам нечто грандиозное”, - сказал Кэрролл. Коммутаторы позволяют каждому чипу Trainium3 взаимодействовать с любым другим чипом в сетчатой конфигурации, сокращая задержку. “Вот почему Trainium3 бьет все рекорды”, особенно по показателю “цена за мощность”, - сказал он.
Когда речь идет о триллионах токенов в день, такие улучшения становятся очевидными.
На самом деле, команда разработчиков чипов Amazon была высоко оценена Apple в 2024 году . В редкий для этой скрытной компании момент откровенности директор Apple по ИИ публично рассказал, как компания использовала еще один чип своей команды — Graviton, маломощный серверный процессор на базе ARM и первый инновационный чип, разработанный этой командой. Apple также высоко оценила Inferentia — чип, специально разработанный для логических выводов, — и одобрила Trainium, который в то время был новинкой.
Эти чипы представляют собой классический подход Amazon: посмотрите, что люди хотят купить, а затем создайте собственную альтернативу, конкурирующую по цене.
Исторически проблема с чипами заключалась в затратах на переключение. Приложения, написанные для чипов Nvidia, должны быть перепроектированы для работы с другими устройствами - это трудоемкий процесс, который не позволяет разработчикам переключаться.
Но команда AWS chip с гордостью сообщила мне, что Trainium теперь поддерживает PyTorch, популярный фреймворк с открытым исходным кодом для создания моделей искусственного интеллекта. В том числе многие из них размещены в Hugging Face, обширной библиотеке, где разработчики делятся моделями с открытым исходным кодом.
По словам Кэрролла, переход требует “в основном однострочного изменения, а затем перекомпиляции и запуска в Trainium”. Другими словами, Amazon пытается ослабить доминирующее положение Nvidia на рынке везде, где это возможно.
В этом месяце AWS также объявила о партнерстве с Cerebras Systems, интегрируя чип логического вывода этой компании на серверах под управлением Trainium, что, как обещает Amazon, обеспечит сверхмощную производительность искусственного интеллекта с низкой задержкой.
Но амбиции Amazon выходят за рамки самих чипов. Компания также разрабатывает сервер, на котором размещаются чипы. Помимо сетевых компонентов, эта команда разработала “Nitro”, комбинацию аппаратного и программного обеспечения, которая обеспечивает технологию виртуализации (которая позволяет многим экземплярам программного обеспечения работать отдельно на одном сервере); новую современную технологию жидкостного охлаждения; и серверные платформы (на фото ниже), на которых размещаются это снаряжение.
Все это делается для контроля затрат и производительности.
Подразделение Amazon по разработке пользовательских чипов появилось на свет, когда облачный гигант купил израильского разработчика чипов Annapurna Labs в январе 2015 года примерно за 350 миллионов долларов. Таким образом, эта команда уже более 10 лет разрабатывает чипы для AWS. Подразделение сохранило свои корни и название в Аннапурне — его логотип присутствует повсюду в офисе.
Эта лаборатория чипов расположена в блестящем здании с хромированными окнами в престижном районе Остина “The Domain”, в пешеходной зоне, заполненной магазинами и ресторанами, которую иногда называют Силиконовой долиной Остина.
Офисы оформлены в классическом корпоративном стиле: рабочие столы в кабинках, места для встреч и конференц-залы. Но в задней части здания на верхнем этаже находится настоящая лаборатория, из окон которой открывается потрясающий вид на город.
Заставленная стеллажами лаборатория размером примерно с два больших конференц-зала представляет собой шумное производственное помещение благодаря вентиляторам, установленным на оборудовании. Это выглядит как нечто среднее между школьным уроком в мастерской и голливудской декорацией для высококлассной лаборатории, за исключением того, что инженеры одеты в джинсы, а не в белые лабораторные халаты.
Обратите внимание, что чипы производятся не здесь, поэтому в белых защитных костюмах не было необходимости. Trainium3 - это ультрасовременный 3-нанометровый чип, производимый компанией TSMC, которая, возможно, является лидером в производстве 3-нанометровых чипов, наряду с другими чипами, производимыми Marvell.
Но именно в этой комнате происходит волшебство “воспитания”.
“Внедрение кремния - это когда вы впервые получаете чип, и это похоже на большую вечеринку с ночевкой. Вы остаетесь здесь, как в заточении”, - объясняет Кинг. После 18 месяцев работы чип активируется в первый раз, чтобы убедиться, что он работает должным образом. Команда даже сняла на видео некоторые моменты из презентации Trainium3 и выложила их на YouTube .
Предупреждение о спойлере: с этим никогда не бывает все просто.
Для Trainium3 прототип чипа изначально имел воздушное охлаждение, как и предыдущие версии. В настоящее время используется чип с жидкостным охлаждением, который обеспечивает энергетические преимущества и является настоящим инженерным достижением.
Во время тестирования размеры микросхемы, прикрепленной к радиатору воздушного охлаждения, были изменены, поэтому активировать микросхему не удалось.
Команда, не растерявшись, “сразу же взяла шлифовальную машину и просто начала шлифовать металл”, - сказал Кинг. Поскольку они не хотели, чтобы шум нарушал атмосферу вечеринки, посвященной приготовлению пиццы, они улизнули и занялись приготовлением в конференц-зале.
Не спать всю ночь и решать проблемы - “вот в чем суть silicon bring-up", - сказал Кинг.
В лаборатории даже есть сварочный пункт, где инженер аппаратной лаборатории и мастер-сварщик Исаак Гевара продемонстрировал сварку крошечных компонентов интегральной схемы с помощью микроскопа. Это такая безумно сложная работа, что старший менеджер Кэрролл открыто признал, что не справится с ней, под хохот Гевары и остальных инженеров в зале.
В лаборатории также есть как специализированные, так и коммерческие инструменты для тестирования и анализа проблем с чипами. Здесь инженер-сигнальщик Арвинд Сринивасан демонстрирует, как лаборатория тестирует каждый крошечный компонент чипа:
Но звезда лаборатории - это целая серия, демонстрирующая каждое поколение “саней”, разработанных командой.
Подставки - это лотки, в которые помещаются чипы искусственного интеллекта Trainium, процессорные чипы Graviton, а также вспомогательные платы и компоненты. Сложите их вместе на стойке с сетевым компонентом, также специально разработанным этой командой, и вы получите системы, которые лежат в основе успеха Anthropic Claude.
Вот sled, который был продемонстрирован на конференции AWS re:invent в декабре:
Я ожидал, что мои гиды будут возмущаться сделкой с OpenAI во время тура. Но они этого не сделали.
Такая сдержанность могла быть связана с вышеупомянутым потенциальным юридическим туманом, который мог повиснуть над сделкой. Но у меня сложилось впечатление, что у этих опытных инженеров (которые в настоящее время разрабатывают следующую версию Trainium4) еще не было возможности поработать с OpenAI. До сих пор их повседневная работа была сосредоточена на потребностях Anthropic и Amazon.
В настоящее время наибольшее количество чипов Trainium2 установлено в Project Rainier — одном из крупнейших в мире вычислительных кластеров искусственного интеллекта, который был запущен в конце 2025 года с 500 000 чипов. Он используется компанией Anthropic.
Но в главном офисе на стене висел монитор, на котором отображалась информация о том, как OpenAI будет использовать Trainium. В этом была своя гордость, хотя и неуловимая.
В дополнение к этой лаборатории, у команды также есть собственный центр обработки данных для обеспечения качества и тестирования. Он находится в нескольких минутах езды от центра и не связан с рабочими нагрузками клиентов, поэтому расположен на территории совместного предприятия, а не в центре обработки данных AWS.
Безопасность на высоком уровне: для входа в здание и доступа на территорию Amazon действуют строгие правила.
Система охлаждения центра обработки данных работает настолько громко, что приходится затыкать уши, а воздух насыщен едким запахом нагретого металла. Это не самое приятное место для обычного человека.
В этом центре обработки данных расположены ряды серверов, оснащенных модулями sleds, которые интегрируют все новейшие пользовательские чипы Amazon: Graviton CPU, Trainium3 с жидкостным охлаждением, Amazon Nitro - все они успешно справляются с вычислениями. Жидкость поступает в замкнутую систему, что означает ее повторное использование, что, по словам инженеров, также должно помочь снизить воздействие на окружающую среду.
Вот как выглядит современный ультрасервер Trn3 UltraServer: несколько направляющих расположены сверху и снизу, а нейронные переключатели расположены посередине. Инженер по разработке аппаратного обеспечения Дэвид Мартинес-Дэрроу (David Martinez-Darrow) на этой фотографии выполняет техническое обслуживание на санях:
Хотя внимание к команде всегда было высоким, в последнее время оно действительно усилилось.
Генеральный директор Amazon Энди Джасси внимательно следит за этой лабораторией, публично хвастаясь ее продуктами, как гордый отец. В декабре он сказал , что Trainium уже является многомиллиардным бизнесом для AWS, и назвал его одной из технологий AWS, которая его больше всего волнует. Он также похвалил чип, когда объявил о заключении соглашения с OpenAI.
Команда тоже испытывает давление. Инженеры будут работать в режиме 24/7 в течение трех-четырех недель во время каждого мероприятия по внедрению, чтобы устранить любые неполадки, чтобы чипы могли быть запущены в массовое производство и внедрены в центры обработки данных.
“Очень важно, чтобы мы как можно быстрее доказали, что это действительно сработает”, - сказал Кэрролл. “До сих пор у нас все шло очень хорошо”.
* Информация: Amazon предоставила авиабилеты и оплатила стоимость одной ночи в местном отеле. Следуя своему лидирующему принципу бережливости, это было среднее кресло в задней части самолета и скромная комната. AGI_LOG взял на себя другие расходы, связанные с поездкой, такие как оплата услуг Uber и багажа. (Да, я сдал сумку на хранение, собираясь в поездку с ночевкой. Таким образом, я требую больших затрат).