AMD Instinct MI350P: корпоративные серверы для выполнения задач искусственного интеллекта с использованием PCIe

 

Компания AMD анонсировала Instinct MI350P, ускоритель PCIe, предназначенный для предприятий, которым требуется локальное выполнение задач искусственного интеллекта без перестройки центра обработки данных. Карта имеет двухслотовую полноразмерную конструкцию, предназначенную для стандартных серверов с воздушным охлаждением. Это также первый случай за почти четыре года, когда AMD разместила чип Instinct текущего поколения в форм-факторе, подходящем для обычного сервера.

AMD Instinct MI350P

После выхода MI210 в начале 2022 года линейка PCIe Instinct фактически затихла. Каждое последующее поколение (MI300X, MI325X и OAM MI350X) представляло собой модуль с разъемом OAM на универсальной материнской плате, требующий специально разработанного корпуса с системой питания и вентиляции для восьми ускорителей мощностью 1000 Вт в одном лотке. Это подходит для крупных компаний, покупающих графические процессоры в стойках. Это не подходит для предприятий, которым требуется локальное выполнение задач инференции, но которые не могут или не хотят использовать собственную стойку для ИИ. MI350P заполняет этот пробел, и на данный момент у NVIDIA нет флагманской серверной карты PCIe в том же классе, поэтому AMD пока занимает этот сегмент единолично.

Аппаратное обеспечение: MI350P против MI350X OAM

MI350P — это не модифицированный MI350X. AMD разработала для него более компактный чип. MI350X имеет два кристалла ввода-вывода, каждый из которых содержит четыре кристалла ускорительного комплекса (XCD), что в сумме составляет восемь XCD и 256 вычислительных блоков. MI350P имеет один кристалл ввода-вывода с четырьмя XCD и 128 вычислительными блоками, что вдвое меньше по размеру, и работает на той же пиковой тактовой частоте 2,2 ГГц, что и его более крупный аналог. Память имеет аналогичную структуру. Четыре стека HBM3E вместо восьми. 4096-битная шина вместо 8192-битной. 144 ГБ со скоростью 4 ТБ/с вместо 288 ГБ со скоростью 8 ТБ/с.

Архитектура AMD Instinct MI350P

Пиковая вычислительная мощность также снижается вдвое. MI350P достигает максимума в 4600 TFLOPS при MXFP4 против 9,2 PFLOPS у MI350X и 2300 TFLOPS при FP8 против 4,6 PFLOPS. BF16, FP16 и остальные режимы высокоточной обработки масштабируются аналогично. Приятно видеть, что AMD публикует фактические показатели наряду с пиковыми. Фактические показатели составляют 2299 TFLOPS при MXFP4, 1529 TFLOPS при FP8 и 713 TFLOPS при BF16. Эти цифры отражают то, на что карта действительно способна в рамках 600 Вт, где ограничения по электрической мощности и пропускной способности памяти снижают теоретические пиковые значения.

Мы ознакомились с платформой MI350X в рамках программы Supermicro Jumpstart и были искренне впечатлены ее производительностью в задачах вывода данных. Мы с нетерпением ждем возможности протестировать MI350P и посмотреть, как вариант с интерфейсом PCIe покажет себя в более традиционных серверных корпусах, для которых он был разработан.

Видеокарта AMD Instinct MI350P PCIe
Спецификация Доставлено (FLOPS) Пиковое значение (ТФЛОПС)
Производительность
БФ16 713 1150
FP16 672 1150
FP8 1529 2300
MXFP8 1327 2300
MXFP6 1804 4600
MXFP4 2299 4600
Память и разделение памяти
Объем памяти 144 ГБ HBM3E 144 ГБ HBM3E
Память ЧБ 3,6 ТБ/с 4,0 ТБ/с
Экземпляры графических процессоров До 4 устройств по 36 ГБ каждое. До 4 устройств по 36 ГБ каждое.
Платформа
Декодирование видео и JPEG    
Межсоединение для масштабирования графических процессоров Не поддерживается Не поддерживается
Продукт FF FHFL двухслотовый с воздушным охлаждением FHFL двухслотовый с воздушным охлаждением
Максимальная суммарная потребляемая мощность платы (TBP) 600 Вт
(с возможностью настройки до 450 Вт)
600 Вт
(с возможностью настройки до 450 Вт)
PCIe хост PCIe x16 Gen 5 со скоростью 128 ГБ/с PCIe x16 Gen 5 со скоростью 128 ГБ/с

Мощность не уменьшилась вдвое. MI350P имеет номинальную мощность 600 Вт (TBP), что составляет примерно 60% от 1000 Вт у MI350X. 600 Вт — это предельная мощность, определенная спецификацией PCIe CEM, поэтому карта работает при максимально допустимой температуре, которую позволяет слот. Для корпусов, которые не могут обеспечить полную мощность или охлаждение, доступен режим 450 Вт, при котором производительность несколько снижается. Номинальная мощность 600 Вт также ставит MI350P в один ряд с NVIDIA H200 NVL и RTX Pro 6000 Server, с которыми она будет конкурировать в этом сегменте.

В отличие от решения NVIDIA NVL4 с H200, AMD не предоставляет доступ к каналам Infinity Fabric графического процессора на MI350P; все коллективные коммуникации осуществляются через канал PCIe Gen5 x16 (128 ГБ/с).

История восьмипроцессорной системы воздушного охлаждения

Поскольку MI350P представляет собой стандартную двухслотовую полноразмерную карту PCIe, она подходит для серверов, которые предприятия уже используют, включая компактные платформы с восемью графическими процессорами и воздушным охлаждением от ведущих OEM-производителей. Очевидными целями являются Dell PowerEdge XE7740 и HPE ProLiant DL380a Gen12, обзоры которых мы уже публиковали ранее. Каждая из них специально разработана для размещения восьми двухслотовых ускорителей FHFL в корпусе с воздушным охлаждением, при этом система питания и циркуляция воздуха уже рассчитаны на карты класса 600 Вт. Никакой специальной стойки, никакого жидкостного охлаждения, никакой материнской платы OAM.

В одной из таких систем конфигурация MI350P с восемью платами обеспечивает 1152 ГБ памяти HBM3E и суммарную пропускную способность памяти 32 ТБ/с в одном корпусе с воздушным охлаждением. Для инференса на больших моделях с открытыми весами этого достаточно, чтобы разместить модель с триллионом параметров на MXFP4 в одном шасси. Но, как мы уже упоминали, компромисс заключается в отсутствии масштабируемой коммутационной сети. В OAM MI350X графические процессоры взаимодействуют через Infinity Fabric на универсальной материнской плате. В MI350P каждая группа графических процессоров использует PCIe Gen5 x16 со скоростью 128 ГБ/с, тот же путь, что и для доступа к хосту. Для рабочих нагрузок инференса, особенно с параллельным сегментированием тензоров внутри узла и конвейерной обработкой или параллелизмом данных между узлами, это приемлемо. Для тесно связанных процессов обучения, где пропускная способность all-reduce доминирует над временем выполнения шага, платформа OAM остается правильным решением.

Форматы точности

Точность заслуживает отдельного упоминания, хотя ни один из форматов, поддерживаемых MI350P, не является новым. MI350X имеет тот же набор. Причина, по которой это по-прежнему важно, заключается в том, что блочные типы данных OCP (MXFP8, MXFP6, MXFP4) стали стандартом для передовых лабораторий моделирования при обучении и распространении моделей. Эти форматы позволяют лабораториям обучать модели с более низкой точностью практически без потери качества, а преимущества в выводе результатов проявляются сразу же после этого.

Более низкая точность означает более высокую скорость. MXFP4 работает более чем в два раза быстрее, чем FP8, и примерно в четыре раза быстрее, чем BF16 в пиковые моменты. Это ускорение проявляется в реальных рабочих нагрузках. Выпуск gpt-oss от OpenAI сделал увеличение пропускной способности очевидным, и передовые модели, такие как Kimi K2.6, изначально обучаются с учетом квантизации в формате INT4, а не квантуются постфактум. Другая половина истории — это память. Веса INT4 и MXFP4 занимают в четыре раза меньше места, чем BF16. Это означает, что модели с триллионом параметров могут поместиться в одном корпусе с восемью графическими процессорами. Для предприятия, которое хочет разместить большую модель с открытыми весами локально, разница составляет всего одну стойку по сравнению с многоузловым кластером со всеми вытекающими отсюда сетевыми и оркестрационными сложностями.

Итог

Большинство предприятий, оценивающих возможности локального внедрения ИИ, сталкиваются с нехваткой мощности, охлаждения, плотности размещения оборудования в стойках или бюджета раньше, чем исчерпают вычислительные ресурсы. PCIe Instinct, интегрируемый в уже существующую серверную инфраструктуру, позволяет обойти большинство этих ограничений. В настоящее время у NVIDIA нет флагманской серверной PCIe-карты, способной конкурировать с ней, что дает AMD возможность беспрепятственно занимать этот сегмент рынка, пока сохраняется такая возможность.