MLPerf стремится стать стандартом в области бенчмаркинга ИИ. Существует два различных набора результатов, которые фокусируются на двух разных областях: результаты MLPerf Training и Inferencing. Сегодня мы получили результат MLPerf Inferencing v1.0. Ранее вы можете ознакомиться с нашими материалами, посвященными обсуждению результатов v0.7 и v0.5. Становится очевидным, что, несмотря на активную экосистему компаний, производящих чипы ИИ, на данный момент это в основном проект NVIDIA.
Результаты MLPerf Inference v1.0
Результаты MLPerf Inference разбиты на четыре основные категории: закрытые и открытые наборы категорий для центров обработки данных, закрытые и открытые наборы для границ. Каждая из этих категорий имеет подкатегории в зависимости от того, на каком этапе жизненного цикла находится оборудование: доступное, предварительное и R&D/внутреннее. Учитывая количество представленных материалов, мы сосредоточимся на сегментах верхнего уровня.
MLPerf Inference v1.0 Datacenter Discussion
Возможно, самой большой проблемой является этот вид (извините, учитывая, сколько здесь данных, вы захотите открыть его в другой вкладке):
У нас есть системы от Dell EMC, HPE и Supermicro с 4x картами NVIDIA A100 SXM4. Supermicro и HPE используют процессоры поколения Rome, Dell — процессоры Milan. Результаты, как правило, находятся в пределах +/- 2%. За исключением нескольких выбросов. Представив результаты MLPerf, Dell и HPE фактически показали, что их оборудование в автономных тестах имеет незначительное преимущество по производительности над оборудованием Supermicro, а иногда и отстает от него. Возможно, это не то сообщение, которое они хотели донести до рынка, но это хорошее влияние MLPerf, позволяющее индустрии увидеть эти данные и оценить их соответствующим образом. Конечно, эти компании предлагают различные конфигурации процессоров, поэтому они могут объяснять несколько иные результаты, но в целом стоимость определяется NVIDIA в их представлениях, а не производителем серверов. Конечно, есть сервис, поддержка и другие векторы, по которым можно конкурировать, но в таком формате производителям серверов сложнее действительно дифференцироваться. Добавление различных ускорителей — один из хороших способов дифференциации, но другие производители ускорителей не составляют серьезной конкуренции в этом пространстве. Например, Intel не показывает производительность ускорителей, даже совместно с партнерами, а лишь производительность Platinum 8380 и Platinum 8380H (4S/8S), причем только в некоторых тестах.
Пожалуй, еще одна полезная часть этого бенчмарка заключается в том, что мы можем увидеть системы ЦОД, использующие A100 SXM, A100 PCIe, A40, A30, A10 и даже системы T4 в различных конфигурациях. Еще один интересный момент был получен в результате этого упражнения. В частности, NVIDIA разделила свой графический процессор A100 80GB на 7 экземпляров MIG или multi-instance-GPU.
Здесь мы увидели практически ту же производительность, что и при выполнении каждой из этих рабочих нагрузок по отдельности. Многие рабочие нагрузки, связанные с выводом ИИ, не требуют полной загрузки NVIDIA A100 и имеют небольшой объем памяти, поэтому разбиение больших процессоров на более мелкие экземпляры позволяет более эффективно распределять ресурсы. В нашем недавнем обзоре ASUS RS720A-E11-RS24U мы рассказывали об этом и показывали настройку экземпляра MIG с 4x PCIe-картами NVIDIA A100. По сути, NVIDIA позволяет картам A100 и A30 действовать как нескольким ускорителям вывода в системе для повышения производительности.
Обзор краёвMLPerf Inference v1.0
На закрытых краях в результатах по-прежнему доминируют графические процессоры NVIDIA, обычно работающие в паре с процессорами AMD EPYC 7742. Пожалуй, наиболее интересными являются результаты двух сопроцессоров Centuar AI Coprocessor и результаты Qualcomm Cloud AI 100. Эти результаты, а также результаты Edgecortix и Mobilint Xilinx Alveo были представлены не во всех тестах, но некоторые из них вносят разнообразие.
В остальном это множество базовых показателей Rockchip и Raspberry Pi 4, а большинство результатов составляют несколько интересных NVIDIA Jetson и других представителей.
Новые результаты MLPerf по энергопотреблению
Одним из аспектов анонса, над которым MLPerf проделал большую работу, является добавление показателей энергопотребления. Это очень важно, особенно в части выводов, поскольку большая часть этих операций выполняется на границе, где бюджеты на энергопотребление и тепловыделение могут быть ограничены.
Вот несколько основных выводов по ЦОДам:
- В категории закрытых ЦОДов было получено всего шесть результатов, в категории открытых ЦОДов — ноль. Из результатов закрытых ЦОД в системах использовались процессоры AMD EPYC в соотношении 5:1.
- Среди результатов закрытых ЦОД выделяется результат Qualcomm QAIC100. Qualcomm показала отличные результаты по соотношению мощности и производительности. При этом в Gigabyte R282-Z93 используются процессоры AMD EPYC 7282 с гораздо меньшим энергопотреблением, чем в других системах с вычислениями более высокого класса. Эти процессоры также являются 4-канальными оптимизированными компонентами AMD EPYC 7002 серии «Rome».
- Помимо одного результата Qualcomm, ни один другой производитель не представил результаты с ускорителями других производителей, кроме NVIDIA.
- Из производителей систем, кроме Qualcomm, результаты представили только NVIDIA и Dell EMC.
Это все еще ранние результаты, и обычно такие новые типы тестов требуют цикла или двух, пока в них не примет участие больше производителей.
В категории «Грани» в открытом разделе были представлены все результаты Raspberry Pi 4, представленные компанией Krai, не путать с представленными вчера ИИ SOMами Kria Edge от Xilinx. В закрытой категории всего девять результатов, но они имеют довольно широкий диапазон и не совсем состоят из конкурентных частей. У Dell EMC есть сервер, есть результаты Krai Raspberry Pi 4, а у NVIDIA в основном результаты модулей Jetson AGX Xavier.
Будем надеяться, что в этой области рынок будет развиваться, поскольку это полезная вещь для тренировок.
Последние слова
В целом, добавление цифр мощности, пусть и необязательное, — это здорово. Положительным моментом является и то, что многие поставщики присоединяются к добавлению результатов для своих систем, так как это позволит использовать результаты в конкурентной борьбе. Если результаты будут доступны, в RFP можно будет указывать уровни MLPerf так же, как сегодня используются показатели SPECs.
Пожалуй, это самая большая проблема. У Intel есть портфель кремниевых процессоров с поддержкой ИИ, но он в основном сосредоточен на компонентах Cooper Lake. Xilinx обсуждает вопросы ИИ, но имеет лишь несколько результатов. Компания AMD представлена только на стороне процессоров, но не на слайде ускорителей. Qualcomm, представляющая ЦОДы, охватила только две модели. Такие компании, как Graphcore, Cerebras и другие, не представили ни одного результата, поскольку не считают нужным конкурировать с NVIDIA. Действительно, в нашем интервью 2020 года с Эндрю Фельдманом, CEO Cerebras Systems, мы обсуждали его фишку для MLPerf Training, и ответ был таков: эффективнее тратить ресурсы на привлечение клиентов на аппаратное обеспечение, чем на использование MLPerf.
Компания Google, которая была одним из первых популяризаторов MLPerf, как ни странно, отсутствует в результатах. У нас также нет ни одного из ускорителей ИИ, представленных на китайском рынке. На стороне «открытого края» только один результат за пределами теста ResNet Image Classification. Это, безусловно, похоже на усилия NVIDIA и тех, кто хочет получить хоть какую-то известность, связанную с попаданием в список.
Таким образом, мы переходим к шагам вперед и шагам назад в этом выпуске. Мощность — это здорово, так же как и большее количество OEM-производителей. Тем не менее, если не считать того, что компания Krai набила руку на низких платах, то тенденция налицо. OEM-производители, являющиеся партнерами NVIDIA, начинают участвовать в MLPerf. Другие производители ускорителей в основном остаются в стороне. Это уже близко к тому, чтобы называться просто «MLPerf Inference v1.0 от NVIDIA, результаты которого предоставили несколько других производителей». Во многих отношениях это будет более важная из двух областей бенчмарка MLPerf (по сравнению с обучением), поэтому жаль, что такое впечатление создается только при просмотре цифр на MLPerf/ MLCommons.