Для некоторых наших читателей это будет похоже на небольшой переворот во времени. В мае 2020 года ампер NVIDIA A100 перезапустит всю индустрию искусственного интеллекта. Google, AWS и другие компании уже развернули A100. Мы видели запуск PCIe Add-in Card A100 и даже обновленную модель A100 80GB два квартала назад. Достаточно сказать, что отрасль уже давно вошла в цикл A100. Реально мы должны быть на полпути, если не позже, только из-за появления инфраструктуры PCIe Gen5/ CXL в 2022 году. ИИ — острая конкурентная область, и через десять месяцев после запуска мы имеем любопытное заявление VMware, гордо заявляющей о том, что она является вагоном поезда A100.
В Интернете много людей, считающих, что «VMware идеальна во всем». Вместо этого мы рассмотрим анонсы VMware vSphere 7 Update 2 и vSAN 7U2 несколько более критично.
VMware vSphere 7 Update 2 обеспечивает поддержку NVIDIA
Недавно мы рассказывали о том, что сертифицированные серверы NVIDIA добавляют новый путь к доходам, и здесь можно увидеть это. NVIDIA имеет свой стек поддержки корпоративного уровня, в рамках которого она может сертифицировать серверы для поддержки своих инструментов искусственного интеллекта. Затем VMware может сертифицировать серверы NVIDIA для VMware vSphere. Это добавляет еще один уровень поддержки новых AI-серверов.
Пожалуй, самым наглядным графиком во всей презентации был этот. Он показывает, что при виртуализации VMware производительность снижается, что вполне ожидаемо. В то же время многие облачные провайдеры, такие как Microsoft Azure, имеют очень высокопроизводительные ВМ, которые практически не дают потерь производительности при выполнении рабочих нагрузок с GPU-ускорением. Мы предлагаем вам взглянуть на диаграмму, а затем обсудим некоторые моменты.
Начнем с того, что NVIDIA A100 — это карта PCIe Gen4. Однако она подключена к Intel Xeon Gold 6240R. Как отмечалось в нашем обзоре этого чипа, он является серверным PCIe Gen3. Также для RoCE используются сетевые карты NVIDIA Mellanox ConnectX-6 Dx. Мы подготовили обзор ConnectX-6. Это сетевая карта с поддержкой PCIe Gen4. Кроме того, отсутствуют метки по оси Y, поэтому мы не можем определить масштаб потери производительности. С точки зрения индустрии, серия AMD EPYC 7002 «Rome», а вскоре и EPYC 7003 «Milan», использованная в сочетании с A100, стала революционной. Даже крупные партнеры Intel, которые использовали только серверы Intel, увидели достаточно преимуществ в решении AMD, чтобы начать предлагать свои первые серверы AMD только благодаря A100. Проблема заключается в том, что мы не знаем ни степени потери производительности, ни влияния PCIe Gen3. Если и в том, и в другом случае скорость PCIe Gen3 является узким местом, то данный график не имеет практически никакого значения, поскольку именно по этой причине производительность так близка.
В целом, преимущества ключевого решения хороши. Появляется поддержка новых графических процессоров и возможность использования таких функций, как vMotion и размещение DRS для обеспечения высокой доступности. Это очень полезно для экосистемы VMware.
Одной из главных особенностей является возможность использования GPUDirect RDMA. Это обеспечивает прямой обмен данными между графическими процессорами и является ключевым фактором для многих технологий NVIDIA для надежного масштабирования GPU-инфраструктуры. Очень приятно, что VMware поддерживает эту возможность.
Кроме того, многие представители сообщества VMware, вероятно, увидели в A100 новую функцию NVIDIA MIG (multi-instance GPU), благодаря которой вычислительные ресурсы и память A100 могут быть разделены на 7 разделов. Логично, что VMware поддерживает эту функцию. Ранее это можно было сделать с помощью VMware, но новое обновление автоматизирует процесс.
В целом, поддержка VMware набора технологий NVIDIA является отличным решением для клиентов VMware. Это, безусловно, отличный анонс для NVIDIA. С другой стороны, объявление о расширении поддержки A100 в четвертом квартале после запуска GOU кажется несколько запоздалым.
Прочие улучшения VMware vSphere 7 Update 2
В VMware есть несколько интересных функций. Например, у нее появился новый тип сервиса NSX Load Balancer. Для kubernetes балансировщики нагрузки являются ключевой функцией, так что это дает новую возможность для VMware и Tanzu.
С точки зрения безопасности данных, VMware снова предлагает отличные возможности, но и этот анонс любопытен. Конфиденциальные вычисления — это большая проблема, и крупные облачные провайдеры, такие как Google Cloud, выпустили Confidential Computing Enabled by AMD EPYC SEV всего около трех кварталов назад. VMware добавляет поддержку конфиденциальных контейнеров с использованием AMD SEV-ES. Для клиентов VMware в этом есть большой смысл. Тем не менее, странно, что VMware не знает никого в Intel, кто мог бы включить новые функции безопасности Ice Lake. Учитывая то, что мы находимся на стадии запуска, а также тот факт, что эта функция была раскрыта Intel, немного странно, что мы не слышим о поддержке VMware интеграции безопасности Intel Ice Lake, а только AMD. Мы надеемся, что это связано не с тем, что VMware не поддерживает решение Intel, а с тем, что в Intel нет знакомых, к которым можно было бы обратиться за поддержкой. Учитывая, насколько коротким будет цикл производства Ice Lake Xeon, необходимость ждать очередного обновления приведет к тому, что клиенты VMware будут ждать некоторых важных функций Ice Lake Xeon большую часть жизненного цикла продукта, как это происходит в случае NVIDIA A100.
Есть и ряд других возможностей. Патчи — это интересно, но, пожалуй, самый интересный элемент, связанный с аппаратным обеспечением, — это поддержка vSphere HA для постоянной памяти. Intel активно продвигает Optane PMem 200 в своих системах нового поколения, так что поддержка этой функции со стороны VMware будет очень кстати.
В целом в VMware vSphere 7 Update 2 есть несколько отличных улучшений, но мы также получили и улучшения vSAN 7 Update 2.
VMware vSAN 7 Update 2 Enhancements
Для vSAN мы получаем ряд новых функций. Хорошим примером является S3-совместимое объектное хранилище, которое помогает еще больше унифицировать стек хранения. Это также важно при рассмотрении следующей функции — HCI Mesh.
Интересна функция HCI Mesh. VMware работает над тем, чтобы расширить vSAN как платформу хранения данных, не ограничиваясь только кластером HCI. Вместо этого она рассматривает возможности использования хранилища vSAN в кластерах вычислительных серверов, не входящих в среду vSAN. Отличным примером здесь могут служить высокопроизводительные кластеры с низким числом ядер для лицензированных приложений на каждое ядро. Если на 32-ядерном процессоре накладные расходы vSAN могут быть не столь значительными, то на 8-ядерном процессоре с высокой стоимостью лицензий на каждое ядро они могут быть более существенными. В лаборатории мы используем подобную модель с HCI-кластером на базе Ceph, а затем можем использовать лабораторные узлы или кластеры лабораторных узлов для доступа к хранилищу KVM-Ceph. Мы используем это решение уже много лет, поэтому приятно видеть, что VMware применяет аналогичную модель.
Вместе с этим VMware добавляет политики хранения, которые могут охватывать HCI и не-HCI кластеры с vSAN 7U2.
В целом, это положительные изменения и со стороны VMware vSAN.
Последние слова
Не секрет, что в период с 2012 по 2019 год рынок серверов развивался ледниковыми темпами, а некоторые могут утверждать, что и сегодня, когда AMD EPYC 7002 серии Rome Knockout и такие новички, как Ampere Altra, обеспечивают некоторые изменения. В какой-то момент VMware окажется перед выбором.
Один из вариантов — смириться с тем, что компания будет постоянно предоставлять новые инновации своим клиентам гораздо позже, чем это делает сообщество разработчиков open-source/ Linux и облачных технологий. Другой вариант — растаять в ледниковом периоде внедрения аппаратных инноваций. Облачные провайдеры быстро внедряют новые технологии. KVM/ kubernetes будет работать на всем, что можно вывести на новый уровень. И наоборот, VMware создает конкурентные преимущества на кварталы или годы позже других экосистем.
Когда мы просто получали несколько дополнительных ядер и несколько МГц каждые шесть кварталов, это хорошо работало. В ближайшем будущем ситуация изменится. Поддержка VMware оборудования, отстающего от облачных провайдеров и сообществ разработчиков открытого кода на полцикла и более, может облегчить работу ИТ-отдела, но поставит клиентов в невыгодное положение по сравнению с теми, кто сможет использовать новое оборудование раньше.
Хотя я понимаю, что можно просто скопировать/вставить слайды и сказать «VMware — это здорово», в какой-то момент эта скорость и широта поддержки оборудования должны стать предметом обсуждения в VMware. Возможно, это не будет выгодно с точки зрения маржи. В то же время поддержка сверхпопулярного и определяющего рынок продукта через ~10 месяцев после его запуска должна стать поводом для более широких обсуждений в VMware.