Быстродействующая система на базе NVIDIA — компания «МИР»

Быстродействующая система на базе NVIDIA

Быстродействующая система на базе NVIDIA
Передовое решение для высокопроизводительных вычислений и задач искусственного интеллекта

Обзор

Система MIR-001-5U/8480/H100, поддерживающая два масштабируемых процессора Intel Xeon Platinum 8480 2ГГц, 56 ядер, идеально подходит для высокопроизводительных вычислений и обучения искусственному интеллекту.

Высокая производительность
Поддерживает NVIDIA HGX™ H100 с 8 графическими процессорами
Двойная архитектура ПЗУ
Основной и резервный BMC и BIOS
Энергоэффективность
Автоматическое управление скоростью вентилятора
Аппаратная безопасность
Модуль ТРМ 2.0
Консоль управления
Мониторинг состояния и управление состоянием каждого сервера в режиме реального времени.

Оборудование

Сервер MIR-001-5U/8480/H100
  • Сервер 5U шасси 8GPU 8 x 2.5" Hot swappable NVME Drives  _____________________________________________________________ 1 шт
  • Процессор Intel Xeon Platinum 8480 2Ghz, 56Core, 105MB Cache with 350W TDP ______________________________ 2 шт
  • Память 64GB RDIMMS DDR5 4800 MHz dual rank 4GB  _______________________________________________________________________ 32 шт
  • Диск SSD 1.92TB PCIe Gen4 SSD m.2  ___________________________________________________________________________________________________ 2 шт 
  • Диск SSD 7.68TB u.3 NVMe SSD ____________________________________________________________________________________________________________ 8 шт
  • Графический процессор GPU NVIDIA H100 8-GPU SXM 80GB ____________________________________________________________ 1 шт
  • Сетевая карта Mellanox Connectx-7 DX Single port 400GbE OSFP, Full height (MCX75310AAS-NEAT) ___ 8 шт
  • Сетевая карта Mellanox Connectx-7 200GbE Single port Full Height (MCX75310AAS-HEAT) __________________ 2 шт
  • Вентилятор __________________________________________________________________________________________________________________________________________ 1 шт
  • Модуль TPM Module 2.0 v3 __________________________________________________________________________________________________________________ 1 шт
  • Блок питания Fully Redundant 4+2, Hot Plug 3000W Titanium Level _____________________________________________________ 1 шт
  • Гарантия 1 год

Сервер MIR-001-5U/8480/H100 - передовое решение для высокопроизводительных вычислений и задач искусственного интеллекта.


Высокая производительность

Поддерживает NVIDIA HGX™ H100 с 8 графическими процессорами

GPU H100 - 1.jpgГрафический процессор NVIDIA H100 с тензорными ядрами обеспечивает скачок на порядок для крупномасштабного искусственного интеллекта и высокопроизводительных вычислений с беспрецедентной производительностью, масштабируемостью и безопасностью для каждого центра обработки данных. Благодаря NVIDIA AI Enterprise для упрощенной разработки и развертывания искусственного интеллекта, системе коммутации NVIDIA NVLINK, обеспечивающей прямую связь между 256 графическими процессорами, H100 ускоряет любые задачи —  от рабочих нагрузок экзафлопсного масштаба с помощью специального модуля Transformer Engine для триллионов языковых моделей параметров до разделов Multi-Instance GPU (MIG) подходящего размера..


Энергоэффективность

Автоматическое управление скоростью вентилятора

fan control__.jpgАвтоматическое управление скоростью вентилятора для достижения наилучшего охлаждения и энергоэффективности. Скорость отдельных вентиляторов будет автоматически регулироваться в соответствии с датчиками температуры, стратегически расположенными на серверах.




Двойная архитектура ПЗУ


Dual ROM.jpgЕсли ПЗУ, в котором хранятся BMC и BIOS, не загружается, система перезагрузится, при этом резервный BMC и/или BIOS заменит основной. После обновления основного BMC ПЗУ резервного BMC автоматически обновит резервную копию посредством синхронизации. Что касается BIOS, его можно обновить в зависимости от выбора версии прошивки пользователем.


Аппаратная безопасность

Модуль ТРМ 2.0


TPM 2.0.pngПри аппаратной аутентификации пароли, ключи шифрования и цифровые сертификаты хранятся в модуле TPM, чтобы предотвратить доступ нежелательных пользователей к вашим данным. Модули TPM поставляются либо с последовательным периферийным интерфейсом, либо с шиной с малым количеством контактов.


Блок-схема

BlockDiagram_.png


Архитектура системы


Product Architecture 01++.jpg
Система построена на базе G593-SD2-A от Gigabyte с  системной платой MSB3-G40.
Архитектура системы сертифицирована в соответствии с каталогом сертифицированных систем NVIDIA.
https://www.nvidia.com/en-in/data-center/data-center-gpus/qualified-system-catalog/?start=0&...



Консоль управления


Для управления и обслуживания сервера или небольшого кластера пользователи могут использовать Консоль управления, предустановленную на каждом сервере. После запуска серверов ИТ-персонал может осуществлять мониторинг состояния и управление состоянием каждого сервера в режиме реального времени через графический пользовательский интерфейс на основе браузера.
Кроме того, Консоль управления также предоставляет:
  • Поддержка стандартных спецификаций IPMI, позволяющая пользователям интегрировать сервисы в единую платформу через открытый интерфейс.
  • Автоматическая запись событий, которая может записывать поведение системы за 30 секунд до возникновения события, что упрощает определение последующих действий.
  • Интегрируйте устройства SAS/SATA/NVMeи встроенное ПО RAID-контроллера в консоль управления для мониторинга и управления Broadcom.®Адаптеры MegaRAID.


nvidia - 7.jpg
Примечание: Технические данные могут быть изменены в соответствии с требованиями заказчика; доставка зависит от наличия.