Научно-исследовательский центр «Data Science in Astrophysics»

имени З. Жанабаева

EN RU KZ

Компьютерный кластер

Краткое описание

Вычислительный кластер для астрономических и астрофизических задач в КазНУ имени аль-Фараби.

Кластер вычислительной системы состоит из физических серверов. Дополнен удаленной облачной инфраструктурой, построен по принципу высокой доступности и отказоустойчивости. Эта архитектура удовлетворяет техническим потребностям и масштабируется как вертикально, так и горизонтально.

Гибкость и модульность структуры кластера обеспечиваются единой системой управления через распределенные системы электропитания и доступа. Таким образом, достигается полная функциональность вычислительных узлов 24/7, резервное копирование, миграция, хранение данных и доступ с возможностью "горячей" замены и развертывания как отдельных систем, так и целых узлов.

Система доступа организована через основной канал со скоростью 1 Гбит/с с использованием защищенной топологии SSL VPN. Резервный радиоканал 4G со скоростью 50 Мбит/с подключен через Firewall с внешним публичным IP-адресом. Облачная часть развернута на арендуемом виртуальном хостинге (Microsoft OneDrive) для поддержки распределения данных и обеспечения доступа.

Вычислительный узел представляет собой набор виртуальных машин на общей платформе гипервизора (в частности, HYPER-V, в некоторых случаях ESXi), построенный на общих ресурсах, распределенных между физическими серверами (процессоры Xeon, оперативная память и жесткие диски в массиве RAID).

Электропитание обеспечивается независимыми источниками питания и системой резервного копирования. Система управления питанием поддерживает функцию удаленного доступа. Соединение между машинами внутри домена осуществляется через интерфейсы 10 Гбит/с. Сетевая инфраструктура построена посредством агрегации каналов и резервирования соединений. VLAN-домены транслируют управление системой питания с датчиками мониторинга, управленческой подсетью и подсетью доступа.

Мы используем собственный скрипт на основе Linux-shell для распараллеливания вычислений.


Аппаратное обеспечение кластера состоит из 6 Серверных платформ HP Enterprise DL380 Gen10 / Gen10 Plus

Доступные Серверы

Server Processor Comp. resource Memory Storage Management /24
and Access IP
S1 Gen10+
2 x Xeon Gold 6330
2.00 GHz, 56 cores
/ 112 threads
4 x 32 Gb
DDR4-2933
3 x 960Gb
2.62 Tb
192.168.1.71
192.168.0.71
S2 Gen10+
2 x Xeon Gold 6348
2.60 GHz, 56 cores
/ 112 threads
8 x 32 Gb
DDR4-3200
8 x 960Gb
3.49 Tb (RAID 60)
192.168.1.72
192.168.0.72
S3 Gen10
2 x Xeon Gold 6248R
3.00 GHz, 48 cores
/ 96 threads
4 x 32 Gb
DDR4-2933
480 + 1.92
+ 2 x 960
192.168.1.73
192.168.1.173
192.168.0.73
S3a Gen10
2 x Xeon Gold 6248R
3.00 GHz, 48 cores
/ 96 threads
4 x 32 Gb
DDR4-2933
2 x 960 Gb 192.168.1.77
192.168.0.77
S4 Gen10
2 x Xeon Gold 5218R
2.10 GHz, 40 cores
/ 80 threads
2 x 32 Gb
DDR4-2666
3 x 480
+ 4 x 960 Gb
192.168.1.74
192.168.1.174
192.168.0.74
S5 Gen10
1 x Xeon Platinum 8180
2.50 GHz, 28 cores
/ 56 threads
2 x 32 Gb
DDR4-2666
1 x 960 Gb 192.168.1.75
192.168.0.75



Виртуальные машины

Server Виртуальные машины Comp. Resources
CPU / Memory / Storage
IP Address and
Network Capability
External and
Internal NAT ports
S1 Ubuntu18_MHD 8 th./ 6-8 Gb / 420 Gb 192.168.0.211
/ 10 Gbit/s (shared)
--
--
Ubuntu18_CVLab 8 th. / 108 Gb / 127 Gb 192.168.0.212
/ 10 Gbit/s (shared)
22212 (SSH)
--
Ubuntu22_MESA 96 th. / 4-8 Gb / 228 Gb 192.168.0.213
/ 10 Gbit/s (shared)
--
33813 (RDP) / 22213 (SSH)
S2 Ubuntu18_SPH 8 th. / 16 Gb / 320 Gb 192.168.0.221
/ 10 Gbit/s (shared)
--
33811 (RDP)
Ubuntu18_Hdust 104 th. / 224 Gb / 420 Gb 192.168.0.222
/ 10 Gbit/s (shared)
8440 (SSH)
--
S3 Ubuntu18_SLURM_M 8 th. / 16 Gb / 320 Gb 192.168.0.231
/ 40 Gbit/s (direct)
--
--
Ubuntu18_LVCL 40 th. / 60 Gb / 0.8+1.7 Tb 192.168.0.232
/ 1 Gbit/s (shared)
3399 (RDP)
--
Ubuntu18_Phantom 56 th. / 56 Gb / 228 Gb 192.168.0.233
/ 1 Gbit/s (shared)
--
33833 (RDP) / 22233 (SSH)
S3a Ubuntu18_SLURM_C 112 th. / 128 Gb / 228 Gb 192.168.0.237
/ 40 Gbit/s (direct)
--
--
S4 Ubuntu16_IRAFv2.16 16 th. / 8 Gb / 420 Gb 192.168.0.241
/ 1 Gbit/s (shared)
--
--
Ubuntu18_IRAFv2.18 16 th. / 8 Gb / 420 Gb 192.168.0.242
/ 1 Gbit/s (shared)
--
--
Ubuntu18_Students 16 th. / 16 Gb / 920 Gb 192.168.0.243
/ 1 Gbit/s (shared)
--
--
Ubuntu22_2024_v1 16 th. / 8 Gb / 240 Gb 192.168.0.244
/ 1 Gbit/s (shared)
--
33844 (RDP) / 22244 (SSH)
Windows11_RDP 8 th. / 8 Gb / 240 Gb 192.168.0.249
/ 1 Gbit/s (shared)
8391 (RDP)
--
Windows10_OneDrive 8 th. / 16 Gb / 1.7 Tb 192.168.0.200
/ 1 Gbit/s (shared)
8442 (RDP)
--
S5 Windows11_TensorFlow 56 th. / 64 Gb / 960 Gb
+ 2 Tb SATA / GPU Nvidia A2
192.168.0.251
/ 1 Gbit/s (direct)
--
--

Image 1 HP Enterprise ProLiant DL380 Gen10 Plus (support PCIe 4.0), 2U Rack.

Processor: 112 threads 2.60 GHz, (max. 3.5 GHz) 2x Intel Xeon Gold 6330, 42M Cache, 28 cores, 56 threads each.

GPU: 1xNvidia A2

RAM: 128 GB, 4x32GB, DDR4-3200MHz.

Storage: 2.8 TB, 3x960GB SSD on 8xSFF bay with MR416i-p NVMe/SAS 12G hardware RAID controller.

Network: 2x10GE (SFP+, DAC, access), 1x1GE (management).

Power supply: 1x1600W and 1x800W (backup power).


Image 2 Вычислительный кластер для астрономических и астрофизических задач имеет следующие характеристики:

Вычислительные ресурсы

В общей сложности доступны следующие ресурсы:

464 потока с тактовой частотой 2.6 ГГц (на 10 физических процессорах серии Xeon Gold 62xx/63xx).

1 графический процессор (Nvidia A2)

576 ГБ оперативной памяти (DDR4, 2666 MГц)

23 ТБ хранилища (SSD / SAS диски в аппаратном массиве RAID).

Аппаратное обеспечение кластера включает 4 сервера HP Enterprise DL380 Gen10 / Gen10 Plus.


Image 3

Возможности доступа

SSH и RDP (VNC по запросу) через публичный IP-адрес.

★ Доступ к "пользовательским данным" возможен через Microsoft Сloud (1 ТБ, файловый хостинг) с использованием общих ссылок.

Топология программного и аппаратного обеспечения

★ Основная операционная система: Linux (Ubuntu 18.04 LTS).

★ Виртуализация: Hyper-V Server 2019.

★ Интерфейс интернет-подключения (основной uplink, доступ к локальной сети): 1 Gigabit Ethernet (1 Гбит/с, пинг 2–5 мс, скорость 750 Мбит/с по данным сервиса speedtest.net).

★ Резервная сеть 4G, скорость 50 Мбит/с, также используется для доступа по публичному IP.

★ Основное энергопитание: 6.5 кВт, резервное питание: 2.2 кВт.

★ Взаимодействие внутри кластера: 10GBASE (SFP+, DAC).

★ Управляющая сеть VLAN на основе интерфейсов 1 Гбит/с с удаленным доступом через FortiGate SSL VPN.

★ Реализованы функции NGFW (многофункциональные межсетевые экраны), инструменты мониторинга системы, маршрутизация и коммутация, включая агрегирование каналов и резервирование соединений.

★ Возможность масштабирования как вертикального, так и горизонтального.


Особенности эксплуатации и обслуживания (O&M)

★ Контрольные точки рабочих нагрузок ОС.

★ Резервное копирование и миграция ОС.

★ Клонирование и создание образов с текущими конфигурациями и встроенными приложениями.

★ Быстрое развертывание ОС и вычислительных узлов.

★ Горячая замена аппаратных компонентов серверов в составе кластера.