Новият скъп проект на Илън Мъск – суперкомпютърът xAI Colossus

...
Новият скъп проект на Илън Мъск – суперкомпютърът xAI Colossus
Коментари Харесай

Първи поглед отвътре в суперкомпютъра на Илън Мъск със 100 000 ИИ-ускорителя Nvidia H100

Новият безценен план на Илън Мъск – суперкомпютърът xAI Colossus за системи с изкуствен интелект отвори порти за първи път за обществеността. Журналисти от изданието ServeTheHome бяха позволени да посетят оборудването. Те описаха в детайли за клъстера, чието създаване е лишило 122 дни и работи към този момент съвсем два месеца.

Сървърите са построени въз основата на платформата HGX H100 на Nvidia. Всеки от тях включва 8 ИИ-ускорителя Nvidia H100 и система за течно изстудяване Supermicro 4U all-in-one с опция за гореща промяна на съставените елементи за всеки графичен процесор поотделно.

Сървърите са инсталирани в стойки по 8, което води до 64 ИИ-ускорителя в една стойка. В долната част на всеки стелаж е ситуиран различен модул Supermicro 4U с резервирана помпена система и система за наблюдаване на стелажа.

Стелажите са групирани в по 8 единици, което дава 512 графични процесора на масив. Всеки сървър има четири резервирани зареждания. В задната част на стелажите могат да се видят трифазни зареждания, Ethernet прекъсвач. Има и колектори с размерите на стелаж, които обезпечават течно изстудяване. Клъстерът Colossus съдържа повече от 1500 стелажи или към 200 масива. ИИ-ускорителите на тези масиви са конфигурирани единствено за три седмици, съобщи по-рано основният изпълнителен шеф на Nvidia Дженсън Хуанг.

Поради високите условия за ширина на честотната лента на ИИ-суперклъстера, който непрестанно работи по образованието на огромни езикови модели (LLM), инженерите на xAI трябваше да положат старания във връзка с мрежите.

Всяка графична карта е оборудвана със специфичен 400 GbE мрежов контролер с спомагателен 400-GbE мрежов адаптер за всеки сървър. Това значи, че всеки сървър Nvidia HGX H100 разполага с 3,6 Tbps Ethernet – да, целият клъстер работи с Ethernet, а не с InfiniBand или други екзотични интерфейси, общоприети за суперкомпютрите.

Суперкомпютърът за образование на ИИ-модели, в това число Grok 3 изисква освен графични процесори, само че и памет и централни процесори, само че xAI разкрива единствено отчасти информация за тях. На видеото, което е отчасти цензурирано се вижда, че за това са виновни сървърите с x86 чипове в корпуси Supermicro – те също са с течно изстудяване и са проектирани да работят или като вместилище, или като централен процесор за работни натоварвания.

На обекта са конфигурирани и акумулатори Tesla Megapack. Когато клъстерът работи, може да има неочаквани съмнения в потреблението на сила, тъй че тези акумулатори с потенциал до 3,9 MWh всяка трябваше да бъдат конфигурирани сред електрическата мрежа и суперкомпютъра като енергиен буфер.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР