ЦОД для ИИ: как GPU-кластеры меняют правила работы дата-центров

Разговор об искусственном интеллекте обычно начинается с моделей, данных и графических ускорителей. Но на практике быстро выясняется: ИИ-инфраструктура упирается не только в вычислительную мощность, а также в электроснабжение, охлаждение, размещение оборудования и готовность площадки к другой плотности нагрузки.

Эксперты Systeme Electric оценивают, что доля ИИ-нагрузок в общем потреблении ЦОДов может вырасти с 8% в 2023 году до 15–20% к 2028 году. В абсолютных значениях потребление ИИ-нагрузки может увеличиться с 4,3 ГВт до 13,5–20 ГВт.

Что это означает для бизнеса и почему ЦОД для ИИ нельзя проектировать как «обычный ЦОД, только мощнее», объясняет Дмитрий Колков, директор департамента проектных решений Компании ВИЗАРД.

— Дмитрий, почему ИИ так сильно меняет требования к дата-центрам?

Главное отличие — в плотности и динамике нагрузки. Обычный корпоративный ЦОД чаще всего развивался постепенно: добавлялись серверы, обновлялись системы хранения, росла сеть, но инженерная модель оставалась относительно предсказуемой.

С кластерами на графических ускорителях всё иначе. Одна стойка может потреблять не 8–10 кВт, а десятки и даже более сотни киловатт. Для ИИ-ЦОД сегодня рассматриваются уровни от 40 до 120 кВт на стойку, а в перспективе — 150+ кВт. Это меняет не отдельный элемент инфраструктуры, а всю архитектуру: вводы питания, ИБП, блоки распределения питания, охлаждение, несущие конструкции, кабельные трассы и эксплуатационные сценарии.

Если коротко: ИИ-кластер — это не просто набор серверов с графическими ускорителями. Это высокая концентрация мощности, тепла, веса и эксплуатационных рисков.

— В чём главный риск для компаний, которые начинают строить ИИ-инфраструктуру?

Главный риск — начать с выбора серверов. Это понятная логика: бизнесу нужны вычисления, значит, нужно подобрать оборудование, рассчитать производительность и переходить к закупке. Но для ИИ-ЦОД такой подход опасен.

Допустим, компания планирует разместить 20 стоек с оборудованием под ИИ. При плотности 80–100 кВт на стойку это уже 1,6–2 МВт только ИТ-нагрузки. Дальше нужно учитывать охлаждение, резервирование, потери, распределение питания, ИБП, мониторинг, пожарную безопасность и обслуживание.

Раньше такие значения могли относиться к целому машинному залу. Теперь они могут концентрироваться в одном кластере. Поэтому проектирование нужно начинать не с серверной спецификации, а с проверки пределов площадки: сколько мощности доступно, как она резервируется, как отводится тепло и выдержит ли помещение такую нагрузку физически.

— Почему электроснабжение становится отдельной инженерной задачей?

Нагрузка от графических ускорителей не только высокая, но и неравномерная. Обучение моделей, применение моделей в рабочих процессах, перераспределение задач между узлами, запуск новых расчётов — всё это меняет профиль потребления. Поэтому нужно считать не только среднюю мощность, но и кратковременные пики.

Для таких кластеров критично учитывать скачки нагрузки до 150%, а также детально проектировать блоки распределения питания с учётом фаз и групп нагрузок. Это один из тех технических моментов, который выглядит второстепенным на бумаге, но на практике может стать причиной нестабильности всей системы.

Недостаточно поставить ИБП «с запасом». Важно понимать, как нагрузка распределяется между вводами, что произойдёт при переключении, где возможен перекос по фазам, какие стойки критичны и какие сценарии аварийного питания допустимы.

В ИИ-ЦОД слабое место часто находится не в вычислительном оборудовании. Серверы могут быть подобраны правильно, но если распределение питания, вводы или логика резервирования не учитывают пики, кластер будет вести себя нестабильно именно в момент максимальной нагрузки.

— Можно ли обойтись традиционным воздушным охлаждением?

На определённых плотностях — да. Но у воздуха есть физический предел. Чем выше мощность стойки, тем сложнее стабильно отводить тепло только воздушными потоками. Возникают локальные перегревы, растёт нагрузка на климатическую систему, усложняется баланс горячих и холодных зон.

По инженерным оценкам, воздушное охлаждение эффективно примерно до 20–25 кВт на стойку. При нагрузках 25–60 кВт уже могут потребоваться гибридные схемы, а для нагрузок 60+ кВт — переход к прямому жидкостному охлаждению.

Для ИИ-кластеров жидкостное охлаждение перестаёт быть экспериментальной технологией. Его нужно учитывать заранее: где будут размещены узлы жидкостного охлаждения, как разделяются контуры, как организовано резервирование, как контролируются протечки и кто будет эксплуатировать систему.

Если сначала заполнить зал высокоплотным оборудованием, а потом обнаружить, что воздушное охлаждение не справляется, проект становится значительно дороже. Гораздо правильнее заранее понимать, где проходит граница между воздухом и жидкостью.

— Что меняется в требованиях к стойкам и помещению?

Меняется сама физика размещения. Стойка для ИИ-нагрузок — это уже не просто шкаф под серверы. Это тяжёлая конструкция с высокой плотностью оборудования, большим количеством коммутации, повышенными требованиями к сервисному доступу и, в ряде случаев, с трубопроводами жидкостного охлаждения.

Для высокоплотных решений становятся актуальными стойки шириной 750–800 мм, глубиной не менее 1200 мм, высотой 48U и выше, со статической нагрузочной способностью не менее 1500 кг. Отдельно важно учитывать, выдержат ли пол, перекрытия и инженерные трассы тяжёлые стойки, кабельные линии и трубопроводы жидкостного охлаждения.

Это особенно критично для компаний, которые хотят развивать ИИ на существующей площадке. Не каждую серверную можно просто дополнить GPU-кластером. Нужно проверять несущую способность, ширину проходов, маршруты заноса оборудования, зоны обслуживания, трассы кабельных и трубных систем, пожарные требования и возможности дальнейшего масштабирования.

Иногда ограничение оказывается не в бюджете на серверы, а в помещении. Оборудование нельзя считать готовым к запуску, если его невозможно безопасно запитать, охладить, обслужить и физически разместить.

— Насколько важна география размещения ИИ-ЦОД?

Для классических сервисов часто важны задержки, связность и близость к пользователю. Для части ИИ-нагрузок, особенно обучения моделей, приоритеты могут быть другими: доступная мощность, стоимость электроэнергии, возможность резервирования, охлаждение и перспективы масштабирования.

Поэтому всё чаще обсуждается перенос ИИ-кластеров в регионы с профицитом электроэнергии или возможностью локальной генерации. Для отдельных типов задач ИИ-кластеры действительно меньше зависят от задержек и связности, чем классические пользовательские сервисы.

Выбор площадки под ИИ-ЦОД — это уже не только вопрос недвижимости и каналов связи. Это вопрос энергетики, сроков технологического присоединения, резервной мощности, климата, кадров, логистики и эксплуатационной модели.

— Какие ошибки чаще всего допускают при планировании?

Первая ошибка — считать мощность по текущей конфигурации и не закладывать рост. ИИ-инфраструктура часто начинается как пилот, а затем быстро переходит в промышленный контур.

Вторая ошибка — проектировать охлаждение по привычной модели. Воздух может работать до определённого предела, но при росте плотности приходится менять архитектуру теплоотвода.

Третья ошибка — недооценивать динамику нагрузки. Кластер на графических ускорителях может создавать резкие пики потребления, и если система питания рассчитана только на усреднённую нагрузку, проблемы проявятся именно в момент максимальной активности.

Четвёртая ошибка — не учитывать эксплуатацию. Жидкостное охлаждение, высокоплотные стойки, трубопроводы, датчики, контроль протечек и новые аварийные сценарии требуют другой эксплуатационной дисциплины.

И пятая ошибка — запускать ИИ-проект как чисто ИТ-инициативу. На самом деле это совместная зона ответственности ИТ, инженерной службы, ИБ, эксплуатации и бизнеса.

— С чего должен начинаться правильный проект ИИ-ЦОД?

С инженерного обследования и сценарного расчёта. Нужно понять не только, сколько серверов планируется поставить, но и какую нагрузку они будут нести, как она будет расти, какие требования есть к доступности и какие ограничения уже есть у площадки.

В первую очередь оцениваются доступная мощность, резервирование, вводы, ИБП, блоки распределения питания, качество электроснабжения и сценарии переключений. Затем — охлаждение: текущий предел воздушной системы, возможность перехода к жидкостному охлаждению, размещение узлов охлаждения, резервирование контуров и контроль протечек.

Отдельный блок — физическая инфраструктура: стойки, пол и перекрытия, кабельные трассы, вес оборудования, сервисные зоны, пожарная безопасность и доступность обслуживания.

И только после этого имеет смысл переходить к выбору вычислительного оборудования.

ИИ-ЦОД — это не набор GPU-серверов. Это инженерная система, где вычислительная мощность должна быть обеспечена энергией, охлаждением, безопасностью и эксплуатационной готовностью. Если один из этих слоёв не рассчитан, вся система будет ограничена именно им.

Что важно зафиксировать

Искусственный интеллект радикально меняет требования к дата-центрам. Рост ИИ-нагрузок — это не только вопрос серверов и ускорителей. Это вопрос мегаваттных энергомодулей, жидкостного охлаждения, новых требований к стойкам, распределению питания, размещению оборудования и выбору площадки.

Для компаний ключевой вывод простой: ИИ-инфраструктуру нельзя проектировать по инерции. Подход «поставим оборудование, а инженерную часть потом дотянем» становится слишком рискованным.

Поделиться
Компания ВИЗАРД
Внедряем и развиваем ИТ-решения полного цикла уже более 30 лет. Мы успешно сотрудничаем с крупными корпоративными заказчиками и компаниями малого и среднего бизнеса, помогая им повышать эффективность своей деятельности.
Начните уже сегодня

Обсудить проект

Оставьте заявку и мы свяжемся с вами в ближайшее время