Синоптики гидрометцентра предсказывают в этом году очень жаркое лето. А значит, что кроме температуры ключевыми факторами опасности для ИТ-оборудования станут пыль, сухость и гарь.
В текущих экономических обстоятельствах многие вендоры ушли с рынка, прекратив поддержку проданных решений. И заказчики принимают решение перейти в режим «наработки на отказ».
Однако, в случае с системами кондиционирования выход из строя одного из блоков может создать недопустимо высокую нагрузку на резервный кондиционер. Даже чиллеры, забитые спрессованным пухом, могут просто не пропускать нужный объем воздуха, перегружая моторы и вентиляторные подшипники.
В преддверии лета эксперты ВИЗАРД предлагают решать эту задачу в несколько этапов:
- Провести диагностику шумов и стабильности поведения всех вентиляторов. Важно выявлять посторонние звуки и вибрации как можно раньше. Кстати, датчики шума и вибрации стоят дешево. Вести статистику нормального поведения и отклонений можно почти в любой систем учета и управления. А вот нервов и денег они могут сэкономить значительно. Наши специалисты помогут подобрать оптимальный набор и провести интеграцию.
- Провести полное обслуживание всей системы вентиляции – прочистить все каналы, сменить фильтры, провести смазку движущихся частей, проверить трубки на предмет утечек фреона и других технических жидкостей.
- Проверить потоки и температуру во всех частях ЦОДа. Мы уже писали об ошибках проектирования и смешивания горячего и холодного потоков.
- Провести диагностику всех контактов на предмет ослабления и предпосылок замыканий, например, тепловизором.
- Провести диагностику горячих пятен в стойках тем же тепловизором. Возможно, стоит заранее разнести горячее оборудование или предусмотреть дополнительные вентиляторы в серверных шкафах. Иначе время реакции до момента отказа оборудования может снизиться до нескольких минут. А за это время оборудование может просто не успеть выключиться без потери данных или возгорания компонентов.
- Для наиболее критичных систем провести проверку, прочистку систем внутренней вентиляции и замен термопаст (если прошло более 5 лет).
- Проверить и обслужить системы пожаротушения.
- Запастись дополнительными фильтрами на случай резкого повышения уровня загрязнений.
- Разработать или проверить план аварийного выключения части нагрузки или миграции в другой ЦОД. Важно, чтобы администраторы не занимались ручным выключением (и последующим выключением) нагрузки. Желательно изначально «раскрашивать» всю нагрузку и связи для выключения понятными блоками бизнес-систем. Например, гасить тестовые системы, среды разработки, сервисы general, business critical и mission critical в определенном порядке с помощью параметрических скриптов (на основе свойств, а не жесткого списка).
- Важно проработать даже вариант, когда воздух забирается из других помещений и выбрасывается в окно. А для этого нужны и вентиляторы, и заглушки в окна или стены, дополнительные вводы в систему общей вентиляции. Важно не всасывать пыль сразу в серверные (ссылка про фанеру).
- Заключить дополнительный договор на превентивное и экстренное обслуживание и мониторинг с провайдером (естественно лучше с нами).
- Начать подбор и тестирование «дружественных» аналогов, понимая, что такой проект лучше проработать заранее и точно знать, сколько времени займет поставка и замена системы кондиционирования. Например, рассмотреть применение схемы N+1 вместо х2 для снижения нагрузки в случае выхода из строя одного компонента.
Мы готовы помочь провести все эти работы для наших Заказчиков. Чтобы в отпуске и на выходных никакие аварии и неприятности не омрачили ваше настроение, ваших руководителей и клиентов.