Резервирование, катастрофоустойчивость и аварийное восстановление центра обработки данных в АО Дальневосточный Банк

Февраль 19, 2024
ДВБ Банк - клиент системного интегратора RSi
Партнёр системного интегратора RSi
Партнёр системного интегратора RSi

Самый технологически сложный, уникальный и важный проект для нашей команды.

Банк обратился с запросом на реализацию проекта катастрофоустойчивого центра обработки данных, для обеспечения надежности и непрерывности функционирования бизнеса Компании. Необходимость защиты от возможных аварий и потерь данных требовала комплексного подхода, и клиент решил доверить эту задачу специалистам из RSi.

Цели проекта

  • Обеспечение непрерывности функционирования бизнеса организации.
  • Повышение уровня отказоустойчивости ИТ-инфраструктуры.
  • Расширение функционала аварийного восстановления приложений и сервисов.

Инженеры RSi провели тщательное обследование существующей инфраструктуры клиента и выявили потенциальные уязвимости и точки отказа. Мы предложили модернизировать оборудование резервных центров обработки данных с использованием блэйд шасси DELL MX7000 стоечных серверов DELL PowerEdge, а также классических систем хранения данных DELL Unity XT.

Программную основу предложенного решения составляет комплекс программного обеспечения VMware vSphere®.

VMware vSphere® — это ведущая в отрасли платформа виртуализации, с помощью которой можно надежным образом виртуализировать приложения и поддерживать их вертикальное и горизонтальное масштабирование, а также реализовать новые уровни доступности и упрощение виртуального ЦОД. В результате на выходе получается высокодоступная и устойчивая инфраструктура по требованию, которая является фундаментом для создания облачной среды.

Для обеспечения катастрофоустойчивости и аварийного восстановления используется программное обеспечение VMware Site Recovery Manager.

VMware Site Recovery Manager — это программное обеспечение для автоматизации, которое использует базовую технологию репликации для реализации управления на основе политик, тестирования без прерывания рабочих процессов и для автоматизированного управления планами восстановления. Оно предназначено для виртуальных машин и масштабируется для управления всеми приложениями в среде VMware vSphere.

Аппаратное обеспечение резервного ЦОД-1:

— Блэйд шасси DELL MX7000 в конфигурации:

  • DELL PowerEdge Servers MX760C
  • Ethernet Switches Dell EMC MX5108n 25GbE Eth Switch
  • Fibre Channel Switches MXG610s

DELL MX7000 представляет собой конвергентную платформу, которая объединяет вычислительные, хранилищные и сетевые ресурсы в единую, легко масштабируемую систему с централизованным управлением всеми компонентами через единый интерфейс.

Система предоставляет возможность добавления вычислительных узлов, хранилища и сетевых модулей без прерывания работы приложений.

Платформа DELL MX7000 предоставляет механизмы для обеспечения отказоустойчивости, включая резервирование ресурсов и возможность автоматического восстановления после сбоев.

— Система хранения данных Unity XT480F

Система хранения Dell EMC Unity XT 480F класса All-Flash обеспечивает стабильно высокую производительность для рабочих нагрузок среднего уровня. Эта унифицированная платформа хранения данных обеспечивает высокую производительность и поддержку NVMe. Она гарантирует высокоскоростной доступ к бизнес-данным с возможностью одновременного запуска смешанных рабочих нагрузок приложений, сокращения объема данных на лету и предоставления сервисов управления данными без последствий для производительности.

Dell EMC Unity XT 480F может сокращать объемы данных с коэффициентом 5:1, что позволяет уменьшить площадь, занимаемую СХД, и снизить совокупную стоимость владения.

Аппаратное обеспечение резервного ЦОД-2:

— Серверы DELL PowerEdge R660

Сервер Dell PowerEdge R660 – производительная модель нового поколения G16 корпоративного уровня на базе 2 процессоров Intel Xeon Scalable Gen4, до 56 ядер на ЦПУ, поддержка до 3 GPU, память DDR5 до 32 модулей ОЗУ, 3 PCIe, до 16 дисков

Это полнофункциональный корпоративный сервер, предназначенный для оптимизации даже самых требовательных рабочих нагрузок, таких как плотная аналитика баз данных и виртуализация высокой плотности.

— Система хранения данных Unity XT480F

Первым шагом была выполнена модернизация резервных центров обработки данных, что позволило улучшить их надежность и эффективность.

Выполнив монтаж и первичную настройку оборудования команда инженеров RSi произвела установку и запуск программного обеспечения vSphere на новом оборудовании.

Специалисты RSi настроили и интегрировали в инфраструктуру клиента программное обеспечение VMware Site Recovery Manager, создав конфигурацию, которая позволяет автоматически восстанавливать работу систем в случае сбоев или катастрофических ситуаций основного центра обработки данных. В ходе интеграции инженеры настроили функциональные компоненты VMware Site Recovery Manager, обеспечивая надежную и эффективную работу системы аварийного восстановления.

 

Общая схема проекта:

Основные этапы настройки:

Настройка Site-Pairs. Выполнено связывание центров обработки данных между собой для организации репликации и аварийного восстановления согласно разработанным схемам.

Настройка репликации хранилищ: Наши специалисты провели тщательную настройку процесса репликации данных между основным и резервным центрами обработки данных. Это позволяет получать доступ к актуальным данным в случае сбоя в основном центре.

Создание Protection Groups: Группировка защищаемых виртуальных машин по типу и направлению репликации, а также прикрепление групп к планам восстановления.

Разработка Recovery Plans: Инженеры разработали и настроили планы восстановления, которые определяют последовательность действий, приоритеты и зависимости восстанавливаемых виртуальных машин, а также автоматические процессы для быстрого восстановления после аварийных ситуаций, возникших в результате катастрофы или сбоя.

Настройка Mappings. Выполнена настройка соответствия ресурсов между центрами обработки данных для обеспечения корректности данных при восстановлении виртуальных машин на аварийных площадках.

Также проведен комплекс испытаний, подтверждающий работоспособность всех компонентов внедренных решений.

Результат:

Банк получил надежную и катастрофоустойчивую инфраструктуру обработки данных, которая обеспечивает бесперебойную работу бизнес критичных приложений.