подходы к построению многоуровневых систем хранения данных

коротко о главном

С каждым днем предприятиям требуется хранить все больший объем информации — и больше различных типов информации — в течение более длительных периодов времени. При этом необходимо обеспечить сохранность этой информации как в краткосрочной перспективе — для быстрого восстановления, так и в долгосрочной перспективе — для совершенствования процесса управления компанией (для принятия управленческих решений). ИТ-менеджерам нужны новые решения для хранения данных — и аппаратные, и программные, — которые позволили бы выделять в системах хранения данных взаимодополняющие уровни хранения данных, каждый из которых оптимизирован в соответствии с конкретными специфическими требованиями к производительности, емкости, надежности и стоимости хранения данных.

В ближайшие два года приоритетной целью для производителей систем хранения данных станет воплощение идеи многоуровневых систем хранения данных (далее – СХД) в удобную реальность. Этот процесс потребует дальнейшего развития как аппаратных, так и программных средств, а также стимулирует разработку новых архитектур систем и устройств хранения данных.

Новые решения для создания многоуровневых СХД должны обеспечивать:

- поддержку многочисленных и разнородных (гетерогенных) СХД, которые можно разделять на уровни хранения, соответствующие специфическим требованиям к хранению различных типов данных;

- общие (единые) средства репликации данных, которые позволят перемещать данные между уровнями СХД, приводя в соответствие ценность данных и этап их жизненного цикла с показателями доступности, производительности, безопасности и стоимости уровня хранения;

- масштабируемую виртуализацию, позволяющую управлять ресурсами многоуровневой СХД как одним пулом, который можно разделять между пользователями и/или обслуживать как единое целое;

- возможность деления на логические разделы, что позволит использовать одну систему как несколько отдельных систем, настраивая каждую из них в соответствии с требованиями конкретных приложений или групп пользователей.

Решение, обладающее перечисленными возможностями и потенциально способное изменить устоявшийся рынок CХД, IDC называет сетевым контроллером хранения (Networked Storage Controller, NSC). NSC — это новая категория продуктов на рынке решений для хранения данных, включающая как аппаратные, так и программные компоненты. По мнению IDC, NSC окажет значительное влияние на развитие архитектур хранения данных. Использование NSC позволит расширить возможности интеллектуальных дисковых массивов, обеспечив управление многочисленными прикрепленными (attached) внешними системами хранения данных без ущерба для производительности или надежности.

текущее положение дел

Емкость систем хранения данных, которые используются на современных предприятиях, достигает такого уровня, при котором традиционные системы хранения данных перестают соответствовать потребностям организаций с точки зрения гибкости, экономической эффективности и удобства администрирования. Проведя недавно опрос* 492 ИТ-менеджеров в средних (100-1000 сотрудников) и крупных (>1000 сотрудников) американских компаниях, IDC установила, что средняя емкость СХД (исключая системы для настольных компьютеров) в этих организациях составляет 298 ТБ. СХД наиболее крупных компаний, в которых число сотрудников превышает 10000, имеет еще большие объемы — в среднем 578ТБ.

Исследование IDC ясно показывает, что в ближайшем будущем потребность компаний в увеличении емкости этих систем продолжит расти (см. рис. 1). По прогнозу IDC, с 2005 по 2008 год общая емкость систем хранения данных, ежегодно устанавливаемых по всему миру, увеличится на 367%, с 1,786 ПБ до 6,562 ПБ. В то же время, что так же ясно показывает рис. 1, сумма, которую компании потратят на аппаратное обеспечение дисковых систем, чтобы достичь этой новой емкости, в течение того же периода времени увеличится очень незначительно, с $23,5 млрд. до $25,6 млрд.



Рис. 1. Общемировой прогноз для дисковых систем хранения данных: расходы и емкость, 2004-2008 гг. (источник - IDC, 2005 г.).

Таким образом, компании планируют значительно увеличить емкость CХД, но при этом рассчитывают сохранить низкие темпы роста расходов на оборудование СХД и на ИТ-персонал, который устанавливает эти системы и управляет ими. Изменение потребностей компаний приводит и к изменению состава хранящейся информации.

Кроме того, в упомянутом исследовании компания IDC попросила ИТ-менеджеров указать те приложения и типы данных, на которые расходуется емкость систем хранения данных на их предприятии. Объем данных и диапазон типов данных, которые стимулируют инвестиции компаний в СХД, сильно различаются независимо от размера компаний (см. рис. 2). По-прежнему значительная часть ресурсов СХД выделяется на базы данных и общие файловые сервисы (файловые системы), то есть на типы приложений, существующие уже в течение десятилетий. Оптимизация систем хранения данных также производится, в основном, исходя из специфических требований к производительности именно этих приложений.



Рис. 2. Емкость (в процентах) дисковых систем хранения данных, выделяемая на предприятиях под различные приложения, в зависимости от размера компании.

С другой стороны, большой интерес вызывает значительная (и быстро растущая) доля дисковой емкости, выделяемая для хранения данных таких относительно недавно появившихся приложений, как электронная почта, веб-серверы и цифровой контент. Чтобы более эффективно удовлетворять потребности клиентов, компаниям сейчас требуется собирать и хранить самые разнообразные данные (например, истории болезней, переписку с клиентами, изображения и видеозаписи).

Эти новые типы информации и являются главным стимулом для наращивания емкости систем хранения данных; однако требования, которые они накладывают на СХД, часто и радикально различаются по таким характеристикам, как цена/производительность, цена/емкость и управляемость. Поддержка новых типов данных и увеличение жизненного цикла всех данных требуют создания СХД, обеспечивающих большую гибкость в управлении данными, настройке показателей производительности и оптимизации стоимости хранения.

непрерывность бизнеса: необходимо гарантировать доступность всех типов данных

В том же исследовании IDC попросила компании выделить два главных приоритета, которых они будут придерживаться при инвестициях в СХД в текущем году (см. рис. 3). Только два элемента были указаны в качестве главного приоритета более чем 30% из 492 ИТ-менеджеров: увеличение емкости систем хранения данных (37%) и расширение возможностей восстановления после аварий (32%). Кроме того, в значительном количестве ответов упоминались и другие проблемы защиты данных: уменьшение времени восстановления (14 %) и уменьшение окон резервного копирования (интервалов времени, отведенных для подготовки резервной копии) для критически важных приложений (14%).



Рис. 3. Главные приоритеты компаний при инвестициях в системы хранения данных в ближайшие 12 месяцев.

Традиционные СХД долгое время играли значительную роль при обеспечении непрерывности бизнеса. Однако существенное изменение потребностей предприятий сводит на нет применение традиционных СХД для этих целей из-за недостаточной производительности и ограниченных возможностей администрирования. Необходимы новые системы хранения данных, которые позволят экономически эффективно обеспечивать защиту более широких диапазонов информации.

перспективы на будущее

Описанное изменение требований к функционалу СХД находит отражение в изменении запросов, адресуемых предприятиями к поставщикам систем хранения данных. ИТ-менеджеры хотят получить решения, которые позволят им выделять в сетевой системе хранения данных дополнительные уровни,
оптимизированные в соответствии с конкретными требованиями к производительности, емкости, надежности и стоимости хранения.

Создание таких решений станет приоритетным направлением работы производителей систем хранения данных на ближайшее время. Этот процесс потребует развития аппаратных и программных средств, а также будет стимулировать разработку новых архитектур хранения данных.

Что нужно для создания и эффективного использования многоуровневых систем хранения данных?

Для этого требуются устройства хранения данных (возможно, от разных производителей), с различными функциональными возможностями и ценой, которые могут быть поделены на уровни хранения данных, отвечающие уникальным и изменяющимся требованиям для размещения разнообразных типов данных. Наиболее часто предприятия заявляют о необходимости дополнить существующий портфель продуктов для хранения данных системами с низкой стоимостью и высокой емкостью. Эта необходимость такеже подтверждается результатами опроса IDC (см. рис. 4).



Рис. 4. Основные требования компаний к поставщикам систем хранения данных.

Также это исследование позволило выявить ряд функциональных возможностей, реализацию которых заказчики ожидают от производителей систем хранения данных. Среди названного отмечены:

- единые средства для репликации данных, которые позволят перемещать данные между уровнями СХД, приводя в соответствие ценность данных и этап их жизненного цикла с показателями доступности, производительности, безопасности и стоимости уровня хранения;

- масштабируемая виртуализация, позволяющая управлять ресурсами многоуровневой СХД как одним пулом, который можно разделять между пользователями и/или обслуживать как единое целое.

В ходе исследования не задавался вопрос еще об одной важной функции, которая сыграет существенную роль в будущих СХД — логических разделах (logical partition). Логические разделы позволяют распределить ресурсы одного физического устройства хранения данных на несколько виртуальных устройств, каждое из которых можно независимо настраивать для отдельных приложений и/или групп пользователей. Эта стратегия доказала свою эффективность на мэйнфреймах и на крупных UNIX-серверах, поэтому логические разделы должны стать частью любой многоуровневой инфраструктуры хранения данных.

виртуализация: переход от физического к логическому

Объединяя различные ресурсы хранения данных для их использования многими серверами и приложениями, ИТ-специалисты в первую очередь сталкиваются с необходимостью защитить администраторов серверов и приложений от сложностей, связанных с обслуживанием оборудования, реконфигурацией и управлением ресурсами хранения данных.

Для этого системы хранения данных должны поддерживать уровни логической абстракции (обычно называемой виртуализацией) между физическими портами на данном дисковом массиве, блоками данных на конкретных дисковых группах и логическими томами или файлами, к которым серверы или приложения должны иметь доступ.

В частности, необходимо разработать следующие сервисы виртуализации:

Виртуализация подключения к SAN. Так как к дисковому массиву через SAN получают доступ несколько (иногда десятки) серверов, то распределение физических портов массива между ними превращается в обременительную управленческую проблему и становится препятствием для полного использования возможностей СХД. Производители систем хранения данных должны разработать такие продукты, которые позволят создавать несколько виртуальных портов на одном физическом порте Fibre Channel, а также управлять этими портами.

Виртуализация логических дисков и томов. Любая модификация приложения (например, добавление новых серверов, устройств хранения данных или функций) требует выполнения сложного комплекса действий по изменению настроек - как на серверах, так и на дисковых массивах. Эти действия могут быть причиной ошибок и простоев, что увеличивает время, необходимое на развертывание и модификацию приложения. Производители систем хранения данных должны разработать надежные сервисы управления логическими дисками (LUN) и томами для распространения расширенных сервисов управления информацией и хранением данных на модульные системы хранения данных, поддерживающие различные типы дисков.

Помимо этих основных сервисов, необходимо создать соответствующее аппаратное обеспечение с производительностью, достаточной для значительного повышения масштабируемости и гибкости решений по виртуализации без ущерба для доступности данных или без увеличения расходов на управление СХД.

согласованное перемещение и восстановление данных

Репликация данных (внутри одной системы и между двумя и более системами) является той важной функцией СХД, для которой необходимо как можно быстрее преодолеть ограничения, имеющиеся в существующих системах хранения данных. На настоящий момент решения по копированию данных, например такие, как моментальные снимки данных (snapshot) для резервного копирования в автономном режиме, часто функционируют только на каком-либо одном семействе дисковых массивов. Удаленное копирование на другую систему хранения данных хотя и возможно в случае установки необходимого программного обеспечения на каждой из систем, но обычно функционирует только на однородных (часто очень дорогих) системах, что вынуждает ИТ- менеджеров создавать островки из недоиспользованных систем хранения данных. Все это разнообразие приводит к росту затрат на администрирование и сокращает возможности взаимодействия.

Сочетание репликации данных с виртуализацией управления томами позволит существенно усовершенствовать механизмы перемещения, защиты и восстановления данных. Благодаря этому можно более эффективно использовать уже существующие системы в качестве вторичных систем хранения данных, например для быстрого локального восстановления или для долгосрочного хранения не изменяющихся данных.

Еще более важно, что это дает возможность установить согласованные политики копирования и восстановления данных на всех системах хранения. Такая согласованность позволит сократить управленческие расходы и одновременно значительно улучшит защиту данных для всех типов корпоративной информации.

Производители СХД должны разработать решения, поддерживающие:

- широкий спектр функций репликации для производимых ими же продуктов;

- функции репликации для множества других платформ, чтобы предприятия могли реализовывать решения, наилучшим образом соответствующие их потребностям.

логическое разбиение: настройка СХД под динамические требования

Третьей важной функцией, на которую пока обращают мало внимания, но которая в конечном счете станет основой для любой эффективной многоуровневой СХД, является возможность создания логических разделов. Они позволяют максимально использовать ресурсы, по-прежнему гарантируя, что во время пиковых нагрузок критически важные приложения получат всю необходимую им вычислительную мощность.

Усложнение технологий многоуровневого хранения данных, так же как потребность в виртуализации и единых средствах репликации данных, превращают наличие логических разделов в обязательную функцию для будущих поколений систем хранения данных. Разбиение на логические разделы должно включать:

- логические и физические SAN-порты (например, установка различных уровней пропускной способности для отдельных виртуальных портов на основании фактических требований сервера/приложения);

- кэш-память (например, выделение кэш-памяти устройства хранения (storage cache) в зависимости от интенсивности процесса чтения/записи для каждого логического диска);

- распределение процессорной мощности для отдельных логических дисков (LUN) или томов (например, динамическое выделение различной вычислительной мощности в зависимости от времени дня или календарной даты).

Таким образом, поставщики аппаратных и программных средств для хранения данных должны разработать такие технологии создания логических разделов, которые обеспечат динамическое выделение любых ресурсов хранения данных.

средства для построения многоуровневой СХД — возможные варианты

Реализация новых функциональных возможностей (расширенные возможности виртуализации, единые средства репликации данных и разбиение на динамические логические разделы) для создания многоуровневых СХД требует роста доли инвестиций в программное обеспечение по сравнению с традиционными системами хранения данных, особенно в средства управления гетерогенной средой хранения данных. И действительно, в течение последних двух лет все основные производители систем хранения данных значительно увеличили объем своих инвестиций в разработку программного обеспечения и в приобретение дополнительных программных продуктов у сторонних разработчиков.

Однако такой акцент на разработке программного обеспечения приводит к игнорированию другой, не менее важной проблемы. Размах планов по внедрению многоуровневых СХД остро ставит перед поставщиками этих систем задачу разработки новых аппаратных платформ, поддерживающих упомянутые дополнительные программные функции. При этом, как и при любой эффективной разработке аппаратного обеспечения, разработчики пытаются удовлетворить множеству критериев, чтобы создать оптимальные решения для конкретных групп клиентов. В случае многоуровневых систем хранения данных наиболее важными критериями являются доступность данных, масштабируемость производительности, модульность системы, простота интеграции программного обеспечения, возможность взаимодействия с другими устройствами хранения данных и (как всегда) общая стоимость.

Рассмотрим подробнее различные подходы производителей систем хранения данных и их партнеров к разработке нового поколения аппаратной платформы для многоуровневой СХД. Эти методы отражают сегментацию, которую IDC использует в настоящее время при исследовании решений для многоуровневого хранения данных. Выбор наилучшей платформы для создания многоуровневой СХД в том или ином случае зависит от нескольких факторов, включая максимальный объем подлежащего контролю пула данных, сложность поддерживаемых приложений и степень необходимости тех или иных функциональных возможностей.

контроллеры дисковых массивов (array-based): традиционное решение

Использование встроенных контроллеров дисковых массивов в качестве аппаратной платформы для таких сервисов, как виртуализация и репликация, отражает текущий, традиционный подход к обеспечению функционирования дополнительных сервисов хранения данных. Этот метод хорошо работает для небольшого количества устройств хранения данных и ограниченной сложности приложений, использующих эти устройства.
Однако такой способ имеет несколько существенных недостатков, которые заведомо ограничивают сферу его применения небольшими однородными инфраструктурами, а именно:

- ограниченная масштабируемость: контролируемая емкость и доступная производительность ограничены возможностями конкретного дискового массива; - невозможность распространения на другие системы: сервисы виртуализации и репликации могут использоваться только в архитектуре "система к системе", что увеличивает сложность и уменьшает возможности применения;

- недоиспользование ресурсов: программное обеспечение должно быть установлено на каждой системе, независимо от того, требуется ли это для выполнения основных функциональных задач данной системы;

- ограниченная способность к взаимодействию: ПО обычно является специфическим для разных классов систем, и, за небольшим исключением, одна и та же реализация расширенных сервисов обработки данных не может использоваться на системах разных типов даже от одного и того же производителя, тем более от разных производителей.

автономные специализированные устройства (appliance): ограниченная масштабируемость ограничивает будущее

Другой подход к реализации платформы для расширенных сервисов хранения данных (виртуализации, репликации данных, миграции данных) — использование автономных специализированных устройств (appliance), размещаемые в сети хранения данных (in-band) между серверами и устройствами хранения данных. Подобные решения поставляются компаниями CNT, FalconStor и HP.

Существует несколько типов автономных устройств:

- стандартные серверы с адаптерами(HBA) Fibre Channel;

- специально сконфигурированные устройства (оптимизированные по производительности и надежности) на базе стандартных процессоров, имеющие большую кэш-память и специализированные (выделенные) FC-соединения;

- устройства или blade-модули на базе интегральных микросхем ASIC со встроенными соединениями Fibre Channel.

Автономные устройства не имеют некоторых недостатков, присущих решениям на базе контроллеров дисковых массивов. Они обеспечивают
функционирование дополнительных сервисов для множества различных и разнородных устройств, включая системы от разных поставщиков. Благодаря использованию в автономных устройствах стандартных операционных систем, разработка приложений для них также осуществляется намного быстрее, чем в случае встроенных решений. Однако реализации, основанные только на стандартных серверах, по-прежнему имеют недостаточную производительность. Основные же ограничения, связанные с этим методом, следующие:

- недостаточная производительность и масштабируемость в случае больших объемов данных (сотни ТБ). Отметим, что для устранения этого ограничения некоторые поставщики используют кластерные технологии;

- проблемы с целостностью системы и данных, так как любая потеря соединения между кэшем специализированного устройства и дисковой системой может привести к потере данных;

- возникновение задержек из-за открытия и перенаправления пакетов данных, а также из-за необходимости актуализации информации о местонахождении логических дисков (LUN) для каждой дисковой системы;

- потенциальные проблемы с безопасностью данных, так как каждый пакет данных открывается для получения информации о маршрутизации, что в результате может отразиться на комплексной (end-to-end) целостности данных.

интеллектуальные FC-коммутаторы: использование растущих возможностей SAN

Еще один подход к созданию платформы для функционирования дополнительных сервисов хранения данных состоит в использовании растущей производительности и интеллектуальных средств, встроенных в FC-коммутаторы SAN. Как и в случае локальных сетей передачи данных, где интеллектуальные Ethernet-коммутаторы могут управлять маршрутизацией IP-трафика на уровне порта, FC-коммутаторы могут использовать обработку на уровне портов, чтобы быстро выполнить достаточно сложные операции по маршрутизации отдельных блоков информации. К таким операциям относятся: виртуализация логических дисков (LUN), синхронная репликация данных и преобразование данных между несовместимыми сетевыми стандартами (FC-iSCSI шлюзы).

Многие известные производители систем хранения данных и/или программного обеспечения, включая EMC и VERITAS (недавно была приобретена компанией Symantec), стремятся использовать новое поколение FC-коммутаторов от основных поставщиков такого оборудования — Brocade, Cisco, CNT и McDATA. Использование интеллектуальных FC-коммутаторов требует наличия сервера политик, который бы управлял параметрами политик для отдельных портов и обрабатывал редкие исключительные ситуации. Основная часть ПО, используемого для установки и управления расширенными сервисами обработки данных, будет размещена на серверах политик.

Очевидно, что для реализации такого подхода требуется наличие постоянных соединений между сервером политик и интеллектуальными FC-коммутаторами. Однако на сегодня не существует стандартных протоколов (проект сейчас рассматривается) для таких соединений; поэтому каждый поставщик программного обеспечения должен разрабатывать отдельные решения для работы с каждым из основных FC-коммутаторов.

Помимо упомянутых выше проблем, для этого метода существует несколько других ограничений:

- возможность потери данных в случае сбоя соединения между коммутатором и дисковой системой (хотя в таком случае задержка часто меньше, чем в случае использования специализированных устройств, но, тем не менее, для приложений с большим количеством транзакций проблема остается актуальной);

- проблемы обеспечения целостности системы защиты данных, задержек из-за открытия и перенаправления пакетов данных и вследствие необходимости постоянной актуализации информации о логических томах (LUN) также актуальны для этого подхода;

- хотя совокупная производительность и масштабируемость данных решений очень высоки, существующие их варианты имеют ограниченные возможности по настройке отдельных приложений или портов (подобные логическому разбиению), поэтому есть риск не полностью использовать доступную
производительность на одних портах, в то время как другие порты будут перегружены.

Networked Storage Controllers: платформа нового поколения

Новейшая разработка для создания многоуровневой архитектуры хранения данных — это решение, которое IDC называет сетевым контроллером хранения (networked storage controller (NSC)). Как новый класс решений, способный значительно изменить способы построения систем хранения данных, NSC является важной частью рынка СХД, и IDC внимательно следит за ее развитием.

Эта новая категория продуктов, которая появилась на рынке недавно — в 2004 году. NSC — связующее звено между подключенной к серверам сетью хранения данных (SAN) и всеми дисковыми ресурсами. С его помощью можно расширить многие из возможностей интеллектуальных дисковых массивов, обеспечив управление внешними прикрепленными (attached) системами хранения данных без ущерба для производительности, надежности и безопасности (см. Рис. 5).



Рисунок 5. Интеллект в сети хранения данных (Источник: IDC, 2005 г.)

Возможность возложить выполнение многих функций по перемещению и управлению данными на NSC обеспечивает большую гибкость при выборе архитектуры решения. Это позволяет при меньших затратах лучше использовать доступную дисковую емкость, быстрее восстанавливать данные и эффективнее осуществлять текущее управление ресурсами хранения. Появляющиеся решения класса NSC должны:

* обладать надежными интегрированными функциями агрегирования портов, управления логическими томами и репликации данных без риска для безопасности данных и без задержек при передаче данных;

* обеспечить гибкие возможности внедрения без ущерба для согласованности и унификации функций;

* быстро и экономически эффективно масштабироваться с минимальным воздействием на текущие операции, в т. ч. обеспечивать возможность логического разделения ресурсов NSC, чтобы удовлетворять меняющимся требованиям;

* эффективно интегрироваться с другими более высокоуровневыми системами управления ресурсами хранения;

* обеспечить сервисы для быстрого и беспрепятственного перемещения данных на существующих и будущих системах хранения.

NSC-решения должны обеспечить выполнение этих требований без ухудшения показателей производительности, без снижения надежности соединений и без усложнения управления, которое может потребовать значительного увеличения персонала.

Решения на основе NSC разрабатываются двумя группами поставщиков. Одна группа состоит из новых компаний, которые разрабатывают свои собственные NSC-системы, а также интеллектуальные приложения, устанавливаемые на них. Основная трудность для этих компаний заключается в обеспечении совместимости со всеми возможными устройствами хранения данных, с которыми им может потребоваться установить связь, и в разработке надежного набора дополнительных сервисов.

Другая группа состоит из поставщиков уже существующих систем хранения данных (таких как Hitachi Data Systems, IBM и Sun Microsystems), разрабатывающих или уже поставляющих NSC-системы в качестве основных компонентов своих решений, относящихся к новому поколению систем хранения данных.

* - Обзор IDC «Тенденции в развитии систем хранения данных» (Trends in Storage Survey), 2005 г.



Richard L. Villars


Сетевые решения. Статья была опубликована в номере 02 за 2006 год в рубрике технологии

©1999-2024 Сетевые решения