Системы хранения данных – теория и практика
Большинство компьютерных систем предназначено для обработки данных (а вовсе не для убития времени играми, как иногда может казаться). Именно данные представляют истинную ценность, являются активом любой организации и подлежат надежному сохранению. Потеря данных может вызвать остановку производства на значительное время и даже повлечь гибель бизнеса. Надлежащее решение задачи сохранности данных зачастую невозможно обеспечить с помощью отдельно взятого устройства. Гарантированный результат могут дать только системы хранения данных (СХД), объединяющие технические и программные средства, технологию работ и организационные мероприятия, обязательно включающие подготовку персонала, поскольку даже не говоря о преднамеренных деструктивных действиях, именно действия персонала являются источником наибольшей угрозы.
основные понятия
Основными понятиями в области систем хранения данных являются
подключение (connectivity),
среда (media),
протокол ввода-вывода (I/O protocol)
и накопитель (storage):
Подключение характеризует место размещения системы или устройства хранения в вычислительной систе-ме. По способу подключения выделяют следующие технологии:
- непосредственного подключения (DAS);
- подключения к локальной сети (NAS);
- подключения к обособленной сети хранения (SAN).
Среда определяет физическую соединительную линию (кабель) и связанный с ней протокол, обеспечивающий подключение. Наибольшее распространение получили следующие технологии:
- Ethernet;
- Fibre Channel;
- Parallel SCSI;
- SSA (применяется в системах IBM).
Протокол ввода-вывода устанавливает взаимодействие запросов ввода-вывода, обеспечивающих перенос данных поверх среды. Наиболее массовыми протоколами являются:
- SCSI;
- NFS;
- CIFS;
- iSCSI (SCSI поверх Ethernet).
Накопитель непосредственно размещает данные на сменном либо встроенном физическом носителе. Основными типами устройств хранения являются:
- оптические накопители (сменный носитель);
- магнито-оптические накопители (сменный носитель);
- накопители на магнитной ленте (сменный носитель);
- жесткие диски;
- «твердотельные» (flash и т.п.) диски.
Каждый из типов накопителей имеет свои плюсы и минусы, специфические технические и ценовые показатели.
типовые задачи
Все многообразие связанных с данными задач может быть сведено к 4 основным группам:
- Архивирование (Archiving)
– долговременное, на протяжении лет и десятилетий, хранение данных, которые постоянно пополняются новыми документами (файлами). Типичный объем хранения составляет сотни гигабайт.
- Резервное копирование (Backup)
– оперативное дублирование критически важных данных, их хранение в течение нескольких месяцев и последующее замещение. Типичный объем хранения составляет десятки гигабайт.
- Реплицирование или оперативное сохранение образа (снимка) системного диска в целях ускоренного восстановления операционной системы, приложений и пользовательских настроек. Типичный объем таких данных составляет единицы гигабайт, сами данные (образы) обновляются периодически или по мере необходимости.
- Предоставление коллективного доступа к данным (Online access)
– ежедневно и оперативно, объем данных варьируется от единиц до десятков гигабайт.
Для каждой группы задач характерны свои индивидуальные требования к аппаратному обеспечению. Одним из важнейших является требование к пропускной способности, определяемое объемом данных и временным интервалом, доступным для их переноса.
проектирование
Решение вопроса надежного хранения данных имеет много нюансов, как технических, так и организационных, и требует специальных знаний. Упрощенная методика проектирования системы хранения:
- определить основное назначение системы либо приоритетную угрозу;
- сформулировать требования к комплексности решения:
-- отдельный компонент (устройство или ПО);
-- комплекс (устройства + ПО);
-- система в целом (устройства, ПО, технологии и регламенты, обучение персонала);
- составить оценку объема данных хранения и прогноз их роста на ближайшие 5-7 лет (экономически целесообразный срок жизни системы);
- определить требования к пропускной способности устройства или системы хранения, исходя из планируемых объемов данных и времени выполнения;
- составить топологию существующей сети с указанием мест размещения источников данных и предполагаемой установки устройств СХД;
- указать имеющиеся сетевую платформу и прикладное ПО управления данными, если такое уже имеется;
- определить предполагаемый бюджет проекта;
- определить менеджера (ответственное лицо), полномочного утверждать технические и финансовые аспекты проекта;
- выбрать исполнителя проекта.
практика
резервное копирование для сервера небольшого предприятия
Описание задачи: в локальной сети существует сервер под управлением операционной системы Novell Net-ware с информационным пространством 30 Гбайт. Ресурсы сервера – это файлы, базы данных Clipper, Fox-Base и другие, база NDS, почтовая система.
пример реализации системы:
- аппаратное обеспечение в виде DLT стримера, использующего картриджи емкостью 20/40 ГБайт (ем-кость 40 ГБайт достигается при возможности эффективного использования стримером аппаратного сжатия);
- программное обеспечение в виде ПО резервного копирования CA ArcserveIT for Netware Single Server, модуля к ArcserveIT для автоматизации резервирования баз данных, NDS, реестров и другой нефайло-вой информации, копирования открытых файлов;
- стратегия организации резервирования – план создания резервных копий для возможности их быстро-го восстановления. Существует несколько стандартных схем создания копий. Полный backup – резервирование всех файлов, инкрементальный backup – копирование файлов, измененных со времени проведения последнего полного или инкрементального копирования. Таким образом, при участии 9-ти носителей будут сохранены соответственно 9 версий файлов (меняющихся ежедневно) и обеспечено длительное хранение картриджей, т.к. частые чтение-запись на магнитную ленту укорачивает срок ее службы. Чтобы восстановить ту или иную копию файла, необходимо сделать запрос в системе Arcserve, которая, в свою очередь, определит и сообщит на каком носителе она (копия) находится. Ориентировочная стоимость такого решения - $4000.
архивная система банка
Описание задачи: Банк обязан осуществлять архивирование определенной части ежедневного трафика данных. Ежедневный ее объем составляет около 10 мегабайт и имеет тенденцию роста 10-15% в год. Требуемый срок хранения данных, представленных преимущественно в виде заверенных цифровой подписью документов объемом в 2 килобайта, составляет 75 лет.
пример реализации системы:
- аппаратное обеспечение для иерархического хранения данных: сервер Belsoft c дисковой RAID-системой, библиотека для CD и DVD дисков NSM 2000 4Stor, рабочее место оператора, оснащенное устройством записи CD/DVD дисков. Опционально предлагается ленточный накопитель Ultrium;
- управляющее программное обеспечение на базе SmartStor и ПО оригинальной разработки.
оn-line хранилище министерства
Описание задачи:
Для центрального кластера серверов организации необходимо обеспечить отказоустойчи-вое хранение баз данных Oracle начальным объемом 400GB. Хранилище должно обладать возможностью расширения до 1TB и более.
пример реализации системы:
- аппаратное обеспечение в виде 2 дисковых FC-AL массивов Sun StorEdge T3, объединенных в парт-нерскую группу (16+2 диска по 36GB);
- программное обеспечение Veritas Volume Manager.
железо
Sun StorEdge T3.
Семейство дисковых массивов StorEdge T3 предназначено для построения централизованных хранилищ данных для критически важных приложений. Основа семейства - массив T3 - может применяться как самостоятельное устройство емкостью до 560GB, и как строительный блок хранилища данных суммарной емкостью до 3.9TB (8 массивов RAID-5, 8+1) в одном монтажном шкафу (Sun StorEdge T3 Workgroup). Дисковые массивы Sun StorEdge T3 обладают совместимостью со всеми основными операционными системами – Sun Solaris, Linux, WinNT(2000), HP UX, IBM AIX и готовы к подключению и в качестве NAS, и как элемент SAN. Массив Sun StorEdge T3 построен по модульному принципу и включает в себя:
- шасси с двумя блоками питания;
- Fibre-Channel RAID контроллер с 256MB кэш-памяти;
- два формирователя петель FC-AL с «горячей» заменой;
- 9 дисков «горячей» замены с двойным интерфейсом FC-AL;
- интерфейсную карту для объединения массивов со встроенными элементами диагностики и управления, работающую под управлением ОС Solaris. Отличительной особенностью массива Sun StorEdge T3 является удачно спроектированный конвейерный RAID-контроллер, который может одновременно поддерживать разнные уровни RAID. Изначально массив конфигурируется заводом-изготовителем как RAID-5 из 8+1 FC дисков по 18, 36 или 73GB со скоростью вращения шпинделя 10’000 rpm. Для повышения надежности хранения Sun Microsystems предлагает специально сконфигурированную партнерскую группу (Workgroup), построенную из двух массивов Sun StorEdge T3. При таком объединении исчезает единая точка отказа – RAID контроллеры, обеспечивая зеркалирование кэш-памяти массивов, образуют отказоустойчивую пару. При объединении в партнерскую группу происходит реальное, практически двукратное увеличение производительности системы, так как хранящиеся данные распределяются уже по всем 18 приводам. Производительнось группы составляет 8’800 IOPS на паре контроллеров (100% чтение из кэша). Для построения консолидированных хранилищ данных (Enterprise) Sun Microsystems предлагает использовать объединение партнерских групп. В этом случае в монтажном шкафу монтируются до 4-х парных массивов, обеспечивая общую емкость 1.3, 2.6, или 3.9 TB (RAID-5, 16+2 на каждой паре). Составным компонентом хранилища является программное обеспечение:
- Sun StorEdge Management Console
- Sun StorEdge Component Manager
- Sun Remote Services Ready
Для «тонкой» настройки и управления массивом разработано и предлагается дополнительное программное обеспечение, в частности Veritas Volume Manager.
Юрий Ганчаронок, ЗАО «НПП Белсофт»
Сетевые решения. Статья была опубликована в номере 01 за 2002 год в рубрике технологии