Предсказание надежности — важнейшая функция

В наши дни надежность ценится все больше. Покупая автомобиль, мы непременно хотим приобрести надежный. Приятно иметь надежных друзей, а директор счастлив, если его работники отличаются надежностью.

Производители дисковых накопителей из сил выбиваются, повышая надежность своих изделий, стремясь удовлетворить запросы пользователей. И хотя люди не всегда могут достоверно оценить надежность других людей или машины, которой они управляют, разработчики дисковых накопителей сделали гигантский шаг вперед в предсказании надежности винчестеров. Этот шаг связан с изобретением технологии S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology - технология самомониторинга, анализа и оповещения).

Компьютерные пользователи вынуждены сегодня возлагать большие надежды на надежность хранения данных. Многие из них даже не представляют себе, что будут делать, если информация погибнет в результате поломки винчестера. И хотя постоянные технологические усовершенствования сделали потерю данных довольно-таки редким явлением, полностью исключить такую неприятность нельзя. Технология предсказания надежности открывает возможность предвидеть сбой дискового накопителя, а своевременное предупреждение позволяет системе или пользователю успеть срочно сделать резервную копию.

Такой технологией предсказания надежности и является S.M.A.R.T., реализованная в винчестерах с обоими интерфейсами - как со SCSI, так и IDE/АТА. Впервые предложенная корпорацией Compaq технология S.M.A.R.T. в дальнейшем была поддержана в разработках пятью крупнейшими мировыми производителями жестких дисков - Seagate Technology, IBM, Conner Peripherals, Western Digital и Quantum.

Эволюция S.M.A.R.T.

Технология предсказания надежности возникла на почве острой потребности защитить критически важную для пользователей информацию, хранящуюся на жестких дисках. С ростом системных требований к емкости дисковой памяти и началом широкого внедрения многодисковых массивов лидеры индустрии осознали важность создания системы раннего предупреждения, которая обеспечила бы достаточно времени для резервирования данных перед грозящей опасностью выхода накопителей из строя. Чтобы понять, как развивалась S.M.A.R.T., необходимо рассмотреть ее корни, которые базируются на технологиях, разработанных IBM и Compaq.

Предложенная IBM технология предсказания надежности называется PFA (Predictive Failure Analysis). Она заключается в измерении нескольких параметров, включая высоту полета головок над поверхностью дисковых пластин, чтобы предсказать приближающийся сбой. Дисковые накопители, почувствовав ухудшение (деградацию) параметров своей работы, таких как упомянутая высота полета головок, посылают хост-системе сообщение, что может произойти авария. После получения предупреждения пользователи получают возможность предпринять действия, необходимые для обеспечения безопасности своих данных.

Немногим позже корпорация Compaq сообщила о революционной разработке в области диагностики, названной IntelliSafe. Эта технология, разработанная при участии Seagate, Quantum и Conner, отслеживает множество показателей и посылает управляющей программе предупреждение и информацию о пороге опасности. Дисковый накопитель затем решает, насколько вероятен сбой, и в свою очередь передает сообщение системе вместе с вызвавшим тревогу показателем и пороговым значением. Показатели и пороговые значения, реализованные в IntelliSafe, варьируются для жестких дисков каждого производителя, но интерфейс и способ, которым сообщения передаются хост-системе, общие для всех.

Compaq постаралась сделать IntelliSafe общедоступной, представив свои спецификации для вычислительной среды IDE/АТА (документ SFF-8035) в мае 1995 года комитету Small Form Factor Commitee. Компания Seagate быстро определила, что технология предсказания надежности сулит громадные выгоды пользователям, и исследовала возможность сделать версию, доступную другим системным ОЕМ-производителям, интеграторам и независимым производителям программного обеспечения. В разработке этой новой версии она объединилась с фирмами Conner, IBM, Quantum и Western Digital. В результате их сотрудничества и появилась технология S.M.A.R.T., в которой сочетаются концептуальные элементы IntelliSafe от Compaq и PFA от IBM.

Возможности S.M.A.R.T. охватывают целые серии показателей, или атрибутов диагностики, подбираемые специально для каждой модели накопителя. Индивидуальный подход при выборе атрибутов очень важен, поскольку архитектура жестких дисков изменяется от модели к модели. Показатели и пороговые значения, которые определяют предсбойное состояние для одной модели, могут ничего не означать для другого винчестера. Другими словами, архитектура привода определяет, какие показатели надлежит измерять и при переходе какого порогового значения стоит бить тревогу.

Хотя не все сбои можно предсказать, следует ожидать развития S.M.A.R.T. как технологии по мере накопления опыта в точном предсказании надежности. Постоянные изменения показателей и их значений, связанные с развитием дисковых технологий, также приводят к необходимости индивидуальной настройки и могут послужить основой для улучшения самой технологии предсказания.

Одни сбои предсказуемы,а другие - нет Дисковые накопители должны быть способны отслеживать множество показателей, чтобы обеспечить исчерпывающее предсказание надежности. Один из важнейших элементов в этом деле - понять, что такое сбой. Условно сбои можно разделить на предсказуемые и непредсказуемые.

Непредсказуемые сбои происходят быстро, как в случае проблем с электроникой или механикой привода, таких, например, как бросок напряжения питания, который может повредить чипы или даже схему в целом. Повышение качества, совершенствование конструкции, технологии и производства могут уменьшить вероятность непредсказуемых аварий.

Предсказуемые сбои характеризуются деградацией того или иного параметра с течением времени, прежде чем диск выйдет из строя. Это создает возможность выбора показателей, которые можно отслеживать, чтобы на базе их анализа предсказать сбои. Многие механические сбои обычно расцениваются как предсказуемые, такие, например, как деградация высоты полета головок, которая говорит о возможности повреждения поверхности дисковых пластин (так называемое крушение головок). Некоторые электронные сбои можно отследить по деградации атрибутов, прежде чем они наступят, но чаще именно механические проблемы являются постепенно нарастающими и предсказуемыми.

Наглядна аналогия с автомобилем. Уровень масла является функцией, или атрибутом, который может быть проконтролирован в большинстве машин. Когда система диагностики автомобиля почувствует, что уровень масла стал опасно низким, загорается предупреждающая лампочка на панели управления. Водитель может остановить машину и спасти двигатель от неприятностей. На такой же манер S.M.A.R.T. предупреждает, что стоит заняться процедурой резервирования, и сохраняет в целости пользовательские данные.

Механические сбои, которые в основном являются предсказуемыми, составляют около 60 процентов от всех дисковых сбоев. Это число важно, поскольку показывает большие возможности использования технологий предсказания надежности. С развитием технологии S.M.A.R.T. все большее число сбоев становится предсказуемым и попадает в поле ее ответственности, а вероятность потери данных уменьшается.

Как определяются атрибуты Технология S.M.A.R.T. подобна мозаике. Она состоит из множества кусочков, которые, будучи собраны правильным образом, образуют полную картину. Понимание того, что есть сбой, является одним куском мозаики. Другой - способ определения атрибутов.

Атрибуты - это параметры, по которым предсказывается надежность, они определяются производителем для каждого типа накопителей. Чтобы выбрать такие показатели, конструкторы из компании Seagate изучали возвращенные вышедшие из строя винчестеры, определяя конструктивные точки и подбирая атрибуты, которые могут сигнализировать о типах неисправностей, попавшихся им среди возвращенных фирме устройств.

Информация, полученная в ходе опытных работ, используется для предсказания надежности, и в то же время архитектуры с новым уровнем надежности могут создаваться на базе исследования контролируемых атрибутов.

Хотя показатели зависят от типа накопителей, множество типовых показателей вычисляется путем замера: - высоты полета головок, - пропускной способности передачи данных, - времени разгона дисков, - числа перемещенных секторов, - количества ошибок поиска, - уходящего на поиск времени, - числа попыток установления скорости вращения, - числа попыток калибровки.

Перечисленные атрибуты иллюстрируют типовые разновидности индикаторов надежности. Какие из параметров будут выбраны для предсказания надежности, определяется производителем, так как они зависят от конструкции накопителя.

Две спецификации S.M.A.R.T.

Технология S.M.A.R.T. была подготовлена для оборудования IDE/АТА после представления спецификации SFF-8035 публично. Накопители SCSI строятся на основе разных спецификаций и стандартов, которые определяются документом X3T10/94-100 организации ANSI. Используемая компанией Seagate программа систем S.M.A.R.T. включает оба индустриальных стандарта, благодаря чему эта технология доступна для накопителей с интерфейсом как IDE/АТА, так и SCSI.

Атрибуты и пороговые значения для системы предсказания надежности S.M.A.R.T. одинаковы для обоих интерфейсов, отличаются лишь предупреждения о грозящей опасности. В системах на основе IDE/АТА программное обеспечение хост-компьютера интерпретирует тревожный сигнал, полученный от накопителя в результате выполнения команды report status, описанной спецификацией S.M.A.R.T. Хост регулярно опрашивает накопитель и проверяет по этой команде состояние устройства. Если полученный при очередном обращении за статусом сигнал говорит о грозящем сбое, выдается соответствующее предупреждение пользователю или системному администратору. Благодаря этому у системного администратора появляется возможность перенести на ближайшее время запланированную процедуру резервирования данных и заменить накопитель.

Такая схема допускает расширение в будущем, когда появятся сообщения, касающиеся показателей не только жестких дисков, такие как предупреждения о перегреве, нарушении функционирования приводов CD-ROM, стриммеров и других устройств ввода/вывода. Хост-система способна обрабатывать атрибуты и сообщать о сбоях, пользуясь не только командой report status для жестких дисков.

В общих чертах накопители SCSI со встроенным предсказанием надежности сообщают системе лишь сведения о том, нарушены условия надежной работы или нет.

В аппаратуре на основе SCSI решение о сбое принимается самим дисковым накопителем, а хост лишь предупреждает пользователя. В спецификации интерфейса SCSI предусмотрен бит, который должен быть взведен, если накопитель определит, что существует угроза надежности. Система после этого выдает сигнал тревоги пользователю или администратору.

Роман Соболенко,по материалам Seagate


Компьютерная газета. Статья была опубликована в номере 38 за 1997 год в рубрике hard :: технологии

©1997-2022 Компьютерная газета