переосмысление роли реляционных БД

Реляционные базы данных настолько въелись в сознание ИТ- и бизнес-профессионалов, что их заведомая пригодность для решения практически любых задач по управлению данными редко ставится под сомнение. Однако пришло время пересмотреть это общепринятое мнение.
Конечно, столь безапелляционное суждение оправдано, так как системы управления реляционными базами данных (СУРБД) обеспечивают мощные инструменты, средства для манипуляции часто меняющейся информацией, поддержку большого числа одновременно работающих пользователей и много других возможностей.

Однако практически все эти достоинства СУРБД не соответствуют характеру большей части тех данных, которые генерируются на современном предприятии. Это несоответствие наглядно проявляется в контексте управления жизненным циклом информации (Information Lifecycle Management, ILM), или выбора способа манипуляции данными с момента их создания до выхода из употребления. ILM быстро завоевывает популярность среди корпоративных ИТ-подразделений как эффективный метод архивирования при быстро растущих объемах данных.

Рассмотрим две насущные проблемы, составляющие первоочередные задачи для каждого американского предприятия — требования технологии RFID и акта Сарбанеса-Оксли. В отношении исходных данных у них много общего с другими, более специальными задачами ИТ, такими как учет информации операторами мобильной связи или учет продукции на промышленных предприятиях.

Гигантские объемы данных, генерируемые такими источниками, относятся к прошлым бизнес-событиям. Эту категорию данных отличают три ключевых характеристики:
1) Записи генерируются с высокой скоростью (как правило, автоматически), что приводит к большим объемам сохраняемых данных.
2) После создания записей они больше никогда не изменяются.
3) Записи должны сохраняться главным образом с целью архивного хранения, и обращаться к ним будут редко (если вообще будут).

Регистрация мобильных звонков в течение двух недель легко заполняет базу данных объемом в четыре терабайта и больше, а так называемые мобильные сети 3G увеличат этот объем в десять-двадцать раз. Что касается регистрации меток RFID, то ожидается, что крупные ритейлеры и дистрибьюторы будут генерировать десятки терабайт, а по некоторым невероятным оценкам, даже миллионы терабайт записей ежедневно.

Здесь-то и зарыта собака. Функциональность реляционных баз данных — с их транзакционными, динамическими и многопользовательскими возможностями — значительно богаче потребности в простой сортировке и доступе для однократной записи и в редких случаях прочтения бизнес-информации. Эта избыточная функциональность требует ощутимых инвестиций в оборудование и ПО, которые растут пропорционально объему регистрируемых данных. Затраты могут легко вылиться в семизначные цифры, так что даже самому обильно финансируемому вычислительному центру будет нелегко решить эту проблему.

Ответ, вероятно, лежит в дополнении СУРБД технологией, отвечающей требованиям регистрации и хранения больших объемов однократно записываемых данных. По иронии судьбы, таким требованиям сегодня и в будущем превосходно отвечает технология, изначально предназначенная для журналов регистрации событий: неструктурированный файл.

Издавна связываемый с внутренними базами данных приложений и настольными программами, неструктурированный файл, перенявший у реляционной базы данных ключевую функцию — индексацию — отвечает всем требованиям, которые предъявляются к данным регистрации цифровых бизнес-событий. Индексация базы данных ускоряет доступ к большим объемам информации, создавая указатель на положение соответствующих записей по каждому полю (имя пользователя, номер телефона и т. п.) Неструктурированный файл, снабженный таким индексом, представляет собой очень легкодоступное хранилище данных — в гораздо большей степени, чем библиотека на магнитной ленте, — которое можно быстро задействовать для нужд корпоративной отчетности. Более того, делается это на сравнительно маломощном серверном оборудовании. В сочетании с постоянно снижающейся стоимостью дисковых накопителей применение неструктурированных файлов обеспечивает высокоэкономичный подход.

Не менее важно и то, что перенос больших объемов данных о бизнес-событиях из СУРБД в дополнительное решение на основе неструктурированных файлов приводит к повышению производительности СУРБД в таких задачах, на которые они рассчитаны. В то же время при таком подходе исполняется обещание ILM о размещении нужных данных в нужном месте при подобающих затратах без ущерба для бизнеса.
Настало время подумать о том, как предотвратить нависшую над нами угрозу взрывного роста объемов данных. Реляционные базы данных — это впечатляющая технология, но это самый дорогостоящий способ хранения больших объемов статической информации, которая нужна лишь на тот случай, если она понадобится когда-нибудь в будущем.

Часто ссылаются на то, что 80% данных, записанных в реляционные БД, больше никогда не извлекаются. Для данных о цифровых бизнес-событиях этот процент гораздо выше, причем заранее известно, что созданные записи вряд ли вообще когда-нибудь понадобятся, и уж точно не будут редактироваться пользователями.
Короче говоря, реляционная база данных — слишком большой молоток для гвоздя регистрации цифровых бизнес-событий.



Кейт Митчелл, генеральный директор компании CopperEye.


Сетевые решения. Статья была опубликована в номере 05 за 2005 год в рубрике мнение

©1999-2024 Сетевые решения