кое что об архивах электронной почты
система электронной почты — часть корпоративного документооборота
Электронная почта стала важнейшим средством обмена информацией. Согласно исследованиям, проведенным Ferris Research, за последние несколько лет объем корпоративной электронной почты увеличился на 50%. Ожидается, что в ближайшем будущем объемы почты будут расти на 30-50% ежегодно. По прогнозам IDC, количество передаваемых в течение дня почтовых сообщений в 2005 году увеличится до 35 миллионов.
При этом значительно возрастет доля электронной почты в общем объеме корпоративной информации. Согласно статистике, уже сегодня 35% корпоративной "базы данных" хранится в виде почтовых сообщений.
Все большее число организаций начинает осознавать то, что электронная почта является ценным активом. Однако, чтобы электронная почта действительно стала бизнес инструментом, а содержащаяся в ней информация получила реальную ценность, необходимо, чтобы она стала полноценным элементом документооборота.
Эта цель может быть достигнута только при соблюдении условия, когда информацией, содержащейся в электронном письме, имеют возможность пользоваться все участники информационного обмена на всем цикле ее существования.
К сожалению, в настоящее время во многих организациях такое положение не является нормой. Важная информация, которая хранится в почтовых сообщениях, созданных отдельными пользователями, чаще всего скрыта от остальной части организации. По большей части, пользователи сами решают, какие письма оставлять, а какие удалять. Когда сотрудник находится за пределами организации или покидает ее, информация, которая содержится в его письмах, становится недоступна или, что еще хуже, бывает потеряна навсегда.
Устранить данный недостаток позволяет создание централизованного архива электронной почты, который включается в единую корпоративную систему документооборота.
Как нельзя обойтись без архива документов, так нельзя обойтись без архива электронной почты, однако необходимо отметить, что у почтового архива в отличие от документального есть своя специфика, которую необходимо учитывать при создании системы документооборота в организации.
различие документальных и почтовых архивов
Архив электронной почты существенно отличается от документального архива. И связано это со следующими факторами:
Электронное письмо может иметь как простую, так и комплексную структуру. В письмо могут входить много компонентов различных типов и форматов. Каждый из компонентов имеет несколько подтипов представления информации. Тело сообщения с комплексной структурой может иметь несколько частей или включать в себя другое почтовое сообщение. При этом допускается вложенность: составные части почтового сообщения могут быть образованы как из отдельных элементов, так и из их объединений, а инкапсулированное сообщение может содержать другие инкапсулированные сообщения.
Электронное сообщение может быть не только документом, но и "контейнером" для передачи документов. Таких документов может быть несколько, а каждый из них может относиться к разным категориям. Этим определяется сложность выделения и индексации этих документов в одном письме.
Электронное письмо содержит служебную информацию, так называемые мета-данные (SMTP-заголовки, MIME-типы и т.п.), которые также входят в состав электронного письма. При помещении письма в архив эти данные должны быть автоматически выделены из письма, образуя часть "карточки документа".
Сложность технической реализации решений, связанных с хранением электронной почты, например, необходимость помещения в архив отдельно как письма целиком (его оригинала), так и его компонентов (текстовых частей, бинарных файлов и т.п.).
Сложность поиска и извлечения необходимой информации из различных частей электронного сообщения. При этом каждая часть письма может иметь свою кодировку и формат.
Неопределенность структуры и состава сообщения электронной почты, поступающей в архив.Сложность формализации почтовых сообщений. Например, при создании архива проектной документации можно установить правила оформления документов и правила их помещения в архив. В случае с электронной почтой, источники информации не поддаются контролю. Поэтому электронное письмо имеет произвольные структуру, способ упаковки нетекстовых объектов, типы и форматы данных, кодировку текстов и т.п.
Многофункциональность электронной почты. Электронные письма используются не только для деловой переписки, а также в личных целях и для передачи информации системного характера. Это приводит к тому, что не все письма, направленные в адрес компании, необходимо архивировать.
Специфика окружения, в котором работает почтовый архив.Почтовый архив является частью почтовой системы, которая функционирует в режиме 24х7х365.
Почтовый архив открыт внешнему воздействию, поскольку в него постоянно поступает входящая корреспонденция. При этом источники этой информации не контролируются почтовым сервером. Электронная почта представляет собой практически идеальную среду для переноса различного рода "опасных" вложений, а именно вирусов, почтовых червей, "троянских" программ и т.п.
Высокий уровень динамичности работы почтового архива.Работу почтового архива характеризует высокая скорость поступления документов. Ежедневно в архив среднестатистической компании помещается до 20 тысяч писем общим объемом от 10 до 25 мегабайт.
Высокая скорость поступления документов в архив приводит к быстрому переполнению архива. Во многих случаях приходится жертвовать либо информацией (помещать в архив только часть писем), либо временем хранения, либо идти на увеличение дискового пространства.
Высокая скорость поступления документов в архив может привести к деградации производительности поисковых процессов.
требования к архиву электронной почты
К архиву электронной почты предъявляются такие же требования, как и к документальному архиву. Однако различия, перечисленные в предыдущем разделе, значительно ужесточают требования к архиву почтовых сообщений. К дополнительным требованиям относятся:
Более высокая степень надежности.Архив электронной почты работает в тесном взаимодействии с почтовой системой. В определенном смысле он является ее частью. Поэтому требования к надежности почтового архива не могут быть ниже требований к надежности почтовой системы. Сбои в работе архива не должны приводить к сбоям работы почтовой системы или влиять на ее производительность. Кроме того, почтовый архив должен корректно функционировать и в тех случаях, когда формат обрабатываемого письма не соответствует никаким общепринятым стандартам.
Более высокая производительность.Архив электронной почты изменяется более динамично, чем документальный архив. Кроме того, при помещении писем в архив производится анализ их структуры и содержимого. Это создает дополнительную и довольно существенную нагрузку на базу данных архива, что, в свою очередь, может приводить к снижению производительности при поисковых операциях.
Масштабируемость.Высокая скорость поступления документов в архив приводит к тому, что приходиться жертвовать либо информацией (помещать в архив только часть писем), либо временем хранения почты. Чтобы этого не происходило, почтовый архив должен обладать способностью постоянно наращивать возможности системы в условиях большого потока поступающих данных и быстро растущего архива.
Безопасность.Почтовый сервис предполагает работу с внешними адресатами, которые по своей сути являются неконтролируемыми источниками информации. Поэтому архив должен обеспечивать надежную защиту от всевозможных угроз извне.
Использование технологии контекстного анализа при помещении писем в архив.Требования индексирования помещаемых в архив писем гораздо выше, чем в документальном архиве, поскольку поступающие в архив письма нельзя привести к единому виду, а информация, содержащаяся в письмах, имеет различные форматы, кодировки и структуру. Технология контекстного анализа позволяет при помещении письма в архив произвести его декомпозицию на составляющие компоненты, обеспечить анализ любого сложного элемента и записать их в отдельные таблицы базы данных. При этом каждый компонент индексируется, что обеспечивает высокую скорость поиска писем в последующем.
Необходимость иметь достаточно мощный механизм фильтрации почтовых сообщений, который позволяет в условиях большого разнородного потока поступающих данных обеспечивать высокую производительность помещения писем в архив, гарантируя отсутствие критичных для почтовой системы задержек.
Специфические требования к обеспечению контекстного, атрибутивного, а также морфологического поиска по архиву почтовых сообщений.Данная специфика вызвана тем, что электронные письма, хранимые в архиве, имеют практически произвольную структуру и форму представления информации.
современные тенденции
Создание архива почтовых сообщений является сегодня одной из актуальных проблем. Почтовый архив давно перестал быть просто архивом. Он постепенно начинает превращаться в инструмент для решения бизнес-задач. Как было уже сказано выше, электронная почта занимает значительное место в документообороте различных компаний и организаций. Без архива такой документооборот перестает иметь смысл, поскольку главное для документооборота — это "база знаний", которой можно оперировать при выполнении различных задач. Электронная почта обладает целым рядом достоинств, благодаря которым становится одним из важнейших элементов этой "базы знаний".
Архив почты во многих компаниях постепенно становится стандартом. Это связано с тем, что в таких компаниях почтовый сервис активно участвует в бизнес-процессах и неотделим от них. Содержащаяся в электронной почте информация действительно получает реальную стоимость и становится ценным активом компании. А как любой актив, электронную почту необходимо надежно сохранять.
Во многих компаниях почтовый архив появляется по требованию службы безопасности. При этом архив является незаменимым инструментом для реализации контроля почтового трафика, поскольку позволяет детально анализировать структуру и содержание почтового потока и на основании этого анализа своевременно модернизировать политику использования электронной почты, кроме того, информация из архива используется для проведения расследования различных инцидентов.
За рубежом наличие архива электронной почты давно уже является законодательным требованием. Невыполнение этих требований грозит организациям выплатой огромных штрафов или применением других санкций. Существует множество законодательных и нормативных актов, которые регулируют отношения в этой сфере. Все они различаются в зависимости от отраслей производства, а также стран, где они имеют распространение. Например, в Великобритании и Европейском Союзе действуют положения ("New Basel Capital Accord" и "The Turnbull guidance"), в соответствии с которыми все компании должны хранить почту в течение 7 лет. В США действует целый ряд законодательных актов (Акты "Gram-Leach-Bliley Act", "Health Insurance Portability and Privacy Act", "The Security and Exchange Act" и т.п.), которые предусматривают хранение почтовых сообщений от 7 до 26 лет.
По материалам компании Jet Infosystems.
Сетевые решения. Статья была опубликована в номере 08 за 2004 год в рубрике sysadmin