методы снижения числа ложных срабатываний спам-фильтров

главная » статьи » 2004 » 10 » 12.03.2004‣технологии

Одним из важнейших критериев оценки качества фильтров спама является процент ложных срабатываний. В данной статье рассмотрены, в основном, фильтры, определяющие спам по формальным признакам, наличием которых характеризуется спам-письмо.

приоритеты фильтрации

В общем случае фильтр работает следующим образом: по определенным алгоритмам на основе содержимого письма (естественно, включая все служебные заголовки) вычисляется некоторая сумма баллов, определяющая его "спамосодержание". Задается определенный порог, при превышении которого фильтр относит письмо к категории "спам", т.е. помечает его для конечного получателя как не рекомендованное к прочтению. Решение о том, что делать с подобным письмом, как правило, остается за получателем. Фильтр лишь добавляет определенный признак (обычно предупреждение в заголовке), по которому можно легко рассортировать почту автоматическими методами. С учетом возможности ложных срабатываний безапелляционное удаление письма, определенного как спам, представляется недопустимым и не может рекомендоваться в системах с критическим отношением к потере пользователем важной корреспонденции.

Любой сложный алгоритм определения признаков, характерных для спама, осуществляет сотни и тысячи проверок. Обычно системе блокировки достаточно нескольких срабатываний на характерные для спама последовательности (для критических правил с большим весом - скажем, смешение букв русского и латинского алфавита в разных регистрах - достаточно и одного-двух). Очевидно, подобный алгоритм, основывающийся на вероятностных характеристиках, может давать сбои. Чаще всего следствием данного события будет отнесение письма к категории спам. В результате возможна потеря писем от новых абонентов, новых партнеров в бизнесе, новых знакомых и т.п. Это достаточно критично в определенных сферах, поскольку новый контакт, инициализация которого должна произойти с помощью электронной почты (например, новый поставщик присылает свой прайс-лист), не состоится, что ставит под сомнение все дальнейшие контакты (под угрозой именно новые контакты, поскольку абоненты, с которыми переписка ведется, должны быть занесены в "белые" списки, на которые правила фильтрации не распространяются).

В любом случае, на применяющихся в настоящее время системах спам-фильтров ложные срабатывания случаются. Процент их, как показывает практика, колеблется в пределах от 1 до 5 в зависимости от потока писем, характера получаемой по сети легальной почты, процента спама на ящике, жесткости настройки правил сортировки фильтра и даже самого понимания разницы между выражениями "спам" и "легальная почта". Хотя производители антиспамового программного обеспечения и заявляют о "почти полном отсутствии" ложных срабатываний, большую часть систем, где оно применяется, "почти" не устраивает.

Налицо классический рычаг: опуская одну сторону, мы непременно поднимаем другую. Ужесточая правила фильтрации, мы увеличиваем число ложных срабатываний. Задача усложняется еще и тем, что способы рассылки спама постоянно совершенствуются. Полностью избавиться от ложных срабатываний, судя по всему, невозможно. Естественно, возникает желание хотя бы максимально уменьшить их число. Данная задача разнится с задачей, традиционно выполняемой спам-фильтрами. Задача классического фильтра - отфильтровать как можно больше, а потом уже подумать о ложных срабатываниях. В современных условиях, скорее, требуется не потерять важную корреспонденцию, а уж затем отфильтровать недобросовестную.

тактика борьбы с ложными срабатываниями

Для снижения числа ложных срабатываний, на мой взгляд, целесообразно применять следующую тактику:
- сначала использовать жесткий фильтр спама, пусть и дающий относительно большое количество ложных срабатываний, но отсеивающий самый хитроумный спам;
- затем - обратный фильтр, компенсирующий ложные срабатывания на всем поле отфильтрованных писем.

Таким образом, можно упростить задачу создания хорошего фильтра, разбив ее на две подзадачи.
Рассмотрим, какие способы компенсации можно предложить.

Белые списки.В особых комментариях это не нуждается. Белые списки применяются во всех без исключения системах. Нельзя не упомянуть данный пункт, поскольку потеря информации от известных получателей совершенно недопустима. Очевидно, проверка на попадание в список доверенных адресатов должна стоять до всех остальных алгоритмов, так как имеет самый высший приоритет и наименьшие потребности в вычислительных мощностях. Побочным эффектом введения подобных списков будет то, что, подставив обратный адрес, можно с определенной долей вероятности попасть в область доверенных адресов получателя. В этом контексте остается только догадываться, почему спамеры до сих пор не прибегают к способу подстановки обратных адресов по схеме: что_нибудь@домен_получателя /* еще как прибегают - прим. ред. */.

Учет служебной информации о прохождении через промежуточные узлы со спам-фильтрами.В настоящее время многие провайдеры уже имеют опыт внедрения антиспамового программного обеспечения на своих площадках, что позволяет ограничить поток спама для конечного пользователя. Здесь более всего стоит обратить внимание на возможности доверия такой информации. Теоретически можно прогнозировать, что в будущем спамеры начнут подделывать и отметки об успешном прохождении письма через известные спам-фильтры и не делают этого до сих пор потому, что данная технология широко не применяется при фильтрации.

Проверка на принадлежность к спискам, обратным RBL (черные списки IP-адресов), назовем их RWL.Хотя к настоящему моменту таких списков не существует, предлагается заносить в них диапазоны адресов провайдеров, добросовестно относящихся к борьбе с "зомбированными" компьютерами. Вероятность рассылки с IP-адресов, принадлежащих данным спискам, значительно ниже. Как следствие, вероятность получения спама с этих адресов также ниже. Однако, если данное решение и найдет место, для его внедрения потребуется значительное время.

Байесовские фильтры, проверяющие текст письма на соответствие легальной корреспонденции (полные слова родного языка получателя, полные предложения, наличие имени получателя, названия организации и прочее). Подобные фильтры должны легко настраиваться и, по возможности, не только путем формального описания, но и по стандартной схеме - реакции получателя (спам/не спам). Хотя байесовские фильтры в настоящее время распространены достаточно широко, разделение задачи описанным методом упростит работу создателей и администраторов. С точки зрения спамера, потребуется уменьшать количество мусорных слов, сохранять удобочитаемость писем, повышать качество собственных баз адресов, узнавать реальные имена владельцев, их род занятий и места работы, то есть перемещаться из области спама в сторону более легальных рекламных рассылок.

проблема спама: взгляд в будущее

В заключение надо сказать, что, по всей видимости, борьба между антиспамерскими силами и спамерами может быть достаточно долгой на пространстве применяемого в настоящий момент протокола SMTP.

Несмотря на то, что спам существует уже более 7 лет - по меркам информационных технологий достаточно большой срок - окончательной победы одной или другой стороны не предвидится. Методы, применяемые в современных спам-фильтрах, заставляют спамеров эволюционировать, развиваться, придумывать и реализовывать новые технологии, потребности в которых раннее не существовало. Вспомним хотя бы объединение вирусописателей и спамеров, которое привело к созданию базы прокси-серверов зомбированных машин, эксплуатирующихся в целях почтовых рассылок. Обратной дороги нет, усилие порождает сопротивление, и уже существуют мощные группировки спамеров, среди которых, несомненно, есть талантливые личности, которые будут порождать миллиарды спам-писем в будущем. Бороться с ними техническими методами достаточно эффективно возможно, однако, думается, в перспективе нужно искать что-то иное. Без сомнения радует работа с законодательством РФ с целью официально поставить спамера вне закона. Но борьба со спамом юридическими методами при современной технической базе не может быть эффективной.

Решение видится только в объединении усилий обеих сторон: технических специалистов и юристов. Причем с технической стороны должны быть предприняты шаги не только по фильтрации в современном понятии контента входящих почтовых сообщений, но и по внедрению либо новых протоколов, позволяющих искоренить рассматриваемую проблему, либо доработки существующего и добавления ему требуемых свойств.

Внедрение нового протокола - достаточно сложная процедура в Интернет, так как это структура централизовано не управляемая и имеющая определенную инерционность к протоколу SMTP, по которому работает многие годы. Должен найтись посредник между миром open source и коммерческими организациями (в первую очередь, конечно, Microsoft), которому обе стороны доверяют, и который сможет предложить волевое решение по переходу от открытого протокола к протоколу нового поколения. Очевидно, на время переходного периода возникнет масса трудностей из-за отсутствия связанности между теми, кто уже перешел на новый протокол, и теми, кто продолжает эксплуатировать старый. В любом случае, когда ситуация достигнет точки кипения, Интернет потеряет часть свойств открытости и доступности, полученных при рождении, ради того, чтобы побороть одно из главных своих зол.

Со всем этим придется столкнуться в ближайшем будущем, поскольку победа одной стороны - спама - невозможна с точки зрения целесообразности пользования электронной почтой в целом, а победа антиспама невозможна в виду затронутых здесь технических проблем.

Олег Суслов.

Сетевые решения. Статья была опубликована в номере 10 за 2004 год в рубрике технологии