Nehalem и Sandy Bridge: защита от космических фантомов

Ошибка в банковской операции или сбой жесткого диска всегда непредсказуемы и неизменно приносят огорчения, хотя в такие моменты мы можем, по крайней мере, определить причины возникновения неисправностей подобного рода во избежание повторения аналогичных проблем в будущем. Однако случайные ошибки – компьютерные сбои, которые можно устранить, только перезагрузив систему, – не повторяются регулярно, поэтому их очень трудно определить и тем более предупредить. Ущерб от таких фантомных сбоев может быть значительным, и их обнаружение является серьезнейшей проблемой для производителей компьютеров.

Оказывается, индустрия подошла к такому рубежу миниатюризации электронных компонентов – транзисторов, что причиной фантомного сбоя могут стать... элементарные частицы из дальних уголков Вселенной. Инженеры Intel начали учитывать данный фактор уже при проектировании процессоров на базе микроархитектуры Nehalem, и еще больше внимания придают данной проблеме, разрабатывая микроархитектуру следующего поколения - Sandy Bridge. Ведь ожидается, что Sandy Bridge будет использоваться в процессорах, выполненных по проектной норме 32 нанометра.

Элементарные частицы, попадая в транзисторы сверхмалых размеров, расщепляют атомы кремния и приводят к появлению наведенных зарядов, способных изменить хранящиеся в ячейках цифровые значения с нулей на единицы (или наоборот). По мере уменьшения размера транзисторов они становятся все более чувствительными к воздействию космического излучения, что приводит к появлению случайных сбоев. Еще большая проблема заключается в том, что, согласно закону Мура, количество транзисторов на кристалле удваивается каждые 2 года, поэтому вероятность случайных ошибок становится все выше.

Неповторяющиеся ошибки очень трудно отслеживать, и ущерб от них может быть колоссальным, достигая сотен миллионов долларов, например, в случае приостановки производственного процесса на современном заводе. Когда мы сталкиваемся со случайной ошибкой, мы не знаем причин ее возникновения. Мы используем сигнатуры на тысячах систем, и если одна и та же ошибка не повторяется, приходим к выводу, что она вызвана радиацией. В самом начале своей исследовательской деятельности корпорация Intel разрабатывала методы измерения и моделирования воздействия космического излучения на электронные системы.

Для натурных экспериментов использовался генератор протонов – огромная труба длиной в несколько километров. Микросхемы в процессе испытаний подвергались воздействию частиц, формирующихся в генераторе, с целью моделирования возникновения случайных ошибок. Подобные испытания позволяют на уровне архитектуры выявлять наиболее уязвимые группы транзисторов, известные как факторы уязвимости архитектуры (Architecture Vulnerability Factors, AVF). Анализ AVF помогает определить, какие области кристалла нуждаются в максимальной защите. Эти знания применяются на стадии проектирования для защиты самых передовых процессоров, таких как продукты на базе микроархитектур Nehalem и Sandy Bridge.

В прошлом отказоустойчивость была важной характеристикой больших сверхмощных профессиональных систем, которые должны были работать бесперебойно. Но сейчас отказоустойчивость является обязательным требованием и для массовых систем, которые используются повсюду – от промышленных предприятий и Web-серверов до вычислительных центров. В Intel также ищут экономически эффективные решения для уменьшения уязвимости электронных систем.

©1997-2024 Компьютерная газета