ChipKill
Технология защиты серверов от отказов отдельных микросхем памяти и многоразрядных ошибок в модулях памяти. Эта технология, разработанная IBM, обеспечивает исправное функционирование модуля памяти даже в том случае, когда из строя выходит целиком один чип памяти. В основе технологии лежит принцип организации массива RAID, обычно используемый для дисковой подсистемы. Память Chipkill исправляет в 16 раз больше ошибок, чем стандартная память ECC. Технология Chipkill позволяет системе безболезненно воспринимать ошибки памяти, которые в обычных серверах других производителей приводят к неустранимым сбоям. Результаты исследований показали, что на серверах IBM, оборудованных 4 Гбайт памяти с поддержкой Chipkill, за 3 года число сбоев не превысило 6 отказов на 10000 серверов. Большинство серверов IBM,включая популярные System X и BladeCenter используют эту память.
Интересно, что, изначально технология Chipkill разрабатывалась IBM для марсианского вездехода NASA, где сбои памяти могли привести к краху всей экспедиции. В результате на Марс был отправлен исследовательский вездеход Pathfinder с памятью Chipkill в вычислительном модуле вездехода.
См. также: http://www.ece.umd.edu/courses/enee759h.S2003/references/chipkill_white_paper.pdf
