Чипы AMD EPYC Rome выходят из строя после 1044 дней безотказной работы


Фото из открытых источников
Ядра чипа AMD EPYC 7002 "Rome" могут зависать после 1044 дней непрерывной работы, что составляет примерно 2,93 года. Чтобы исправить эту проблему, необходимо перезагрузить сервер. Проблема связана с тем, что ядро не может выйти из состояния сна CC6. Время сбоя может варьироваться в зависимости от спектра и частоты REFCLK, которая служит эталонной тактовой частотой для чипа. Однако AMD заявляет, что не будет решать эту проблему, пишет Тoms Нardware.
 
Пользователь Reddit под ником acid_migrain предложил теорию о точном времени зависания ядра, основанную на частоте TSC и длительности непрерывной работы. Однако это лишь предположение.
 
Существует два способа обойти эту проблему: либо перезагрузить сервер до достижения 1044 дней работы, чтобы сбросить "таймер", либо отключить состояние сна CC6.
 
Хотя эта ошибка интересна, она не является проблемой для большинства пользователей, учитывая, что обновления безопасности и обслуживание часто выполняются на более коротких интервалах. Однако для серверов с критически важными приложениями, которые требуют продолжительного безотказного функционирования, это может быть важным фактором.
 
Ошибки в микросхемах не являются чем-то необычным, так как процессоры являются сложными устройствами. Даже после множественных проверок и исправлений, некоторые опечатки могут оставаться. Производители чипов взвешивают серьезность ошибок, сложность исправления и потенциальное влияние на производительность перед принятием решения о исправлении.
 
AMD не смогла обнаружить эту ошибку раньше из-за времени, которое прошло с момента выпуска чипов. Ускоренное испытание на старение также может быть причиной необнаружения проблемы. Возможно, некоторые клиенты AMD уже столкнулись с этой проблемой при развертывании чипов EPYC Rome.
 
AMD не планирует решать эту проблему, вероятно, из-за затрат или недостаточного количества клиентов, которые будут затронуты ошибкой.
 
Таким образом, чтобы избежать проблемы, можно либо отключить состояние сна CC6, либо перезагружать серверы каждые 1000 дней или около того.