В серията сървърни процесори AMD EPYC 7002 (Rome), базирана на

...
В серията сървърни процесори AMD EPYC 7002 (Rome), базирана на
Коментари Харесай

Хардуерна грешка в серията процесори AMD EPYC 7002 води до периодично спиране на тяхната работа

В серията сървърни процесори AMD EPYC 7002 (Rome), основана на микроархитектурата „ Zen 2 “, налична от 2018 година, е открит бъг, който кара процесора да увисне след 1044 дни работа без възобновяване на положението (налага се рестартиране на системата). Като един от методите за заобикаляне на казуса се предлага да се деактивира поддръжката на режима за икономисване на сила CC6 или сървърът да се рестартира по-често от всеки 1044 дни (приблизително 2 години и 10 месеца).

Според информацията, оповестена от AMD, спирането на работата се предизвиква от неточност, която се демонстрира, когато ядрото на процесора се пробва да излезе от режима за икономисване на сила CC6 (core-C6 намалява напрежението при неактивност), когато таймерът доближи 1044 дни след последното нулиране на положението на процесора (времето на проявата може да варира според от тактовата периодичност на чипа).

AMD не дава по-подробно пояснение на повода за казуса. Предположението на Reddit е, че казусът поражда, когато броячът TSC (Time Stamp Counter), който регистрира броя на работните цикли след нулиране, доближи смисъла 0x3800000000000 (2800 MHz * 10**6 * 1042,5, т.е. след 1042 дни и 12 часа).

AMD не има намерение да предлага микрокод за оправяне на този бъг. Проблемът е останал неусетен, тъй като при сървърите не са типични многогодишните uptime, тъй като за поддръжката на тяхното настоящо положение от време на време се постанова тяхното рестартиране – да вземем за пример за инсталиране на ново ядро или идващ билд на употребяваната операционна система. Но има някои Linux дистрибуции (има версии на Ubuntu, RHEL и SUSE с 10-годишна поддръжка), при които е допустима проявата на този хардуерен бъг.

Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР