مقایسه HPE Advanced ECC Support و HPE Fast Fault Tolerance

خراب شدن سرور میتواند ناشی از خراب شدن حافظه باشد. در این صورت دسترسی و عملکرد سرویس نیز کاهش مییابد. یک سرویس را در نظر بگیرید که شامل چندین سرور است. ممکن است سرور به خاطر خرابی در ماژول single memory خراب شود یا حتی به خاطر خطا در uncorrectable memory. برای اینکه از این اتفاقات بتوان جلوگیری کرد HPE فناوری RAS را ارائه داده است. عنوان RAS از حروف اول reliability یا قابلیت اطمینان، availability یا در دسترس بودن و serviceability یا سرویسدهی میآید که شامل این موارد است:

HPE Fast Fault Tolerance، Advaned ECC support، Online spare with Advanced ECC support و Mirrored memory with advanced ECC support.

به دلیل مشکلات نرمافزاری و قطع برق همینطور خطاهای مموری ممکن است سرورها به مشکل بخورند. بعضی خطاها را میتوان اصلاح کرد، بعضی دیگر قابلیت بازیابی دارند و سایر خطاها اصلاح ناپذیر هستند. به دلیل وجود چنین خطاهایی memory RAS نیاز است.

اصولا به خطاهایی قابل اصلاح میگویند که توسط چیپست قابل شناسایی و اصلاح هستند و به طور کلی یک بیتی هستند.

تمامی سرورهای HPE خطاهای یک بیتی را تشخیص و اصلاح میکنند و از error-correcting code(ECC) پشتیبانی میکنند.

سیستمهای HPE، به کاربر درباره بیش از حد شدن correctable error از طریق چراغهای روی پنل جلویی یا بورد سیستم هشدار میدهد و یا به وسیله HPE Integrated Management Log(IML) این کار را میکند.

به خطاهایی که توسط چیپست شناسایی میشوند ولی اصلاح نمیشوند خطاهای غیر قابل اصلاح میگویند که همیشه چند بیتی هستند. این خطاها در ILM ثبت میشوند. این نوع خطاها را معمولا میتوان در یک DIMM جدا کرد. خطاهای غیر قابل اصلاح فورا سیستم را خراب و یا خاموش میکنند. با پشتیبانی از سیستم عامل و پردازندههای پیشرفته مثل سری Gold یا Platinum پردازندههای Intel Xeon، بعضی اوقات سیستم خراب نمیشود. به این نوع مدل خطاها، قابل بازیابی میگویند.

خطاهای DRAM غالبا به دو صورت هستند:

Hard error: خطای سخت به معنای وجود مشکل در خود DIMM هست. با اینکه خطاهای قابل اصلاح سخت توسط سیستم اصلاح میشوند، باز هم یک اشکال سختافزاری است. این خطاها معمولا منجر به این میشوند که DIMM از آستانه خطاهای قابل اصلاح سیستمهای HPE فراتر برود، به کاربر درباره این موضوع هشدار داده میشود.

Soft error: خطای نرم بر خلاف خطای سخت ارتباطی با DIMM ندارد و زمانی اتفاق میافتد که داده و یا بیتهای ECC روی DIMM درست نباشند، با اصلاح این خطا، دیگر ادامه نمییابد. این خطاها معمولا منجر نمیشوند که DIMM از آستانه خطاهای قابل اصلاح سیستمهای HPE فراتر برود پس هیچ خبری از مشکل سختافزاری نیست.

خطاها اگر درست کنترل نشوند، میتوانند باعث خاموش شدن سیستم شوند. اوایل استفاده از سرورها با ECC میشد بیشتر خرابیهای DRAM را رفع کرد ولی الان اوضاع متفاوت است. برای همین از ویژگیهای اضافی RAS استفاده میشود تا پایداری و زمانبندی مورد انتظار سرورها فراهم شود. دستگاههای حافظه خراب شده جایگزین میشوند. همچنین، فناوری RAS حافظه می تواند یک دستگاه DRAM را روی DIMM که دارای خطاهای نرم زیادی است، شناسایی و قبل از خرابی سخت آن را تعویض کند.

HPE Advanced ECC Support:

حالت پیشفرض برای حفاظت از مموری برای سرورهای HPE در سیستمهای ROM revision قبل از 1.5 ، مموری Advanced ECC است. در 1.5 به بعد، HPE Fast Fault Tolerance حالت پیشفرض RAS در همه پروفایلهای بجز پروفایل با تاخیرکم، است.

ECC استاندارد خطاهای یک بیتی مموری را اصلاح میکند، همچنین خطاهای چند بیتی را تشخیص میدهد. زمانی که این اتفاق میافتد، خطا به سرور سیگنال شده و باعث متوقف شدن آن میشود.

Advanced ECC مدت زیادی است که در سرورهای HPE، حالت پیشفرض اصلاح خطاهاست و علاوه بر محافظت از سرور مقابل خطاهای یک بیتی، مقابل بعضی خطاهای چند بیتی مخصوصا خطاها در DRAM نیز محافظت میکند.

Advanced ECC میتواند هم خطاهای یک بیتی و هم 4 بیتی حافظه را در صورتیکه همه بیتهای خراب در یک DRAM روی یک DIMM باشند، اصلاح کند. همچنین نسبت به ECC استاندارد حفاظت بیشتری دارد چون که میتواند بعضی از خطاهای حافظه را اصلاح کند که درغیر اینصورت منجر به خرابی سرور میشوند. با استفاده از فناوری تشخیص خطای حافظه HPE Advanced، سرور هنگام تخریب DIMM اعلانی را ارائه میدهد و احتمال خطای حافظه غیر قابل اصلاح را بیشتر می کند.

برای advanced ECC support هیچ قانون یا تنظیمات RBSU نیاز نیست و به عنوان پیشفرض در پلتفرمهای Purely فعال شده است.

Advanced ECC فقط وقتی که خطاهای چند بیتی در یک DRAM واحد رخ میدهند، میتواند با اطمینان خطاها را اصلاح کند و قابلیت خرابی را ایجاد نمیکند. بنابراین اگر حافظه خراب شد و نیاز به جایگزینی داشت، باید ابتدا سیستم خاموش شود. آخرین نسل از سرورهای HPE ProLiant/Synergy/Blade با استفاده از پردازندههای Intel Xeon Scalable سه سطح حافظت از حافظه پیشرفته (از جمله HPE Fast Fault Tolerance) ارائه میکنند که باعث افزایش تحمل خطا در برنامههایی میشود که به سطح بالاتری از در دسترس بودن نیاز دارند.

HPE Fast Fault Tolerance:

یک ویژگی جدید برای HPE Memory RAS هست که بار اول در سرورهای نسل 10 با پردازندههای Intel Xeon Scalable مورد استفاده قرار گرفت. سرورهایی که با HPE Fast Fault Tolerance و HPE SmartMemory پیادهسازی شدهاند، برای مقابله با خرابی سرور یک لایه حفاظتی ارائه میدهند.

HPE Fast Fault Tolerance نسخه پیشرفته adaptive double device data correction (ADDDC) است که با همکاری اینتل و Hewlett Packard Enterprise پدید آمد، همچنین دارای بخشهای اضافی بیشتری است و گزینههای بیشتری جهت ترسیم بخشهای بد مموری دارد. نسبت به بقیه که فقط از ADDDC استفاده میکنند، قابلیت اطمینان و در دسترس بودن حافظه به مراتب بهتری ارائه میدهد.

با شروع با ROM revision 1.50، HPE Fast Fault Tolerance به صورت پیشفرض برای همه پروفایلهای بار کاری بجز پروفایل کم تأخیر فعال است.

double device data correction (DDDC) در نسلهای گذشته سرور، پیشرفتهترین فناوری محافظت از حافظه در سرورهای ProLiant به شمار میرفت. اصلیترین مسئله این بود که باید هنگام راه اندازی فعال شود و هنگام فعال شدن میزان حافظه به طور قابل ملاحظهای کاهش یابد و مشتریان مجبور بودن بین انعطاف پذیری و عملکرد یکی را انتخاب میکردند. HPE Fast Fault Tolerance نسبت به DDDC پیشرفت زیادی داشته است چون شامل مزایای عملکرد single device data correction (SDDC) با در دسترس بودن DDDC است. HPE Fast Fault Tolerance به سیستم اجازه میدهد که با عملکرد کامل مموری بوت شود و فقط زمانی که نیاز است خرابی اصلاح شود بخشهایی از مموری را در lockstep قرار میدهد و از این کار عملکرد بهتری نسبت به DDDC حاصل میشود. اگر بخش خراب از یک بانک بزرگتر باشد، ممکن است تأثیر بد بیشتری روی عملکرد دیده شود.

لازم است که در هر کانال پرجمعیت حداقل دو رنک وجود داشته باشد. علاوه بر این ، فقط HPE SmartMemory در organization x4 می تواند مورد استفاده قرار گیرد.

اکنون ، HPE Fast Fault Tolerance میخواهد که سرور در مد closed-page اجرا شود و در برخی از بارهای کاری، کارایی کمی کاهش یابد. از مد closed-page انتظار نمی رود که برای الگوهای حافظه دسترسی تصادفی عملکرد خیلی خوبی داشته باشد (SQL یا پایگاه های داده دیگر)، اما برای الگوهای حافظه دسترسی متوالی افت عملکرد وجود خواهد دارد. اگر DRAM از کار بیفتد، حداقل عملکرد کاهش پیدا میکند اما فقط در منطقه بسیار کوچک(رایجترین اندازه یک بانک) حافظه است که تحت تأثیر قرار می گیرد. برای الگوهای حافظه دسترسی تصادفی هیچ افت قابل ملاحظهای پیش نمیآید زیرا به ناحیه lockstep بندرت دسترسی پیدا می شود. اگر lockstep مجازی سطح بالایی داشته باشد یا برنامهای مرتباً به منطقه دسترسی پیدا کند تا زمانی که DIMM جایگزین شود، ضرر میتواند بسیار زیاد باشد. انتظار می رود که کاهش کلی توان عملیاتی HPE Fast Fault Tolerance برای اکثر مشتریان کم باشد اما به برنامه، اندازه منطقه آسیب دیده و پیکربندی حافظه بستگی دارد.