تحمل خطا (Fault Tolerance) چیست ؟
تحمل خطا به توانایی سیستم (کامپیوتر ، شبکه ، خوشه ابری و …) برای ادامه کار بدون وقفه در صورت خرابی یک یا چند جز آن گفته می شود.هدف از ایجاد یک سیستم تحمل خطا جلوگیری از اختلالات ناشی از یک نقطه خرابی ، اطمینان از در دسترس بودن و تداوم فعالیت برنامه های کاربردی مهم یا سیستم های مهم است.
دو روش تحمل خطا وجود دارد:
- Fault Removal : این روش می تواند شامل بازیابی خطای رو به جلو یا بازیابی خطای رو به عقب باشد.
- Fault Masking : هنگامی که وجود یک نقص در سیستم، وجود نقص دیگری را در سیستم پنهان می کند.
تحمل خطا چگونه کار می کند؟
تحمل خطا را می توان در یک سیستم تعبیه کرد تا خطر داشتن یک نقطه خرابی را از بین ببرد. برای انجام این کار ، سیستم نباید هیچ مولفه واحدی داشته باشد که در صورت توقف کار موثر منجر به از کار افتادن کل سیستم شود. تحمل خطا به جنبه هایی مانند تعادل بار متکی است که خطر یک نقطه خرابی را از بین می برد. این کار به طور معمول بخشی از رابط سیستم عامل خواهد بود ، که برنامه نویسان را قادر می سازد تا عملکرد داده ها را در طول یک تراکنش بررسی کنند.
توازن بار در سیستم تحمل خطا
یک فرآیند تحمل خطا از دو مدل اصلی زیر پیروی می کند:
- عملکرد طبیعی : وضعیتی را توصیف می کند که یک سیستم تحمل خطا با یک خطا روبرو می شود اما به عملکرد معمول خود ادامه می دهد. این بدان معناست که سیستم تغییری در معیارهای عملکرد مانند توان عملیاتی یا زمان پاسخ نمی بیند.
- افت شدید : در صورت بروز خطاهای خاص ، برخی از سیستم های مقاوم در برابر خطا از بین می روند. این بدان معنی است که تاثیری که خطا بر عملکرد سیستم دارد متناسب با شدت خطا است. به عبارت دیگر ، یک خطای کوچک بیش از آنکه باعث از کار افتادن کل سیستم شود یا مشکلات عمده عملکردی سیستم داشته باشد ، فقط تأثیر کمی بر عملکرد سیستم خواهد داشت.
نکته ای که وجود دارد این است که در سیستم های تحمل کننده خطا از اجزای پشتیبان نیز استفاده می شود که این اجزا، به صورت اتوماتیک اجزای خرابی را که باعث عدم خدمت رسانی به درخواست ها می شود، را جایگزین می کنند.
این اجزای پشتیبان شامل موارد زیر هستند:
- سیستم های نرم افزاری : سیستم های نرم افزاری که توسط نمونه های نرم افزاری دیگر پشتیبان تهیه می شوند. به عنوان مثال ، یک پایگاه داده با اطلاعات مهم مشتری می تواند به طور مداوم در دستگاه دیگری کپی شود. اگر پایگاه داده اصلی از بین برود یا مشکلی در اتصال به آن به وجود بیاید ، عملیات می تواند به صورت اتوماتیک به پایگاه داده دوم هدایت شود.
- سیستم های سخت افزاری : سیستم های سخت افزاری را می توان با سیستم هایی یکسان یا معادل آنها تهیه کرد. به عنوان یک مثال ، یک سرور با عنوان سرور پشتیبان باشد که به صورت موازی با سرور اصلی کار کند و عملیات در آن منعکس و پشتیبانی شود.
- منابع قدرت : به عنوان مثال ، بسیاری از سازمان ها ژنراتورهایی دارند که می توانند در صورت قطع برق ، دوباره برق را به منابع منتقل کنند.
اجزای سیستم تحمل خطا
اجزای اصلی سیستم بهبود تحمل خطا عبارتند از:
- افزونگی (Redundancy): سیستم های تحمل پذیر خطا از افزونگی (Redundancy) برای از بین بردن نقطه خرابی تکی استفاده می کنند. این سیستم مجهز به یک یا چند واحد منبع تغذیه است که در حالت عادی عملکرد واحد منبع تغذیه نیازی به تأمین انرژی سیستم ندارند. در صورت خرابی یا خرابی واحد منبع تغذیه اولیه ، می توان آن را از سرویس خارج کرد و یک واحد منبع تغذیه اضافی جایگزین آن کرد ، که عملکرد سیستم را بر عهده می گیرد.
- تکثیر (Replication): این سیستم شامل استفاده از چندین نسخه یکسان از سیستم ها و زیر سیستم ها و اطمینان از عملکردهای آنها است که باید همواره نتیجه یکسان باشد. اگر نتایج یکسان نباشند ، از روش هایی برای شناسایی سیستم معیوب استفاده می شود.
- تنوع (Diversity): اگر منبع اصلی برق سیستم از بین برود تا زمانی که دسترسی به منبع برق امکان پذیر نباشد، در این حالت ، تحمل خطا می تواند از طریق تنوع تأمین شود ، که برق را از منابعی مانند ژنراتورهای پشتیبان تأمین می کند که در صورت وقوع قطعی برق اصلی ، جایگزین منبع برق اصلی می شوند.
مزایای سیستم تحمل خطا
هدف اصلی ایجاد سیستم تحمل خطا ، جلوگیری از (یا حداقل تا حد امکان به حداقل رساندن) وضعیتی است که به دلیل نقص و خرابی در یک یا چند جز سیستم ، عملکرد سیستم از دسترس خارج شود. وجود تحمل خطا برای سیستم هایی که برای محافظت از ایمنی مردم استفاده می شوند (مانند سخت افزار کنترل ترافیک هوایی و سیستم های نرم افزاری) و سیستم هایی که امنیت، محافظت از داده ها، یکپارچگی داده ها و معاملات با ارزش بالا به آن بستگی دارند، ضروری است.