در سرورهای مدرن مانند سرور رک مونت hp DL380 gen 11، سیستم خنککننده نقشی کلیدی در حفظ عملکرد پایدار و ایمن سختافزار ایفا میکند. یکی از مهمترین اجزای این سیستم، فنها هستند که وظیفه جریاندهی هوا و خنکسازی پردازندهها، حافظه و سایر قطعات حساس را بر عهده دارند. هرگونه اختلال در عملکرد این فنها میتواند منجر به افزایش دما، کاهش بازدهی سیستم و حتی خاموشی ناگهانی سرور شود.
خطاهای مربوط به فن ممکن است به دلایل مختلفی مانند خرابی فیزیکی فن، اختلال در کنترلر فن، خطای نرمافزاری یا حتی شرایط محیطی نامناسب بروز کنند. این خطاها معمولاً از طریق پیامهای هشدار در رابط مدیریتی iLO، چراغهای LED یا در مراحل راهاندازی (POST) به اطلاع کاربر میرسند.
هدف این راهنما ارائه یک مرجع عملی و قابل اطمینان برای شناسایی و رفع این نوع خطاها است تا مدیران سیستم و تکنسینهای شبکه بتوانند با سرعت و دقت بیشتری نسبت به عیبیابی اقدام کرده و از بروز آسیبهای جدی به سرور جلوگیری کنند. با رعایت گامهای سادهای که در ادامه بیان میشود، میتوان بیشتر مشکلات مربوط به فن را در محل و بدون نیاز به ارسال سرور برای تعمیرات تخصصی، برطرف کرد.
فن سرور HPE
شناخت سیستم خنککننده در سرورهای HP
سیستم خنککننده در سرورهای HP، مخصوصاً مدلهای ProLiant، طراحی شده تا با استفاده از ترکیبی از فنهای پرسرعت، سنسورهای حرارتی و کنترلرهای هوشمند، دمای داخلی سرور را در بازهای ایمن نگه دارد. این سیستم، بسته به مدل سرور و پیکربندی آن، ممکن است شامل چندین فن ماژولار با قابلیت Hot-Plug (قابل تعویض در حین کار) باشد.
هر فن در سرور به صورت دقیق کنترل شده و سرعت چرخش آن بسته به نیاز سیستم تغییر میکند. کنترل این فنها معمولاً از طریق کنترلر تعبیهشده در مادربورد یا از طریق BMC (Baseboard Management Controller) انجام میشود. در سرورهای HP، این نقش معمولاً توسط iLO (Integrated Lights-Out) ایفا میشود که امکان پایش و مدیریت سلامت فنها را نیز فراهم میسازد.
در کنار فنها، سنسورهای دما در بخشهای کلیدی مانند پردازنده (CPU)، حافظه (RAM) و ذخیرهسازها قرار دارند. این سنسورها اطلاعات محیطی را به iLO ارسال کرده و بر اساس دادهها، سرعت فنها تنظیم میشود تا حداکثر بازده خنکسازی با کمترین نویز و مصرف انرژی حاصل شود.
از نظر فیزیکی، فنها معمولاً به صورت ردیفی در جلوی سرور نصب میشوند و جریان هوا را از جلو به عقب هدایت میکنند. بسته به نوع کیس و تعداد منابع تغذیه، برخی مدلها دارای فنهای اضافی یا ماژولهای Redundant هستند که در صورت خرابی یک فن، سیستم بتواند همچنان به عملکرد عادی ادامه دهد.
شناخت دقیق اجزای خنککننده و نحوه تعامل آنها، پایه و اساس عیبیابی موفق در مواجهه با خطاهای مرتبط با فن است. در ادامه، علائمی که نشاندهنده خرابی یا مشکل در این بخش هستند را بررسی خواهیم کرد.
فن سرور HPE 4
. علائم خرابی فن در سرورها
خرابی فن در سرورهای HP معمولاً با علائم مشخص و قابل شناسایی همراه است که اگر بهموقع شناسایی نشوند، میتوانند باعث افزایش دمای قطعات، کاهش پایداری سیستم یا حتی خاموش شدن اضطراری سرور شوند. اولین و رایجترین علامت، پیامهای هشدار یا خطا در محیط مدیریتی iLO یا هنگام بوت شدن سرور در بخش POST است. پیامهایی مانند “Fan Failure”, “Fan Redundancy Lost”, یا “Fan Not Detected” از مهمترین نشانهها هستند که باید به سرعت بررسی شوند.
یکی دیگر از نشانههای قابل توجه، چراغهای LED هشدار روی پنل جلویی سرور یا روی خود ماژول فن است. در صورت بروز مشکل، این چراغها ممکن است به رنگ نارنجی یا قرمز درآیند که نشاندهنده وضعیت غیرعادی در سیستم خنککننده است. در بعضی از مدلها، نمایشگر وضعیت (System Insight Display) نیز اطلاعات دقیقتری درباره محل خطا ارائه میدهد.
در برخی موارد، سر و صدای غیرعادی فنها نیز میتواند نشاندهنده ایراد باشد. مثلاً صدای فنهایی که دائماً در حداکثر سرعت میچرخند یا صدای تقتق و لرزش، ممکن است ناشی از اختلال در تنظیم سرعت، بالانس مکانیکی فن، یا خرابی یاتاقان باشد. این مورد معمولاً با افزایش محسوس نویز همراه است که کاربران یا تکنسینها بهراحتی متوجه آن میشوند.
از دیگر علائم مهم، افزایش دمای غیرطبیعی قطعات داخلی مثل CPU یا حافظه است که از طریق مانیتورینگ iLO یا ابزارهایی مثل HPE Insight Diagnostics قابل مشاهده است. اگر فنها بهدرستی کار نکنند یا بهطور کامل متوقف شوند، دمای سیستم بهسرعت بالا میرود و ممکن است منجر به فعال شدن مکانیزم حفاظت حرارتی و خاموش شدن خودکار سرور شود.
در مجموع، آگاهی از این علائم و واکنش سریع به آنها میتواند از خرابیهای جدیتر سختافزاری و اختلال در سرویسدهی جلوگیری کند. در بخش بعد، به بررسی کدهای خطای رایج مربوط به فن در سرورهای HP میپردازیم.
کدهای خطای رایج مربوط به فن
در سرورهای HP، بهویژه مدلهای ProLiant، وجود سیستمهای پایش سلامت سختافزار مانند HP iLO (Integrated Lights-Out) و BIOS POST این امکان را فراهم میکند که مشکلات فنها بهصورت دقیق و شفاف گزارش شوند. این کدها یا پیامهای هشدار به مدیران سیستم کمک میکنند تا منبع مشکل را سریعتر شناسایی و نسبت به رفع آن اقدام کنند.
رایجترین پیامی که معمولاً در صورت خرابی فن مشاهده میشود، “Fan Failure” است. این پیام معمولاً به این معنی است که یکی از فنها بهطور کامل از کار افتاده یا سیستم موفق به شناسایی عملکرد صحیح آن نشده است. این پیام ممکن است همراه با هشدار در پنل جلویی سرور یا از طریق ایمیل/اعلان در سیستم iLO دریافت شود.
یکی دیگر از پیامهای متداول، “Fan Not Detected” یا “Missing Fan” است که نشان میدهد فن مربوطه اصلاً شناسایی نشده و ممکن است بهدرستی نصب نشده یا اتصال آن قطع شده باشد. این خطا اغلب در سرورهایی با فنهای ماژولار یا Hot-Plug دیده میشود.
پیام “Fan Speed Low” نشاندهنده آن است که فن مورد نظر با سرعتی کمتر از حد استاندارد در حال چرخش است، که ممکن است به دلیل گیرکردن پرهها، نقص مکانیکی یا مشکل در تأمین برق باشد. در برخی موارد، گردوغبار یا جسم خارجی هم میتواند باعث کاهش سرعت فن شود.
خطای “Fan Redundancy Lost” نیز زمانی ظاهر میشود که یکی از فنهای Redundant (پشتیبان) از کار افتاده و سیستم دیگر توانایی ادامه خنکسازی با ساختار Redundant را ندارد. در شرایط کاری حساس مانند دیتاسنترها، این پیام هشداری جدی محسوب میشود.
در برخی مدلها، کدهای عددی یا حروفی خاصی نیز هنگام بوت یا در سیستم iLO نمایش داده میشوند. برای مثال:
- 900–Fan Failure
- 901–Fan Not Present
- 902–Fan Redundancy Lost
بیشتر بخوانید: رفع خطاهای رم (Memory Errors) در سرورهای HP
بررسی اولیه قبل از عیبیابی
پیش از ورود به مراحل فنی و تعویض قطعات، انجام یک سری بررسی اولیه میتونه در شناسایی سریع علت خطای فن بسیار مؤثر باشه. گاهی مشکل بسیار سادهتر از چیزی هست که در نگاه اول به نظر میرسه، و با چند بررسی پایهای میتونیم از صرف زمان و هزینه غیرضروری جلوگیری کنیم.
اولین قدم، بررسی فیزیکی کابلها و اتصالات است. مطمئن شوید که فنها به درستی به مادربورد یا برد فن متصل شدهاند و هیچکدام از کابلها شل، قطع یا آسیبدیده نیستند. در سرورهایی که از فنهای Hot-Plug استفاده میکنند، درآوردن و جا زدن مجدد فن هم میتونه به برقراری مجدد اتصال کمک کنه.
مرحله بعد، بررسی وضعیت منبع تغذیه (Power Supply) است. فنها معمولاً مستقیماً از منبع تغذیه یا مادربورد برق میگیرند و اگر منبع تغذیه دارای مشکل باشد (مثلاً نوسان، کاهش ولتاژ یا نقص در یکی از ریلها)، ممکن است فنها دچار اختلال عملکرد شوند. در مواردی هم، اگر یکی از پاورها دچار خطا شود، سیستم برای حفظ توان Redundant، فنها را با حداکثر سرعت میچرخاند که ممکن است به اشتباه به عنوان خرابی تفسیر شود.
در ادامه، بررسی شرایط محیطی اطراف سرور اهمیت زیادی دارد. دمای بالا، گردوغبار زیاد، یا مسدود شدن جریان هوا در جلو یا پشت کیس میتواند باعث افزایش بار حرارتی روی سیستم خنککننده شود. مطمئن شوید که جریان هوا در رک یا اتاق سرور بهدرستی برقرار است و مسیر ورودی و خروجی هوا مسدود نشده باشد.
همچنین پیشنهاد میشود از وضعیت Firmware و نرمافزار مدیریت سرور مطلع شوید. نسخه قدیمی iLO یا BIOS ممکن است باعث گزارشهای اشتباه یا مدیریت نامناسب سرعت فن شود. بروزرسانی این ماژولها میتونه برخی از خطاهای نرمافزاری مربوط به فن رو برطرف کنه.
پس از اطمینان از موارد بالا، میتونید با اطمینان بیشتری وارد مرحله عیبیابی شوید. در بخش بعد، گامبهگام مراحل عیبیابی فنها رو بررسی میکنیم.
مراحل عیبیابی
فرآیند عیبیابی فن در سرورها باید بهصورت مرحلهبهمرحله و با دقت انجام شود تا از بروز آسیبهای احتمالی یا تشخیص اشتباه جلوگیری گردد. در این بخش، یک روش ساختاریافته برای تشخیص و رفع خطاهای مربوط به فن ارائه میشود:
مرحله 1: بررسی خطا در iLO یا System Insight Display
ابتدا وارد محیط مدیریتی iLO شوید و بخش “System Health” یا “Integrated Management Log (IML)” را بررسی کنید. این قسمت اطلاعات دقیقی درباره فنهای نصبشده، وضعیت فعلی آنها و خطاهای ثبتشده در زمانهای مختلف ارائه میدهد. اگر دسترسی فیزیکی به سرور دارید، صفحه نمایش سلامت (SID) روی پنل جلویی یا کدهای هشدار LED نیز میتوانند به شما محل دقیق فن معیوب را نشان دهند.
مرحله 2: بررسی وضعیت فن در BIOS
سیستم را ریستارت کرده و وارد BIOS شوید. در بیشتر مدلها، بخشی تحت عنوان “Thermal” یا “Fan Monitoring” وجود دارد که وضعیت فنها را نمایش میدهد. در این قسمت میتوانید سرعت چرخش هر فن (RPM)، وضعیت تشخیص (Detected/Not Detected) و پیامهای خطا را ببینید. در بعضی مدلها، امکان انجام تست سریع سلامت فن نیز وجود دارد.
مرحله 3: بررسی فیزیکی فن و اتصالات
پس از مشخص شدن فن معیوب، سیستم را خاموش کرده و درب کیس را باز کنید. فن مربوطه را از محل خود خارج کرده و از نظر آسیب فیزیکی (شکستگی پره، انسداد، گردوغبار، سوختگی کانکتور) بررسی نمایید. همچنین وضعیت کانکتور و سوکت اتصال روی مادربورد یا Fan Board را چک کنید. اگر سرور دارای چند فن است، میتوانید با جابجایی فنها (Fan Swapping) تست کنید که آیا مشکل از خود فن است یا از محل اتصال.
مرحله 4: تعویض یا جابجایی فن جهت تست
فن معیوب را با یک فن سالم جایگزین کنید (ترجیحاً از همان مدل و سری) و سرور را روشن کنید. اگر خطا رفع شد، مشکل از فن بوده است. اما اگر همچنان خطا ظاهر شود، ممکن است مشکل از Fan Board، مادربورد یا سیستم کنترلی باشد. در این مرحله ممکن است نیاز به تست با فنهای جایگزین یا بررسی با ابزارهای تخصصیتر باشد.
مرحله 5: بررسی مجدد پس از رفع مشکل
پس از انجام اقدامات فوق و راهاندازی مجدد سیستم، مجدداً وضعیت فنها را در iLO، BIOS یا System Insight Display بررسی کنید. اگر خطا رفع شده باشد و فنها به درستی شناخته شوند، سیستم باید به وضعیت نرمال برگردد. در غیر این صورت، ممکن است نیاز به بررسی سطح بالاتر یا تماس با پشتیبانی رسمی HPE باشد.
راهحلهای پیشنهادی برای خطاهای رایج فن
در سرورها بروز خطاهای مربوط به فن معمولاً با پیامهایی مانند “Fan Not Detected”، “Fan Speed Low” یا “Fan Redundancy Lost” همراه است. هر یک از این خطاها ممکن است دلایل متفاوتی داشته باشند و برای رفع مؤثر آنها نیاز به یک رویکرد دقیق و مرحلهبهمرحله وجود دارد. یکی از مهمترین اقدامات اولیه، بررسی اتصال فیزیکی فنهاست؛ گاهی فقط یک کابل شل یا جا نرفته میتواند علت هشدار باشد. در صورتی که فن از نوع Hot-Plug باشد، بهتر است یک بار آن را خارج و مجدداً در جای خود قرار دهید.
در مواردی که فن شناسایی نمیشود یا سرعت آن کمتر از حد مجاز است، ممکن است فن دچار نقص مکانیکی مانند نیمسوز شدن موتور یا گیرکردن پرهها شده باشد. این مورد معمولاً با سر و صدای غیرعادی نیز همراه است. در چنین شرایطی، پاکسازی فن از گردوغبار یا تعویض آن با یک نمونه سالم و سازگار از همان مدل، راهحل سادهای است که در بسیاری از موارد خطا را برطرف میکند. همچنین بررسی منبع تغذیه برای اطمینان از تأمین ولتاژ کافی به فنها نیز بسیار حیاتی است.
در سناریوهایی که پیام “Fan Redundancy Lost” نمایش داده میشود، باید مطمئن شد که تمام فنهای مورد نیاز برای حالت Redundant به درستی نصب شدهاند. برخی مدلها برای حفظ خنکسازی پایدار در زمان خرابی فن اصلی، نیاز به نصب فنهای پشتیبان دارند و اگر یکی از آنها به هر دلیلی کار نکند یا غیرفعال باشد، سیستم هشدار میدهد. در این وضعیت، با نصب فن جایگزین و فعالسازی مجدد ویژگی Redundancy از طریق BIOS یا iLO میتوان مشکل را رفع کرد.
در نهایت، پیامهایی مانند “Fan Failure Detected” معمولاً نشاندهنده خرابی کامل یا از کار افتادن فن هستند. اگر با تعویض فن هم مشکل رفع نشود، ممکن است ایراد از برد کنترل فن (Fan Board)، مادربورد یا حتی نسخه قدیمی Firmware باشد. بنابراین، بروزرسانی BIOS و iLO یکی از راهکارهای توصیهشده است که نهتنها خطاهای نرمافزاری را رفع میکند، بلکه سازگاری با فنهای جدیدتر را نیز بهبود میبخشد.
بررسی دقیق این خطاها و اجرای راهکارهای مناسب، در اغلب موارد منجر به رفع مشکل و بازگشت سیستم به وضعیت پایدار میشود.
فن سرور HPE 5
معرفی نرمافزارهای مفید برای بررسی وضعیت فن در سرور
یکی از مزایای مهم سرورهای HP، پشتیبانی آنها از مجموعهای قدرتمند از ابزارهای نرمافزاری مدیریتی است که امکان نظارت، تشخیص و عیبیابی مشکلات سختافزاری از جمله فنها را فراهم میکند. این ابزارها اطلاعات دقیقی از وضعیت عملکرد فنها، سرعت چرخش، وضعیت Redundancy و حتی تاریخچه خطاها ارائه میدهند که در فرآیند عیبیابی بسیار کارآمد هستند.
در صدر این ابزارها، HP Integrated Lights-Out (iLO) قرار دارد. iLO یک سیستم مدیریت از راه دور است که بهطور مستقل از سیستمعامل کار میکند و در تمام زمانها حتی زمانی که سرور خاموش است، قابلدسترس میباشد. از طریق iLO میتوان سرعت فنها را مانیتور کرد، خطاهای مربوط به سیستم خنککننده را مشاهده نمود و در صورت نیاز، هشدارها را بهصورت ایمیل یا SNMP دریافت کرد. در نسخههای جدیدتر iLO (مثلاً iLO 5)، داشبوردهای گرافیکی دقیقتری نیز برای پایش دمای قطعات و عملکرد فنها در دسترس قرار گرفتهاند.
یکی دیگر از ابزارهای کاربردی، HPE Insight Diagnostics است. این نرمافزار که بهصورت بوت از طریق SmartStart یا Intelligent Provisioning اجرا میشود، امکان انجام تستهای دقیق سختافزاری بر روی تمام اجزای سیستم از جمله فنها را فراهم میکند. در محیط این نرمافزار، میتوان وضعیت فیزیکی فنها، تعداد چرخش در دقیقه (RPM)، ولتاژ مصرفی و سایر شاخصهای عملکردی را بررسی کرد.
برای پایش پیشرفته و مدیریت مرکزی چندین سرور، ابزار HPE System Insight Manager (SIM) نیز گزینه مناسبی است. این نرمافزار به مدیران IT اجازه میدهد تا چندین سرور HP را از طریق یک کنسول واحد تحت نظارت داشته باشند و هشدارهای سختافزاری مانند خرابی فن را در لحظه دریافت و تحلیل کنند.
در کنار این ابزارها، استفاده از HP RESTful Interface Tool یا OneView نیز برای اتوماسیون و اسکریپتنویسی مانیتورینگ وضعیت فن در زیرساختهای بزرگتر توصیه میشود. این ابزارها با رابطهای برنامهنویسی (API) امکان یکپارچهسازی اطلاعات سلامت سختافزار با سایر سیستمهای مانیتورینگ را فراهم میکنند.
بهکارگیری این نرمافزارها نهتنها فرآیند عیبیابی را سریعتر و دقیقتر میکند، بلکه در پیشگیری از بروز خطاهای جدی و ازکارافتادگی سرور نیز نقش حیاتی دارد.
HPE Server Cooling service
نکات پیشگیرانه برای جلوگیری از خرابی فن در سرور
جلوگیری از خرابی فنها نهتنها به حفظ پایداری و عملکرد بهینه سرور کمک میکند، بلکه در بلندمدت باعث کاهش هزینههای نگهداری و افزایش عمر سختافزار میشود. در این بخش به مهمترین اقدامات پیشگیرانهای میپردازیم که میتونن احتمال بروز خطاهای مرتبط با فن رو به حداقل برسونن.
اولین و شاید مهمترین نکته، نگهداری منظم و پاکسازی سیستم از گردوغبار است. فنها معمولاً در معرض مستقیم هوای ورودی به سرور قرار دارند، و با گذشت زمان ممکن است گردوغبار روی پرهها یا درون یاتاقانها جمع شود که منجر به کاهش کارایی یا حتی گیرکردن فن میشود. تمیز کردن دورهای فنها و فیلترهای هوا با هوای فشرده (Air Duster) یا جاروهای ضدالکتریسیته ساکن میتونه جلوی بسیاری از مشکلات احتمالی رو بگیره.
نکته بعدی، رعایت شرایط محیطی استاندارد در دیتاسنتر یا اتاق سرور هست. دما، رطوبت، و جریان مناسب هوا نقش کلیدی در عملکرد صحیح سیستم خنککننده دارن. بهتره دمای محیط بین 18 تا 27 درجه سانتیگراد حفظ بشه و تجهیزات در رکهایی با جریان هوای منظم (Front-to-Back) قرار بگیرن. استفاده از تهویه مناسب، رکهای بسته با سیستم خنککننده، و جلوگیری از انسداد مسیرهای هوایی اهمیت زیادی داره.
همچنین، بهروزرسانی منظم Firmware سیستم، iLO و BIOS یکی دیگه از راهکارهای پیشگیرانه مهم محسوب میشه. شرکت HP در بروزرسانیهای خود، اغلب بهبودهایی در کنترل فن و تشخیص خطاهای آن اعمال میکنه. نصب نسخههای جدید میتونه از بروز هشدارهای کاذب یا مشکلات ناسازگاری با فنهای جدیدتر جلوگیری کنه.
در نهایت، استفاده از ابزارهای مانیتورینگ و گزارشگیری مداوم مثل iLO یا HPE OneView میتونه به شناسایی زودهنگام تغییرات عملکرد فنها کمک کنه. تنظیم هشدار برای کاهش سرعت فن یا افزایش ناگهانی دما، این امکان رو فراهم میکنه که قبل از تبدیلشدن مشکل به خرابی واقعی، اقدامات لازم انجام بشه.
در نهایت، اگر با خطاهای مربوط به فن در سرورها مواجه هستید و نیاز به عیبیابی دقیق یا رفع سریع مشکل دارید، شرکت یاقوت سرخ با تکیه بر تجربهی عملی، دانش فنی بهروز و تیم متخصص در زمینهی زیرساختهای سرور، آماده است تا در کوتاهترین زمان ممکن، مشکلات سرور شما را شناسایی و برطرف نماید. از مشاوره و بررسی اولیه گرفته تا تعمیر، تعویض قطعات و پشتیبانی فنی، میتوانید با اطمینان روی خدمات یاقوت سرخ حساب کنید.