تاریخ امروز : 1404/04/2

علائم خرابی پاور سرور چیست؟ عیب بابی و رفع خطاها

HPE Power Server Error
به این مقله امتیاز بدهید

منبع تغذیه یا پاور سرور (Power Supply Unit یا PSU) یکی از اصلی‌ترین اجزای سخت‌افزاری سرورها محسوب می‌شود که وظیفه‌ی تأمین برق پایدار و یکنواخت برای تمام قطعات داخلی از جمله مادربورد، پردازنده، رم، فن‌ها و دستگاه‌های ذخیره‌سازی را بر عهده دارد. در سرورهای HP، به‌ویژه خانواده‌ی HPE ProLiant، منبع تغذیه نه‌تنها از نظر توان خروجی اهمیت دارد، بلکه از نظر ویژگی‌های مدیریتی، مصرف انرژی، و پشتیبانی از حالت Redundant نیز نقش حیاتی ایفا می‌کند.

سرورهای HP معمولاً از پاورهای Hot-Plug پشتیبانی می‌کنند، به این معنا که می‌توان پاور معیوب را بدون خاموش‌کردن سرور تعویض کرد؛ این ویژگی در محیط‌های حساس بسیار ارزشمند است. همچنین در بسیاری از مدل‌ها، امکان استفاده از پاورهای Redundant (پشتیبان) فراهم شده است، به‌طوری‌که در صورت خرابی یکی از واحدها، واحد دوم به‌صورت خودکار وارد مدار می‌شود و از خاموشی ناگهانی سرور جلوگیری می‌کند.

درک ساختار و قابلیت‌های پاورهای HP، اولین گام در تشخیص و رفع مشکلات مربوط به آن‌هاست. از آن‌جایی‌که بسیاری از خرابی‌های سخت‌افزاری از منبع تغذیه نشأت می‌گیرند، آشنایی با عملکرد، انواع، و امکانات مدیریتی PSU، به مدیران شبکه و تکنسین‌های فنی کمک می‌کند تا بتوانند به‌سرعت منشأ مشکلات را شناسایی کرده و نسبت به رفع آن اقدام کنند.

علائم رایج خرابی پاور در سرور

خرابی یا اختلال در عملکرد منبع تغذیه سرور می‌تواند به شکل‌های مختلفی ظاهر شود و اغلب همراه با علائم هشداردهنده مشخصی است که شناسایی سریع آن‌ها می‌تواند از آسیب‌های بیشتر به سرور جلوگیری کند. این علائم ممکن است فیزیکی، نرم‌افزاری یا عملکردی باشند و گاهی به‌سادگی نادیده گرفته می‌شوند؛ بنابراین توجه به نشانه‌ها بسیار مهم است.

یکی از شایع‌ترین علائم، خاموش شدن ناگهانی یا ریست شدن تصادفی سرور است. این حالت معمولاً در زمانی رخ می‌دهد که پاور توان کافی برای تأمین انرژی قطعات را ندارد یا دچار افت ولتاژ لحظه‌ای می‌شود. در سرورهایی با دو پاور Redundant، اگر یکی از واحدها از کار بیفتد و دیگری نیز تحت فشار قرار گیرد، سرور ممکن است ناپایدار شود یا خاموش شود.

چراغ‌های هشدار (LED) روی پاور یا پنل جلو سرور نیز از نشانه‌های مهم‌اند. در پاورهای HP، وجود چراغ نارنجی یا قرمز معمولاً به معنای بروز خطا در منبع تغذیه است، در حالی که چراغ سبز به‌معنای عملکرد نرمال آن است. گاهی اوقات چراغ پاور به‌طور کامل خاموش است که ممکن است نشان‌دهنده عدم دریافت برق ورودی یا سوختن کامل پاور باشد.

از دیگر علائم رایج، پیام‌های هشدار در کنسول مدیریتی iLO یا System Event Log (SEL) است. خطاهایی مانند “Power Supply Failure”, “Power Redundancy Lost”, یا “PSU Not Present” از هشدارهای رایجی هستند که معمولاً در صورت خرابی یا قطع ارتباط با یکی از پاورها نمایش داده می‌شوند.

صدای غیرعادی از پاور یا فن‌های آن نیز می‌تواند نشانه‌ای از نقص مکانیکی یا اختلال در عملکرد باشد. به‌ویژه در پاورهایی که به مرور زمان داغ می‌شوند یا گردوغبار زیادی جذب کرده‌اند، ایجاد صدای وزوز یا نویز بالا نشانه‌ای از نیاز به بررسی و احتمالاً تعویض است.

در مواردی هم ممکن است پاور به‌درستی کار کند اما سیستم نتواند آن را شناسایی کند یا پیام “Unrecognized Power Supply” در لاگ‌ها دیده شود؛ این مورد معمولاً به ناسازگاری یا ایراد در Firmware مربوط می‌شود.

شناسایی این علائم و ثبت زمان وقوع آن‌ها، نقش مهمی در تحلیل علت و انتخاب راه‌حل مناسب ایفا می‌کند

HPE Power Server Error 1

HPE Power Server Error 1

کدها و پیام‌های خطا در iLO و System Event Log

سیستم مدیریتی iLO در سرورهای HP ابزاری قدرتمند برای مانیتورینگ سلامت سخت‌افزار است و یکی از اصلی‌ترین منابع شناسایی خطاهای منبع تغذیه محسوب می‌شود. همچنین، System Event Log (SEL) یا Integrated Management Log (IML) لاگ‌هایی دقیق از خطاهای سیستم ذخیره می‌کند که در فرایند عیب‌یابی بسیار مفید هستند. در این بخش به برخی از رایج‌ترین پیام‌ها و کدهای خطا مرتبط با پاور در این سیستم‌ها اشاره می‌کنیم.

یکی از متداول‌ترین پیام‌ها، “Power Supply Failure” است. این پیام به‌طور مستقیم نشان‌دهنده خرابی یکی از واحدهای منبع تغذیه است و معمولاً همراه با چراغ هشدار نارنجی یا قرمز روی PSU ظاهر می‌شود. در این حالت، باید بررسی شود که پاور به‌درستی در جای خود نصب شده، برق ورودی قطع نشده و کابل‌ها سالم باشند.

پیام دیگری که بسیار دیده می‌شود، “Power Supply Redundancy Lost” است. این خطا زمانی ثبت می‌شود که یکی از پاورهای Redundant از مدار خارج شده و سیستم تنها با یک پاور در حال کار است. اگرچه در این شرایط سرور همچنان به‌کار خود ادامه می‌دهد، اما بدون Redundancy، در برابر خرابی احتمالی پاور دوم آسیب‌پذیر خواهد بود.

پیام “Power Supply Not Present” یا “PSU Not Installed” نیز نشان می‌دهد که سیستم یکی از منابع تغذیه را شناسایی نمی‌کند. این موضوع ممکن است ناشی از عدم نصب صحیح پاور، خرابی کامل آن، یا مشکل در کانکتور مربوطه باشد. گاهی اوقات نیز ممکن است این پیام به دلیل بروزرسانی‌ نبودن Firmware یا استفاده از پاوری ناسازگار با مدل سرور باشد.

پیام‌هایی نظیر “Incorrect Power Supply Detected” یا “Unrecognized PSU” معمولاً در مواردی ظاهر می‌شوند که از پاوری با ولتاژ، توان یا فرم‌فکتور ناسازگار استفاده شده باشد. استفاده از پاورهای غیراصلی یا جایگزین‌های غیرمجاز نیز می‌تواند منجر به بروز چنین هشدارهایی شود.

در لاگ‌های IML ممکن است خطاهایی با فرمت خاص کدگذاری شده مانند:

POST Error: 1611 – Power Supply Failure

IML Log Entry: Power Supply 1 failed. Redundancy lost.

Event ID: 0x00000074

Description: Power Supply 2 is not detected.

ظاهر شود. ثبت این پیام‌ها، زمان رخداد و الگوی تکرار آن‌ها می‌تواند به شناسایی سریع‌تر علت مشکل کمک کند.

HPE ILO power Supply Error

HPE ILO power Supply Error

بررسی اولیه و ظاهری پاور سرور

پیش از ورود به مراحل پیشرفته‌تر عیب‌یابی یا استفاده از ابزارهای نرم‌افزاری، انجام یک بررسی ظاهری و اولیه روی پاور می‌تونه بسیاری از مشکلات را به‌سادگی شناسایی و حتی رفع کنه. این نوع بررسی در زمان بروز خطای “Power Supply Failure” یا عدم شناسایی پاور، نقطه‌ی شروع مناسبی محسوب می‌شه.

نخستین گام، بررسی LED پاور هست. اکثر پاورهای HP دارای یک یا چند چراغ LED هستند که وضعیت عملکردی آن‌ها را نمایش می‌دهند. چراغ سبز نشان‌دهنده وضعیت نرمال است، در حالی که چراغ نارنجی یا قرمز معمولاً به معنای وجود مشکل در پاور یا اتصالات آن است. اگر چراغ کاملاً خاموش باشد، ممکنه پاور برق ورودی دریافت نکنه یا به‌طور کامل از کار افتاده باشه.

گام بعدی، بررسی کابل برق و اتصال آن به پاور و پریز یا PDU است. گاهی اوقات مشکل ساده‌ای مثل شل بودن کابل برق یا خرابی دوشاخه، باعث عدم شناسایی یا عملکرد نامناسب پاور می‌شه. همچنین، اگر از چند پاور استفاده می‌کنید، مطمئن بشید هرکدام از آن‌ها به فاز مجزایی از برق متصل هستند تا از قطع کامل جریان جلوگیری بشه.

اگر سرور در محیطی پرگردوغبار قرار داره یا مدت زیادی از تمیزکاری اون گذشته، بررسی ورودی هوا و فن‌های پاور از نظر آلودگی هم بسیار مهمه. تجمع گردوغبار می‌تونه باعث داغ شدن، کاهش عملکرد و حتی خاموشی پاور بشه. استفاده از هوای فشرده برای تمیزکردن فن‌ها و ورودی‌ها می‌تونه در این مرحله مفید باشه.

همچنین، بررسی وضعیت فیزیکی پاور در شاسی از اهمیت بالایی برخورداره. اطمینان حاصل کنید که پاور به‌درستی درون اسلات مربوطه جا زده شده و قفل مکانیکی اون کامل بسته شده باشه. پاورهایی که نیمه‌نصب یا لق هستند، ممکنه در ظاهر سالم باشند ولی عملاً به‌درستی برق‌رسانی نکنند یا توسط سیستم شناسایی نشن.

در نهایت، در سرورهایی که از پاور Redundant استفاده می‌کنند، می‌تونید پاورها را با یکدیگر جابه‌جا یا به‌صورت تکی تست کنید. اگر با جابه‌جایی، خطا به پاور دیگر منتقل شد، احتمالاً با خرابی واحد پاور مواجه هستید. اما اگر خطا همچنان در همان اسلات باقی موند، احتمال وجود مشکل در شاسی یا برد اصلی وجود دارد.

بیشتر بخوانید: رفع خطاهای رم (Memory Errors) در سرورهای HP

بررسی وضعیت پاور در BIOS و iLO

پس از انجام بررسی‌های ظاهری و اولیه، یکی از مؤثرترین راه‌ها برای عیب‌یابی دقیق‌تر منبع تغذیه، استفاده از ابزارهای مدیریتی داخلی سرورهای HP یعنی BIOS/UEFI و iLO (Integrated Lights-Out) است. این ابزارها اطلاعات کاملی درباره‌ی وضعیت لحظه‌ای پاور، خطاهای ثبت‌شده، ولتاژها، وضعیت Redundancy و حتی پیش‌بینی وقوع خطا (Pre-Failure) ارائه می‌دهند.

در محیط BIOS یا UEFI سرورها، با ورود به بخش System Information یا Hardware Health می‌توان وضعیت پاورهای نصب‌شده را مشاهده کرد. معمولاً اطلاعاتی مانند وضعیت نصب بودن پاور، فعال یا غیرفعال بودن Redundancy، وضعیت برق ورودی (AC) و خروجی (DC)، و دمای پاورها در این قسمت قابل بررسی هستند. اگر یکی از پاورها نصب نشده باشد یا سیستم آن را شناسایی نکند، معمولاً به‌صورت “Not Present” یا “Not Detected” نمایش داده می‌شود.

اما iLO ابزار بسیار کامل‌تر و قدرتمندتری برای بررسی وضعیت پاور است. پس از ورود به پنل مدیریتی iLO (از طریق مرورگر و IP اختصاصی)، با مراجعه به قسمت “System Information > Power” یا “Power Management”، می‌توان موارد زیر را بررسی کرد:

  • وضعیت فعال/غیرفعال بودن هر واحد پاور
  • مقدار توان مصرفی در لحظه (Watts)
  • وضعیت سلامت پاورها (OK / Failed / Warning)
  • وضعیت Redundancy (Enabled / Lost / Not Available)
  • ولتاژ و جریان دریافتی هر پاور
  • هشدارهای ذخیره‌شده در Event Log یا IML مربوط به پاور

اگر هرگونه خطا یا عدم تعادل در توان مصرفی بین پاورها وجود داشته باشد، iLO آن را با رنگ و نماد هشدار (مثل مثلث زرد یا دایره قرمز) نمایش می‌دهد. همچنین، می‌توانید تاریخ و ساعت بروز خطا را بررسی کرده و از آن برای تحلیل علت وقوع خطا استفاده کنید.

برخی نسخه‌های جدید iLO حتی قابلیت ثبت نمودار مصرف انرژی در بازه‌های زمانی مختلف را دارند که برای یافتن الگوهای ناپایداری برق یا بار بیش از حد نیز مفید است.

در صورت مشاهده خطا در iLO، توصیه می‌شود آخرین نسخه‌ی Firmware پاور و iLO را بررسی و در صورت نیاز بروزرسانی کنید، چراکه برخی مشکلات ناشی از ناسازگاری نرم‌افزاری یا باگ‌های شناخته‌شده هستند که با آپدیت رفع می‌شوند.

فروش پاور سرور HPE 800W Flex Slot 48VDC 720480-B21

خطاهای رایج پاور سرور و راه‌حل‌های پیشنهادی

در طی کار با سرورهای HP، مخصوصاً مدل‌های ProLiant، ممکنه با انواع مختلفی از خطاهای مرتبط با منبع تغذیه مواجه بشید. این خطاها معمولاً در iLO، لاگ‌های سیستم (IML/SEL)، یا هنگام بوت شدن سرور مشاهده می‌شن. در ادامه به رایج‌ترین این خطاها و راه‌حل‌های کاربردی برای رفع اون‌ها اشاره می‌کنیم:

🔹 Power Supply Failure

  • توضیح: یکی از پاورها دچار خرابی سخت‌افزاری شده یا از کار افتاده.
  • راه‌حل‌ها:
    • بررسی LED روی پاور (اگر قرمز یا خاموشه، نشانه خرابی یا عدم دریافت برق است)
    • تعویض کابل برق یا جابجایی آن به منبع تغذیه دیگر
    • تست پاور در اسلات دیگر (برای اطمینان از سلامت اسلات)
    • در صورت تکرار خطا، تعویض پاور توصیه می‌شود.

🔹 Power Supply Redundancy Lost

  • توضیح: یکی از پاورهای Redundant از مدار خارج شده و سیستم در حال کار با تنها یک منبع تغذیه است.
  • راه‌حل‌ها:
    • بررسی نصب کامل پاور دوم (ممکنه لق یا به‌درستی جا نرفته باشه)
    • اطمینان از فعال بودن Redundancy در BIOS/iLO
    • بررسی اینکه هر دو پاور به دو منبع برق مجزا متصل شده باشند
    • در صورت خرابی یکی از پاورها، آن را با نمونه مشابه تعویض کنید.

🔹 Power Supply Not Present / Not Detected

  • توضیح: سیستم یکی از پاورها را شناسایی نمی‌کند.
  • راه‌حل‌ها:
    • بررسی کامل نصب فیزیکی پاور
    • تست پاور در اسلات دیگر
    • بررسی سلامت کانکتور و بُرد شاسی
    • بررسی ناسازگاری مدل پاور با سرور
    • بروزرسانی Firmware پاور و iLO

🔹 Incorrect or Unrecognized Power Supply

  • توضیح: پاور مورد استفاده با مدل سرور سازگاری کامل ندارد.
  • راه‌حل‌ها:
    • استفاده از پاور اصلی HP (دارای لیبل رسمی)
    • مطابقت مدل پاور با مدل سرور و ظرفیت مورد نیاز (مانند 500W, 800W, 1200W Flex Slot)
    • بررسی اینکه پاور با استاندارد فرم‌فکتور سرور (مانند Flex Slot یا Common Slot) همخوانی داشته باشد

🔹 Power Supply Input Lost

  • توضیح: منبع برق ورودی به پاور قطع شده یا نوسان دارد.
  • راه‌حل‌ها:
    • بررسی برق ورودی (PDU، پریز، کابل، فیوز)
    • اتصال پاور به یک منبع پایدار و مطمئن
    • استفاده از UPS با ولتاژ و ظرفیت مناسب
    • در صورت تکرار، بررسی سلامت فیزیکی پاور توصیه می‌شود

ارزیابی دقیق هر کد خطا و پیاده‌سازی راه‌حل مناسب، به کاهش زمان خاموشی سرور و پیشگیری از آسیب‌های جدی‌تر کمک می‌کند. در بخش‌های بعدی به نحوه تست Redundancy و جابه‌جایی پاور برای اطمینان از عملکرد صحیح می‌پردازیم.

HPE DL380 G10 power 500w

تست Redundancy و جابه‌جایی پاور

یکی از قابلیت‌های مهم در بسیاری از مدل‌های سرور HP، به‌ویژه مدل‌های ProLiant، پشتیبانی از پاور Redundant (منبع تغذیه‌ی افزونه) است. این ویژگی باعث می‌شود حتی در صورت از کار افتادن یکی از پاورها، سرور بدون قطعی به کار خود ادامه دهد. با این حال، برای اطمینان از صحت عملکرد این سیستم، باید تست‌هایی روی Redundancy و جابه‌جایی پاور انجام شود.

🔹 تست Redundancy

برای بررسی عملکرد Redundancy، ابتدا اطمینان حاصل کنید که هر دو پاور به‌درستی نصب شده‌اند و از منابع برق مجزا تغذیه می‌شوند. سپس طبق مراحل زیر اقدام کنید:

  1. وارد iLO شوید و از مسیر System Information > Power وضعیت هر دو پاور را بررسی کنید.
  2. وضعیت Redundancy باید “Redundant” یا “OK” باشد.
  3. یکی از کابل‌های برق پاور را موقتی قطع کنید و بررسی کنید که آیا:
    • سرور بدون قطعی ادامه می‌دهد
    • پیام “Redundancy Lost” در iLO ظاهر می‌شود
    • تنها پاور دوم فعال باقی می‌ماند
  4. سپس مجدد کابل قطع‌شده را متصل کرده و بررسی کنید که وضعیت به حالت “Redundant” بازمی‌گردد یا خیر.

این تست کمک می‌کند مطمئن شوید Redundancy به‌درستی فعال است و در مواقع ضروری، بدون اختلال عمل می‌کند.

🔹 جابه‌جایی پاور (Swap Test)

اگر مشکوک به خرابی یکی از پاورها هستید و Redundancy فعال نیست، می‌تونید تست تعویض یا جابه‌جایی انجام بدید:

  1. پاور مشکوک را از اسلات خود خارج کرده و به اسلات دیگر منتقل کنید.
  2. اگر خطا به همراه پاور به اسلات جدید منتقل شد، احتمالاً پاور معیوب است.
  3. اما اگر خطا در همان اسلات باقی ماند (حتی با تعویض پاور)، ممکن است مشکل از اسلات، بک‌پلین یا برد مادر باشد.

همچنین می‌تونید از یک پاور مشابه (از یک سرور دیگر یا یدکی) استفاده کنید و ببینید که آیا سیستم آن را بدون خطا شناسایی می‌کند یا نه.

انجام این تست‌ها کمک می‌کند ریشه خطا به‌درستی شناسایی بشه—چه خرابی از خود پاور باشه، چه از منبع برق، شاسی یا برد.

نکات تکمیلی در نگهداری و افزایش عمر پاورها

برای جلوگیری از بروز خطاهای تکراری در منابع تغذیه و افزایش طول عمر پاورهای سرور، رعایت یک‌سری نکات عملی و پیشگیرانه کاملاً ضروری است. در این بخش به موارد مهمی اشاره می‌کنیم که با رعایت آن‌ها می‌توان عملکرد سیستم را پایدارتر و هزینه‌های نگهداری را کمتر کرد.

🔹 تأمین برق پایدار و استاندارد

استفاده از منابع برق پایدار و مجهز به UPS یکی از پایه‌ای‌ترین توصیه‌هاست. نوسانات ولتاژ، قطعی‌های لحظه‌ای و اضافه‌بارها از عوامل اصلی خرابی پاورها هستند. اگر برق محلی دچار ناپایداری است، حتماً از UPS با ظرفیت متناسب و محافظ ولتاژ (Surge Protector) استفاده شود.

🔹 توزیع بار مناسب بین پاورها

در سرورهایی که دو پاور نصب شده، بهتر است هر پاور به یک فاز مجزا از برق متصل شود تا تعادل بار به‌درستی برقرار باشد. توزیع غیریکسان یا استفاده از فقط یک پاور به‌صورت دائم، موجب استهلاک یک‌طرفه شده و ممکن است Redundancy را عملاً بی‌اثر کند.

🔹 تمیز نگه‌داشتن محیط و خنک‌سازی مؤثر

حرارت دشمن اصلی تجهیزات الکترونیکی است. تهویه نامناسب، دمای بالا و انباشت گردوغبار در پاورها باعث کاهش راندمان، افزایش دمای داخلی و حتی خاموشی ناگهانی سرور می‌شود. پاک‌سازی دوره‌ای فیلترهای هوا و فن‌های پاور با هوای فشرده توصیه می‌شود.

🔹 بروزرسانی Firmware

HP در بسیاری از موارد، بروزرسانی Firmware پاورها و iLO را برای رفع باگ‌ها، بهبود پایداری و افزایش سازگاری با مدل‌های جدید ارائه می‌دهد. بهتر است با استفاده از ابزارهایی مانند HPE SPP (Service Pack for ProLiant) یا iLO Web Interface، این بروزرسانی‌ها به‌صورت دوره‌ای اعمال شوند.

🔹 مستندسازی و پایش دوره‌ای سلامت پاورها

از طریق iLO و IML، می‌توان اطلاعات دقیقی درباره سلامت پاورها، خطاهای گذشته و تاریخچه هشدارها دریافت کرد. توصیه می‌شود این اطلاعات در فایل‌هایی مستند شوند و در جلسات نگهداری و پشتیبانی بررسی گردند تا پیش از وقوع خرابی کامل، اقدامات پیشگیرانه انجام شود.

در نهایت، اگر به‌دنبال اطمینان از پایداری و سلامت زیرساخت‌های سخت‌افزاری سرور خود هستید، شرکت یاقوت سرخ با سال‌ها تجربه در پشتیبانی، عیب‌یابی و تعمیر تخصصی سرورهای HPE، آماده است تا در کوتاه‌ترین زمان، مشکلات مربوط به پاور، فن و سایر اجزای حیاتی سیستم شما را بررسی و رفع کند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

محصولات پیشنهادی سردبیر

سایر مقالات مربتط با سرور HP

HPE Insight CMU 2
راهنمای خرید

معرفی HPE Insight Cluster Management Utility (CMU)

در زیرساخت‌های محاسباتی پیشرفته، به‌ویژه در مراکز داده و محیط‌های مبتنی بر سرور HPE، مدیریت متمرکز و کارآمد تجهیزات پردازشی نقش

سبد خرید
فروشگاه
حساب من
0 مورد سبد خرید