運維必備!100 條設備日常維護檢查清單(Checklist):覆蓋 90% 以上工作,新手也能照著做

mayores principales ciberataques brechas datos 2020 ciberseguridad empresas ransomware cibercrimen noticias recopilacion aepd grafico bitlife bitlifemedia 1280x720 1
在運維工作中,「遺漏檢查」往往是設備故障、業務中斷的隱形殺手 —— 某企業因未定期檢查伺服器硬碟健康狀態,導致硬碟突發損壞丟失部分數據;某機房因忽視 UPS 電量檢查,停電時備用電源未啟動造成核心業務中斷 2 小時。這些問題的根源,在於缺乏一套標準化的日常維護檢查清單。
本文整理的 100 條運維設備日常維護 Checklist,涵蓋伺服器、網路、存儲、安全、機房等核心場景,每條均對應具體可操作的檢查步驟與合格標準,無論是新手運維還是資深工程師,都能透過清單確保日常工作無盲點,將故障風險降低 80% 以上。
一、伺服器設備(25 條)
1. 硬體狀態檢查
  1. CPU 溫度檢查:透過 IPMI(如 Dell iDRAC、HP iLO)或系統工具(Linux:lm-sensors,Windows:任務管理器)查看;合格標準:單核心溫度≤80℃,無過熱告警;檢查週期:每日 1 次。
  1. CPU 負載檢查:Linux 用「top/htop」,Windows 用「任務管理器」;合格標準:平均負載(15 分鐘)≤CPU 核心數,無長時間 100% 佔用;檢查週期:每日 2 次(早 9 點、晚 5 點)。
  1. 記憶體使用率檢查:Linux 用「free -h」,Windows 用「資源監視器」;合格標準:使用率≤85%,無記憶體洩漏(使用率持續攀升);檢查週期:每日 2 次。
  1. 硬碟健康狀態檢查:機械硬碟用「smartctl -a /dev/sda」,SSD 用「nvme smart-log /dev/nvme0」;合格標準:SMART 狀態「PASSED」,無壞道、預失效率告警;檢查週期:每週 1 次。
  1. 硬碟使用率檢查:Linux 用「df -h」,Windows 用「磁碟管理」;合格標準:單分區使用率≤85%,系統分區(如 /boot、C 盤)≤80%;檢查週期:每日 1 次。
  1. 電源模組狀態檢查:透過 IPMI 或伺服器正面指示燈查看;合格標準:雙電源均「正常運行」(綠燈),無報錯(紅燈 / 黃燈);檢查週期:每日 1 次。
  1. 風扇運轉狀態檢查:透過 IPMI 查看風扇轉速,或現場聽取運轉聲;合格標準:轉速在設備推薦區間(如 3000-6000 RPM),無停轉、異響;檢查週期:每週 2 次。
  1. PCIe 設備狀態檢查:Linux 用「lspci -v」,Windows 用「設備管理器」;合格標準:網卡、RAID 卡等設備「正常運行」,無黃色感嘆號;檢查週期:每週 1 次。
  1. 伺服器指示燈檢查:現場查看電源、硬碟、網口指示燈;合格標準:電源綠燈常亮,硬碟無紅燈閃爍,網口綠燈常亮、橙燈間歇閃爍;檢查週期:每日 1 次(現場巡檢)。
  1. RAID 陣列狀態檢查:透過 RAID 卡管理工具(如 MegaCLI、LSI Storage Manager)查看;合格標準:陣列狀態「Optimal」,無 Degraded/Offline;檢查週期:每日 1 次。
2. 系統與軟體檢查
  1. 作業系統日誌檢查:Linux 查看「/var/log/messages」「/var/log/secure」,Windows 查看「事件檢視器 – Windows 日誌」;合格標準:無 Critical/Error 級別日誌(如核心崩潰、權限異常);檢查週期:每日 1 次。
  1. 系統補丁檢查:Linux 用「yum check-update」「apt list –upgradable」,Windows 用「設定 – 更新與安全」;合格標準:高危補丁(CVSS≥9.0)安裝延遲≤7 天;檢查週期:每週 2 次。
  1. 進程異常檢查:Linux 用「ps -ef | grep 異常進程名」,Windows 用「任務管理器 – 詳細資訊」;合格標準:無未知進程、無單進程 CPU / 記憶體佔用過高(≥90%);檢查週期:每日 1 次。
  1. 系統服務狀態檢查:Linux 用「systemctl status 服務名」(如 nginx、mysql),Windows 用「服務」介面;合格標準:核心服務(如資料庫、Web 服務)均「Running」,無異常停止;檢查週期:每日 2 次。
  1. 端口佔用檢查:Linux 用「netstat -tulnp」「ss -tulnp」,Windows 用「netstat -ano」;合格標準:無未授權端口開放(如非必要的 22、3389 端口暴露公網);檢查週期:每週 1 次。
  1. 系統時間同步檢查:Linux 用「timedatectl」,Windows 用「cmd-ipconfig /all」;合格標準:與 NTP 伺服器(ntp.aliyun.com)時間誤差≤30 秒;檢查週期:每日 1 次。
  1. 磁碟 I/O 負載檢查:Linux 用「iostat -x 1 5」,Windows 用「資源監視器 – 磁碟」;合格標準:% util(使用率)≤90%,無長時間滿負載;檢查週期:每日 1 次。
  1. 網路 I/O 負載檢查:Linux 用「ifstat」「sar -n DEV 1 5」,Windows 用「資源監視器 – 網路」;合格標準:網卡流量≤端口帶寬 80%(如 1G 網卡≤800Mbps);檢查週期:每日 1 次。
  1. 遠端管理工具檢查:檢查 SSH(Linux)、RDP(Windows)、IPMI 服務狀態;合格標準:服務正常運行,登錄日誌無異常 IP 嘗試(如 1 小時內≥10 次失敗登錄);檢查週期:每日 1 次。
  1. 軟體授權檢查:檢查資料庫(如 MySQL、Oracle)、中間件(如 Tomcat、WebLogic)授權;合格標準:授權未過期,無授權警告彈窗 / 日誌;檢查週期:每月 1 次。
3. 業務服務檢查
  1. 應用程式日誌檢查:查看業務日誌(如 Java 應用的 logs 目錄、Python 應用的 logging 日誌);合格標準:無 Error/Fatal 級別錯誤(如資料庫連接失敗、接口調用異常);檢查週期:每日 1 次。
  1. 應用響應時間檢查:透過 curl(Linux)或瀏覽器訪問應用地址;合格標準:頁面加載≤3 秒,API 接口響應≤500ms;檢查週期:每日 2 次。
  1. 資料庫連接數檢查:MySQL 用「show processlist」,Oracle 用「select count (*) from v$session」;合格標準:連接數≤資料庫最大連接數 80%(如 MySQL 預設 151,≤120);檢查週期:每日 1 次。
  1. 資料庫慢查詢檢查:MySQL 開啟 slow_query_log,Oracle 用「select * from v$sql where elapsed_time>1000000」;合格標準:無新增長時間慢查詢(≥10 秒);檢查週期:每日 1 次。
  1. 備份任務狀態檢查:查看系統備份、資料庫備份日誌(如 crontab 任務日誌、mysqldump 日誌);合格標準:備份任務每日按時執行,備份文件大小與源數據匹配;檢查週期:每日 1 次。
二、網路設備(20 條)
1. 交換機檢查
  1. 交換機電源狀態檢查:查看設備正面電源指示燈;合格標準:雙電源均「綠燈常亮」,無紅燈報錯;檢查週期:每日 1 次(現場巡檢)。
  1. 交換機端口狀態檢查:登錄管理界面(如 Cisco IOS 用「show ip interface brief」,華為用「display interface brief」);合格標準:端口狀態「Up/Up」,無 err-disabled、down/down;檢查週期:每日 1 次。
  1. 端口流量檢查:Cisco 用「show interfaces counters」,華為用「display interface traffic」;合格標準:端口輸入 / 輸出流量≤端口帶寬 80%,無異常流量突增;檢查週期:每日 1 次。
  1. VLAN 配置檢查:Cisco 用「show vlan brief」,華為用「display vlan brief」;合格標準:VLAN 劃分與規劃一致,無未授權 VLAN 接入;檢查週期:每週 1 次。
  1. Trunk 端口檢查:Cisco 用「show interfaces trunk」,華為用「display trunk」;合格標準:Trunk 端口允許的 VLAN 與規劃一致,無多餘 VLAN 透傳;檢查週期:每週 1 次。
  1. STP/RSTP 狀態檢查:Cisco 用「show spanning-tree」,華為用「display stp」;合格標準:根橋與規劃一致,無端口角色異常(如非根橋端口成為 Root Port);檢查週期:每週 1 次。
  1. 交換機日誌檢查:Cisco 用「show logging」,華為用「display logbuffer」;合格標準:無 Critical/Error 級別日誌(如端口頻繁 flapping、電源異常);檢查週期:每日 1 次。
  1. MAC 地址表檢查:Cisco 用「show mac address-table」,華為用「display mac-address」;合格標準:無大量未知 MAC 地址,無 MAC 地址泛洪現象;檢查週期:每週 1 次。
  1. 交換機配置備份:透過 TFTP/FTP 將配置文件備份至伺服器;合格標準:配置每日自動備份,備份文件可正常恢復;檢查週期:每日 1 次(驗證備份有效性)。
  1. 設備溫度檢查:Cisco 用「show environment temperature」,華為用「display temperature」;合格標準:設備內部溫度≤45℃,無過熱告警;檢查週期:每週 2 次。
2. 路由器與防火牆檢查
  1. 路由器電源與風扇檢查:查看指示燈與現場聽取風扇聲;合格標準:電源綠燈常亮,風扇無異響、不停轉;檢查週期:每日 1 次(現場巡檢)。
  1. 路由表檢查:Cisco 用「show ip route」,華為用「display ip routing-table」;合格標準:默認路由、靜態路由與規劃一致,無無效路由;檢查週期:每日 1 次。
  1. 接口狀態與流量檢查:Cisco 用「show ip interface brief」「show interfaces counters」,華為用「display interface brief」「display interface traffic」;合格標準:接口 Up/Up,流量無異常波動;檢查週期:每日 1 次。
  1. VPN 隧道狀態檢查:查看 IPsec/L2TP VPN 狀態(如 Cisco 用「show crypto isakmp sa」,華為用「display ipsec sa」);合格標準:隧道「UP」,無頻繁斷開(每日≤1 次);檢查週期:每日 1 次。
  1. 防火牆規則檢查:查看 ACL 規則、安全策略(如華為用「display acl all」「display security-policy」);合格標準:規則與業務需求一致,無過期、多餘規則;檢查週期:每週 1 次。
  1. 防火牆日誌檢查:查看攻擊防禦日誌(如 DDoS 防禦、入侵檢測);合格標準:無大規模攻擊告警(如單 IP 每秒≥100 次攻擊嘗試);檢查週期:每日 1 次。
  1. NAT 轉發檢查:Cisco 用「show ip nat translations」,華為用「display nat session」;合格標準:NAT 映射與規劃一致,無異常 NAT 會話;檢查週期:每週 1 次。
  1. 負載均衡狀態檢查:若路由器支持負載均衡,查看各鏈路流量;合格標準:流量分配均勻(各鏈路差異≤20%),無單鏈路超負載;檢查週期:每日 1 次。
  1. 設備配置備份:將路由器 / 防火牆配置備份至伺服器;合格標準:配置每日自動備份,備份文件完整;檢查週期:每日 1 次(驗證備份)。
  1. 設備固件版本檢查:查看設備 IOS / 固件版本;合格標準:版本無已知高危漏洞,固件更新延遲≤3 個月(非核心設備≤6 個月);檢查週期:每月 1 次。
三、存儲設備(15 條)
  1. 存儲設備電源檢查:查看磁陣、磁碟櫃電源指示燈;合格標準:雙電源綠燈常亮,無報錯;檢查週期:每日 1 次(現場巡檢)。
  1. 磁碟狀態檢查:透過存儲管理界面(如華為 OceanStor 用「DeviceManager」)查看磁碟健康狀態;合格標準:磁碟「正常」,無 Offline、Degraded;檢查週期:每日 1 次。
  1. RAID 組狀態檢查:查看存儲 RAID 組狀態;合格標準:RAID 組「Optimal」,無重建中(重建時間≤24 小時);檢查週期:每日 1 次。
  1. 存儲容量檢查:查看存儲池、LUN 使用率;合格標準:存儲池使用率≤85%,單 LUN 使用率≤90%;檢查週期:每日 1 次。
  1. 存儲 I/O 性能檢查:查看讀寫延遲、IOPS;合格標準:讀延遲≤5ms,寫延遲≤10ms,IOPS 無異常波動;檢查週期:每日 1 次。
  1. 存儲端口狀態檢查:查看 FC/iSCSI 端口狀態;合格標準:端口 Up/Up,無斷連記錄;檢查週期:每日 1 次。
  1. 存儲日誌檢查:查看設備運行日誌、告警日誌;合格標準:無 Error/Critical 級別告警(如磁碟故障、端口異常);檢查週期:每日 1 次。
  1. 存儲備份任務檢查:查看存儲級備份(如快照、複製)狀態;合格標準:備份按時執行,快照可正常恢復;檢查週期:每日 1 次。
  1. 存儲設備溫度檢查:透過管理界面查看設備內部溫度;合格標準:溫度≤40℃,無過熱告警;檢查週期:每週 2 次。
  1. 存儲固件檢查:查看存儲設備固件版本;合格標準:版本無高危漏洞,固件更新計畫按時執行;檢查週期:每月 1 次。
  1. LUN 映射檢查:查看 LUN 與主機的映射關係;合格標準:映射與規劃一致,無未授權主機訪問 LUN;檢查週期:每週 1 次。
  1. 存儲網路檢查:若為 SAN 存儲,檢查 FC 交換機端口狀態;合格標準:端口 Up/Up,無 CRC 錯誤;檢查週期:每週 1 次。
  1. 存儲電池狀態檢查:查看存儲設備備用電池狀態;合格標準:電池電量≥90%,無老化告警;檢查週期:每週 1 次。
  1. 存儲配置備份:將存儲設備配置備份至伺服器;合格標準:配置每日備份,備份文件完整;檢查週期:每日 1 次(驗證)。
  1. 存儲設備連接檢查:檢查存儲與主機的物理連接(如光纖線、網線);合格標準:線纜無鬆動、損壞,接頭無灰塵;檢查週期:每週 1 次(現場)。
四、安全設備(20 條)
1. 防火牆與 WAF 檢查
  1. 防火牆運行狀態檢查:查看設備 CPU、記憶體使用率;合格標準:CPU≤80%,記憶體≤85%;檢查週期:每日 1 次。
  1. WAF 規則更新檢查:查看 WAF 特徵庫版本;合格標準:特徵庫每日自動更新,版本為最新;檢查週期:每日 1 次。
  1. WAF 防護日誌檢查:查看 SQL 注入、XSS 攻擊攔截日誌;合格標準:攻擊均被有效攔截,無漏攔(可透過模擬攻擊驗證);檢查週期:每日 1 次。
  1. DDoS 防禦狀態檢查:查看 DDoS 防禦模塊運行狀態;合格標準:防禦功能開啟,無繞過防禦的攻擊;檢查週期:每日 1 次。
  1. 防火牆 SSL 證書檢查:查看 SSL VPN、HTTPS 轉發的證書;合格標準:證書未過期(剩餘有效期≥30 天),無證書報錯;檢查週期:每月 1 次。
2. IDS/IPS 與防毒牆檢查
  1. IDS/IPS 規則更新檢查:查看入侵檢測規則庫版本;合格標準:規則庫每週至少更新 1 次;檢查週期:每週 2 次。
  1. IDS/IPS 告警檢查:查看異常流量、攻擊行為告警;合格標準:告警均已處置,無未處理高危告警(≥24 小時);檢查週期:每日 1 次。
  1. 防毒牆病毒庫更新檢查:查看病毒庫版本;合格標準:病毒庫每日自動更新,版本最新;檢查週期:每日 1 次。
  1. 防毒牆攔截日誌檢查:查看惡意文件、病毒攔截記錄;合格標準:病毒檢測率≥99%,無漏攔;檢查週期:每日 1 次。
  1. VPN 用戶接入檢查:查看 SSL VPN/L2TP VPN 用戶登錄記錄;合格標準:無未授權用戶登錄,登錄 IP 與用戶歸屬地匹配;檢查週期:每日 1 次。
3. 其他安全設備檢查
  1. 日誌伺服器運行檢查:查看 SIEM 設備(如 Splunk、奇安信天擎)運行狀態;合格標準:日誌採集正常,無中斷(採集中斷≤1 小時);檢查週期:每日 1 次。
  1. 日誌存儲檢查:查看日誌存儲容量;合格標準:存儲使用率≤85%,日誌保留時間符合規範(如≥90 天);檢查週期:每日 1 次。
  1. 身份認證設備檢查:查看 MFA 設備(如硬體令牌、企業微信驗證)運行狀態;合格標準:認證成功率≥99%,無設備故障;檢查週期:每日 1 次。
  1. 漏洞掃描設備檢查:查看掃描任務狀態;合格標準:掃描按計畫執行(如每週 1 次),無掃描失敗;檢查週期:每週 1 次。
  1. 安全設備配置備份:備份防火牆、WAF、IDS/IPS 配置;合格標準:配置每日備份,備份文件可恢復;檢查週期:每日 1 次(驗證)。
  1. 安全設備固件更新檢查:查看安全設備固件版本;合格標準:版本無高危漏洞,更新延遲≤3 個月;檢查週期:每月 1 次。
  1. 異常流量監控檢查:查看網路流量分析設備(如 Netflow 分析器)數據;合格標準:無異常流量(如單 IP 上傳流量≥100Mbps / 小時);檢查週期:每日 1 次。
  1. 敏感端口防護檢查:查看 22、3389、1433 等端口防護狀態;合格標準:僅授權 IP 可訪問,無公網直接暴露;檢查週期:每週 1 次。
  1. 安全設備告警響應檢查:查看告警處置記錄;合格標準:高危告警處置時長≤1 小時,中危≤4 小時;檢查週期:每日 1 次。
  1. 安全策略審核檢查:檢查安全設備策略是否過期;合格標準:每季度審核 1 次,過期策略及時刪除;檢查週期:每季度 1 次。
五、機房環境(15 條)
  1. 機房溫度檢查:透過溫度計或機房監控系統查看;合格標準:溫度 18-24℃,無超標(瞬間超標≤30 分鐘);檢查週期:每日 2 次(早 9 點、晚 8 點)。
  1. 機房濕度檢查:查看濕度計數據;合格標準:濕度 40%-60%,無結露現象;檢查週期:每日 2 次。
  1. 機房電源檢查:查看市電輸入電壓、電流;合格標準:電壓 220V±10%,電流無異常波動;檢查週期:每日 1 次。
  1. UPS 運行狀態檢查:查看 UPS 電量、負載率;合格標準:電量≥90%,負載率≤80%,無故障告警;檢查週期:每日 1 次。
  1. UPS 放電測試:每月執行一次短時放電(如 10 分鐘);合格標準:放電過程正常,電量下降平穩;檢查週期:每月 1 次。
  1. 機房空調檢查:查看空調運行模式、風量;合格標準:製冷模式正常,風量足夠,無漏水、異響;檢查週期:每日 1 次(現場巡檢)。
  1. 機房防盜檢查:查看門禁記錄、監控畫面;合格標準:無未授權人員進入,監控無盲區;檢查週期:每日 1 次。
  1. 消防設備檢查:查看滅火器、氣體滅火系統狀態;合格標準:滅火器壓力正常,滅火系統無報錯;檢查週期:每週 1 次。
  1. 機房照明檢查:查看室內燈、應急燈;合格標準:正常照明無損壞,應急燈在斷電時可啟動;檢查週期:每週 1 次。
  1. 機房線纜檢查:查看伺服器、網路設備線纜;合格標準:線纜佈線整齊,無鬆動、老化、損壞;檢查週期:每週 1 次(現場)。
  1. 機房防靜電檢查:查看防靜電地板、接地狀態;合格標準:接地電阻≤4Ω,防靜電地板無損壞;檢查週期:每月 1 次。
  1. 機房防鼠蟲檢查:查看機房角落、線纜處是否有鼠蟲痕跡;合格標準:無鼠糞、蟲蛀痕跡,防鼠板安裝完好;檢查週期:每週 1 次。
  1. 機房排水檢查:查看機房排水溝、地漏;合格標準:排水暢通,無積水;檢查週期:每週 1 次。
  1. 機房監控系統檢查:查看視頻監控、環境監控(溫濕度、煙感)運行狀態;合格標準:監控畫面清晰,告警功能正常;檢查週期:每日 1 次。
  1. 機房應急預案檢查:複核停電、火災、設備故障應急流程;合格標準:預案更新至最新,人員熟悉處置步驟;檢查週期:每季度 1 次。
六、通用管理與應急(10 條)
  1. 運維文檔更新檢查:查看設備清單、網路拓撲圖、配置手冊;合格標準:文檔與現網一致,更新不及時≤1 周;檢查週期:每週 1 次。
  1. 人員交接檢查:查看運維交接記錄;合格標準:交接內容完整(含設備密碼、注意事項),無交接漏洞;檢查週期:每月 1 次。
  1. 應急工具檢查:查看急救包、應急燈、備用線纜、USB 隨身碟(含系統鏡像);合格標準:工具齊全,可正常使用;檢查週期:每週 1 次。
  1. 遠程管理工具檢查:查看 SSH 客戶端、遠端桌面工具、設備管理軟體;合格標準:工具無漏洞,版本最新;檢查週期:每週 1 次。
  1. 運維日誌記錄檢查:查看每日運維記錄(如檢查結果、故障處置);合格標準:記錄完整、準確,無遺漏關鍵操作;檢查週期:每日 1 次。
七、清單使用建議
  1. 個性化調整:根據企業設備規模、業務特性增刪檢查項(如無存儲設備可刪除對應模塊);
  1. 自動化落地:透過 Zabbix、Nagios 等監控工具,將「CPU、記憶體、流量」等常規檢查項設定自動告警,減少手動操作;
  1. 定期審核更新:每季度根據設備新增 / 下架、業務變動調整清單,確保覆蓋度始終≥90%;
  1. 新人培訓工具:將本清單作為新手運維培訓教材,幫助快速掌握日常工作核心要點。
運維工作的核心是「防患於未然」,這 100 條檢查清單猶如「設備健康體檢表」—— 透過每日、每週、每月的標準化檢查,既能及時發現潛在故障,也能讓運維工作擺脫「救火式」被動,走向「預防式」主動,最終實現設備穩定運行、業務中斷率大幅降低的目標。
八、清單自動化落地工具配置
手動執行 100 條檢查項不僅耗時,還易因疏忽漏檢。透過工具實現「自動監控 + 自動記錄 + 異常告警」,可將運維效率提升 60% 以上,以下是核心工具配置方案:
1. 自動化監控工具(以 Zabbix 為例)
(1)伺服器核心指標監控配置
  • 配置步驟
  1. 在 Zabbix Server 中添加主機(「配置→主機→建立主機」),選擇對應模板(如「Template OS Linux」「Template OS Windows」);
  1. 自定義檢查項:針對「硬碟健康狀態」,添加「SSH 命令」類型檢查項,命令smartctl -a /dev/sda | grep “SMART overall-health self-assessment test result” | awk ‘{print $6}’,若返回「PASSED」則正常,否則觸發告警;
  1. 設定觸發器:如 CPU 溫度≥85℃時觸發「警告」,≥90℃觸發「嚴重」,並綁定郵件 / 企業微信告警媒介;
  1. 建立圖形與儀表盤:將 CPU 負載、記憶體使用率、磁碟 I/O 等指標彙總為儀表盤,直觀展示設備狀態。
  • 操作要點
  • Linux 主機需安裝 zabbix-agent2,並開放 10050 端口;Windows 主機需配置 agent 服務為「自動啟動」;
  • 對「資料庫慢查詢」等自定義指標,可透過 Zabbix 的「UserParameter」自定義腳本(如寫 shell 腳本統計每秒慢查詢數,並在 agent 配置中引用)。
(2)網路設備自動檢查配置
  • 以華為交換機為例
  1. 開啟交換機 SNMP 協議(snmp-agentsnmp-agent community read public),確保 Zabbix 可訪問;
  1. 在 Zabbix 中添加「Template Network Huawei」模板,自動採集端口狀態(OID:1.3.6.1.2.1.2.2.1.8,1=Up,2=Down)、端口流量(OID:1.3.6.1.2.1.2.2.1.10/16,分別對應入 / 出流量);
  1. 自定義 Trunk 端口檢查:透過「SNMP 取值」獲取 Trunk 允許的 VLAN 列表(OID:1.3.6.1.2.1.17.7.1.4.3.1.1),與預設規劃的 VLAN 比對,不一致則告警。
(3)機房環境自動監控
  • 溫濕度與 UPS 監控
  1. 部署 RS485 溫濕度感測器(如 SHT30),透過網關(如 ESP32)接入區域網,將數據上傳至 Zabbix;
  1. UPS 設備(如華為 UPS2000)開啟 SNMP,採集電量(OID:1.3.6.1.4.1.2011.6.3.4.1.1.3)、負載率(OID:1.3.6.1.4.1.2011.6.3.4.1.1.4),設定電量≤20% 時觸發緊急告警。
2. 檢查記錄與跟蹤工具(以飛書多維表格為例)
  • 表格結構設計
檢查項 ID
檢查內容
負責人
檢查時間
結果(正常 / 異常)
異常描述
處置狀態
驗證人
1
CPU 溫度檢查
張三
2025-10-28
正常
完成
李四
4
硬碟健康狀態
張三
2025-10-28
異常
sda 硬碟預失效率 10%
處置中
李四
  • 自動化設定
  1. 設定「檢查時間提醒」:透過飛書機器人,每日早 8 點向負責人推送當日需完成的檢查項(如「今日需完成 10 條伺服器檢查,請於 18 點前錄入結果」);
  1. 異常流轉規則:若「結果」列選擇「異常」,自動將行轉至「異常跟蹤表」,並通知技術負責人;
  1. 統計視圖:建立「周檢查完成率」圖表(完成數 / 總數 ×100%),自動計算每個人的執行率,低於 90% 時提醒管理員。
3. 團隊协作與告警工具
  • 企業微信 / 釘釘告警配置
  1. 在 Zabbix 中安裝「企業微信機器人」外掛,將告警信息格式化為「【設備異常】主機:web-server-01,指標:CPU 使用率 95%,時間:2025-10-28 09:30,處置建議:檢查異常進程」;
  1. 按設備分組建立告警群:如「伺服器告警群」「網路設備告警群」,確保對應負責人及時接收;
  1. 告警升級規則:若 15 分鐘內無人回復「已處置」,自動轉發至管理員群,避免漏處理。
九、檢查中常見問題應對方案
即使有標準化清單,執行中仍會遇到「漏檢」「誤告警」「設備不支援自動檢查」等問題,以下是針對高頻痛點的解決方案:
1. 檢查項過多導致漏檢
  • 問題表現:每日需執行 30 + 手動檢查項(如機房線纜檢查、應急工具核對),易因時間緊張漏做;
  • 解決步驟
  1. 按「風險等級」標註檢查項:核心業務設備(如 ERP 伺服器)的檢查項標「紅色(必做)」,非核心設備(如辦公區交換機)標「黃色(可抽檢)」,降低無效工作量;
  1. 拆分「日 / 周 / 月」執行計畫:將 100 條檢查項按週期製作「執行日曆」,如每日僅執行 40 條(伺服器核心指標、網路端口狀態),週檢查 30 條(VLAN 配置、存儲 RAID 狀態),月檢查 30 條(固件版本、防靜電檢查);
  1. 引入「交叉複核」機制:每日檢查完成後,由另一人隨機抽檢 10% 的項目(如核對伺服器日誌是否真的檢查過),漏檢一次扣減績效分,強化執行意識。
2. 設備告警頻繁誤判
  • 問題表現:Zabbix 經常觸發「虛假告警」(如短時間 CPU 突增至 85% 後迅速回落,誤判為異常),浪費處置時間;
  • 解決步驟
  1. 調整告警閾值與持續時間:將「CPU 使用率≥85% 告警」調整為「CPU 使用率≥85% 且持續 5 分鐘」,避免瞬間波動觸發;
  1. 按「業務時段」區分閾值:如白天(9:00-18:00)Web 伺服器 CPU 閾值設 85%,夜間(備份時段)設 90%,符合實際負載規律;
  1. 建立「告警白名單」:對已知的臨時高負載場景(如每月 1 號財務數據統計),提前在 Zabbix 中設定「時間段抑制」,該時段內不觸發對應告警。
3. 備份驗證失敗無法恢復
  • 問題表現:檢查中發現「備份任務顯示成功,但恢復測試時文件損壞」,無法應對數據丟失風險;
  • 解決步驟
  1. 優化備份驗證方法:不僅檢查「備份日誌是否成功」,還需每周抽 1 次備份文件(如資料庫備份),在測試環境執行恢復操作,驗證「文件完整性」與「數據可讀性」;
  1. 增加「備份文件校驗」:在備份腳本中加入 MD5 校驗(md5sum backup.sql > backup.md5),每次檢查時執md5sum -c backup.md5,確保文件未被篡改或損壞;
  1. 建立「備份異常應急方案」:若驗證失敗,立即執行「備份恢復 B 計畫」(如使用前一天的離線備份),同時排查失敗原因(如存儲空間不足、網路中斷),24 小時內解決並復原備份機制。
4. 老舊設備不支援自動檢查
  • 問題表現:部分老舊設備(如 2015 年以前的小型交換機)無 SNMP 協議,無法自動採集端口狀態,只能手動登錄檢查;
  • 解決步驟
  1. 開發「簡易檢查腳本」:透過 Python paramiko庫遠程登錄設備,執行狀態查詢命令(display interface brief),並解析輸出結果,異常則發送郵件告警;
  1. 制定「設備替換計畫」:將不支援自動化的老舊設備列入替換清單,優先替換核心區域設備(如機房主交換機),逐步實現全自動化覆蓋;
  1. 臨時「手動檢查表」:對暫無法替換的設備,製作「一頁式檢查表」(僅列關鍵檢查點,如端口燈是否正常、有無異響),簡化手動操作步驟。
十、清單執行效果評估與持續優化
檢查清單不是「一次性文件」,需定期評估執行效果,根據業務變動與設備更新調整,確保始終符合實際需求。
1. 核心評估指標(量化統計)
指標名稱
統計方法
合格標準
設備故障發生率
(每月故障次數 ÷ 總設備數)×100%,故障含硬體損壞、業務中斷(不含計劃停機)
≤1%(核心設備≤0.5%)
檢查完成率
(實際完成檢查項數 ÷ 計劃完成數)×100%,按日 / 周 / 月分別統計
日檢查≥95%,周 / 月≥100%
告警處置及時率
(15 分鐘內處置的告警數 ÷ 總告警數)×100%,僅統計真實異常告警
≥90%(高危告警≥98%)
備份恢復成功率
(每月恢復測試成功次數 ÷ 總測試次數)×100%,含系統、資料庫、存儲備份
100%(不允許失敗)
應急響應時間
從故障發生到業務恢復的平均時間,按「核心業務 / 非核心業務」分類統計
核心≤1 小時,非核心≤4 小時
  • 數據來源
  • 故障次數:從 Zabbix 告警記錄、故障處置日誌中提取;
  • 檢查完成率:從飛書多維表格的執行記錄中自動計算;
  • 恢復成功率:每月備份測試報告中的數據。
2. 持續優化步驟
(1)每季度「清單審核會」
  • 參與人員:運維團隊、業務負責人、安全團隊;
  • 審核內容:
  1. 新增設備是否補充檢查項(如新增雲伺服器,需添加「雲主機 CPU 使用率、磁碟空間」檢查);
  1. 過時檢查項是否刪除(如某老舊存儲已下架,對應的 10 條檢查項移除);
  1. 防禦策略是否需更新(如出現新漏洞 CVE-2025-XXXX,需在「系統補丁檢查」中新增該漏洞的檢查要求)。
(2)每月「問題總結會」
  • 核心議題:
  1. 統計本月漏檢、誤告警、備份失敗的次數與原因,形成「問題清單」(如漏檢主要集中在「機房防鼠蟲檢查」,因執行人覺得不重要);
  1. 針對根因制定改進措施(如將「防鼠蟲檢查」與機房安全獎金掛鉤,強化重視度);
  1. 分享優秀執行案例(如某工程師開發了「機房巡檢小程序」,將檢查時間從 1 小時縮短到 30 分鐘),推廣經驗。
(3)每年「工具升級規劃」
  • 根據技術發展更新自動化工具:
  1. 若企業遷移至雲環境,新增「雲資源檢查工具」(如阿里雲 CLI,檢查 ECS 實例狀態、RDS 備份);
  1. 引入 AI 輔助監控(如使用 Prometheus+Grafana+AI 插件,自動識別異常流量模式,減少人工判斷);
  1. 優化移動端體驗:開發小程序版檢查表,機房巡檢時可直接用手機錄入結果(拍照上傳線纜狀態),无需返回電腦操作。
十一、企業落地案例參考
某製造業企業(員工 500 人,核心業務為生產管理系統 MES)透過 100 條檢查清單優化運維工作,6 個月內取得明顯成效:
1. 實施前痛點
  • 每月平均發生 3 次設備故障(如伺服器硬碟損壞、交換機端口故障),每次中斷業務 1-2 小時;
  • 手動檢查耗時長,每日需 2 人花費 3 小時執行,且經常漏檢(如忘記核對 UPS 電量);
  • 備份僅「執行不驗證」,曾因備份文件損壞,導致生產數據丟失 1 天的記錄。
2. 落地措施
  1. 按「核心優先」拆分檢查計畫:每日僅執行 40 條核心檢查項(MES 伺服器指標、生產區網路狀態),週檢 30 條,月檢 30 條;
  1. 配置 Zabbix 自動監控:覆蓋 60% 的檢查項(如 CPU、記憶體、端口流量),異常時自動推送企業微信告警;
  1. 建立「備份驗證機制」:每周五下午在測試環境恢復 MES 資料庫備份,確認數據完整後才算檢查通過;
  1. 引入交叉複核:每日檢查完成後,由團隊長抽檢 10% 的項目,漏檢一次罰款 50 元。
3. 實施後效果
  • 設備故障次數從每月 3 次降至 0.5 次,業務中斷時間縮短至≤30 分鐘;
  • 每日檢查時間從 3 小時降至 1 小時,效率提升 67%;
  • 備份恢復成功率達 100%,未再發生數據丟失問題;
  • 新人上手時間從 1 個月縮短至 2 周(透過清單快速掌握核心檢查要點)。
運維檢查清單的核心價值,不在於「列出 100 條項目」,而在於「讓每條項目都能落地,並持續解決實際問題」。無論企業規模大小,都可從「核心設備優先覆蓋」「逐步引入自動化」「定期優化調整」三個步驟開始,將清單轉化為穩定業務運行的「護城河」。最終實現:運維人員從「被動救火」轉為「主動預防」,企業從「故障損失」轉為「穩定獲益」。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top