旅程 20:製造業事件回應——初階工程師靠 AI 排障
Arova Nexus — Phase 0 Product Definition | 2026-03-31

角色: 王工程(初階 IT 工程師,入職 3 個月)+ AI Agent + 李維運(IT 主管,在外開會) 場景: 泰國廠產線核心交換機 Core-SW-01 電源模組故障,Graylog 偵測到大量 app timeout,LibreNMS 偵測到 8 個 port down。王工程第一次獨立面對 P1 事件 橫跨模組: Integration → Incident → AI Copilot → Knowledge → Analytics


背景

泰國廠 IT 團隊只有 5 人,其中資深工程師 2 人、初階工程師 3 人。王工程入職 3 個月,之前只處理過 P3/P4 的小事件。今天下午 2 點,資深工程師都在巡檢其他廠區,只有王工程值班。

產線核心交換機 Core-SW-01 是連接 ERP、MES、SCADA 閘道的關鍵設備,一旦故障整條產線的 IT 系統都會受影響。


旅程步驟

Stage 1:多源告警湧入 + AI 自動處理(0-60 秒)

Core-SW-01 電源模組 PSU-A 故障,瞬間產生大量告警。

14:00:00  Core-SW-01 PSU-A 故障
              │
              ├─ LibreNMS 發送 8 筆 Webhook:
              │   port 1-8 down(連接 ERP/MES/SCADA Gateway)
              │   CPU 0%(設備失去回應)
              │
              ├─ Graylog 發送 35 筆 Webhook:
              │   ERP: "Connection timeout to 10.1.1.1"(×12)
              │   MES: "Database connection lost"(×8)
              │   SCADA GW: "PLC communication failure"(×15)
              │
              ↓ 共 43 筆告警湧入 Arova
              │
14:00:15  AI Correlation Agent 分析(信心度 96%):
              「43 筆告警來自同一網段 10.1.1.0/24,
               時間窗口 15 秒內,指向 Core-SW-01」
              │
              → 合併為 3 個 Incident:
                INC-0501 Core-SW-01 硬體故障(🏷️ 根因)
                INC-0502 ERP/MES 連線中斷(🏷️ 衍生)
                INC-0503 SCADA Gateway 通訊失敗(🏷️ 衍生)
              │
14:00:20  AI Triage Agent 分類:
              嚴重度:P1(核心網路設備 + 產線影響)
              類型:Hardware Failure / Network
              指派:王工程(值班中)
              │
14:00:25  通知發送:
              → 王工程:Email + Toast + Slack
              → 李維運(主管):Email + Slack(P1 事件自動通知主管)

使用者情緒: 🟢 43 筆告警 → 3 個事件,AI 在 25 秒內完成(以往需要 30 分鐘人工分類)

涉及模組: Integration(Webhook 接收)、Incident(IN-001, IN-009)、AI Native(AIN-011 Correlation, AIN-012 Triage)、Notification


Stage 2:初階工程師查看 AI 摘要(2 分鐘)

王工程手機收到 Slack 通知,打開 Arova 事件詳情頁。

┌─────────────────────────────────────────────────────────┐
│ INC-0501  Core-SW-01 硬體故障                            │
│ 嚴重度:P1 (Critical)  狀態:New  AI 信心度:96%         │
│ 🏷️ 根因事件 · 關聯 2 個衍生事件                          │
│                                                         │
│ 📋 AI 摘要:                                            │
│ Core-SW-01(Cisco C9300)在 14:00 失去回應。LibreNMS     │
│ 報告 8 個 port 同時 down + CPU 0%,Graylog 記錄到 35    │
│ 筆上游服務連線逾時。所有受影響服務都在 10.1.1.0/24 網段。│
│ 研判為硬體故障(非設定變更或流量異常)。                   │
│                                                         │
│ 影響範圍:ERP、MES、SCADA Gateway(3 個核心服務)         │
│ 預估影響:產線 A/B 全線 IT 系統中斷                       │
│                                                         │
│ 💡 AI 建議行動:                                         │
│ 1. ⚡ 緊急:到機房檢查 Core-SW-01 實體狀態               │
│    (電源 LED、風扇聲音、Console 回應)                    │
│ 2. 確認是否為電源或風扇模組故障                           │
│ 3. 若為單一 PSU 故障,更換備用 PSU 模組                   │
│ 4. 若為整機故障,啟動備援交換機 Core-SW-02                │
│                                                         │
│ 📖 相關知識文章:                                        │
│ • KB-031 Core Switch 故障 SOP         相關度 95%         │
│ • KB-018 網路設備更換備品流程          相關度 82%         │
│ • KB-045 產線 IT 緊急應變程序          相關度 78%         │
│                                                         │
│ 🕐 相似歷史事件:                                        │
│ • INC-0312 (2025-11) Dist-SW-02 風扇故障 — 15 分鐘修復  │
│   修復方式:更換風扇模組                                   │
└─────────────────────────────────────────────────────────┘

王工程雖然入職 3 個月沒處理過 P1,但 AI 摘要告訴他:

王工程點「確認」接手事件。

使用者情緒: 🟢 第一次遇到 P1 有點緊張,但 AI 摘要像資深同事在旁邊指導

涉及模組: Incident(IN-005, IN-007)、AI Copilot(AIC-002, AIC-003)、Knowledge(KB-008)


Stage 3:AI Copilot 輔助排障(5 分鐘)

王工程到機房前,先用 AI Copilot 快速了解更多。

┌─────────────────────────────────────────────────────────┐
│ AI Copilot                                               │
│                                                         │
│ 👤 王工程:Core-SW-01 有幾顆電源模組?備品在哪裡?        │
│                                                         │
│ 🤖 根據 CMDB 資料:                                      │
│ Core-SW-01 (Cisco C9300-48T) 配置 2 顆 PSU:             │
│ • PSU-A: PWR-C1-1100WAC(主電源)                        │
│ • PSU-B: PWR-C1-1100WAC(備援,目前 Standby)            │
│                                                         │
│ 備品位置(根據 KB-018):                                 │
│ 泰國廠 MDF 機櫃 Rack-A 底層備品箱,型號 PWR-C1-1100WAC   │
│ 庫存:2 顆                                               │
│                                                         │
│ 👤 王工程:如果 PSU-A 壞了,PSU-B 應該會自動接手吧?      │
│ 為什麼所有 port 都 down 了?                              │
│                                                         │
│ 🤖 好問題。正常情況下 PSU 冗餘應該讓 PSU-B 自動接手。     │
│ 但 LibreNMS 顯示 CPU 0%(設備完全無回應),這表示         │
│ 可能不是單純 PSU 故障,而是:                              │
│ 1. 兩顆 PSU 同時故障(罕見但可能)                        │
│ 2. PSU-A 故障時產生電湧損壞主機板                         │
│ 3. PSU-B 其實之前就已故障(未偵測到)                     │
│                                                         │
│ 建議:到機房先看兩顆 PSU 的 LED 狀態。                     │
│ • 兩顆都滅 → 可能是 PDU/電源迴路問題                      │
│ • 只有 PSU-A 滅 → 嘗試拔插重置或更換                      │
└─────────────────────────────────────────────────────────┘

AI Copilot 做了資深工程師才會做的事:追問「為什麼冗餘沒生效」,幫王工程建立正確的排障思路。

使用者情緒: 🟢 AI 的追問比我自己想得更深入

涉及模組: AI Copilot(AIC-001, AIC-002)、CMDB(CM-001 資產資訊)、Knowledge(KB-018)


Stage 4:現場修復(10 分鐘)

王工程到機房檢查:

王工程按 SOP:

  1. 從備品箱取出 2 顆新 PSU
  2. 更換 PSU-A(主電源恢復)
  3. 更換 PSU-B(備援恢復)
  4. 交換機自動開機,port 逐一恢復

Stage 5:AI Copilot 查 Graylog 確認恢復(Phase 2 預覽)

交換機恢復後,王工程想確認上游服務是否都恢復正常。

┌─────────────────────────────────────────────────────────┐
│ AI Copilot                                               │
│                                                         │
│ 👤 王工程:ERP 和 MES 的連線有恢復嗎?                    │
│                                                         │
│ 🤖 查詢 Graylog log(Phase 2 能力)...                   │
│                                                         │
│ ERP (10.1.1.10):                                        │
│ • 14:00-14:18 共 127 筆 "Connection timeout" error       │
│ • 14:18 起 error 停止,最後一筆正常 log: 14:19            │
│ • ✅ 已恢復                                              │
│                                                         │
│ MES (10.1.1.20):                                        │
│ • 14:00-14:18 共 89 筆 "Database connection lost"        │
│ • 14:19 起恢復連線,但有 3 筆 "Reconnection attempt"     │
│ • ✅ 已恢復(自動重連成功)                               │
│                                                         │
│ SCADA Gateway (10.1.1.30):                              │
│ • 14:00-14:18 共 215 筆 "PLC communication failure"      │
│ • 14:20 PLC 通訊恢復                                     │
│ • ✅ 已恢復                                              │
│                                                         │
│ 💡 所有 3 個服務已恢復。建議可以解決此事件。               │
│                                                         │
│ ⚠️ 注意:PSU-B 靜默故障未被 LibreNMS 偵測到,建議         │
│ 建立預防措施:啟用 PSU 冗餘狀態的 SNMP 監控 trap。        │
└─────────────────────────────────────────────────────────┘

標註: 這個 Stage 展示的是 Phase 2 Graylog 深度整合的能力。MVP 階段工程師需要自己到 Graylog 介面查 log,Phase 2 後可以直接在 Copilot 中用自然語言查詢。

使用者情緒: 🟢 不用切換到 Graylog 介面,直接在 Arova 確認所有服務恢復

涉及模組: AI Copilot(AIC-009 Graylog 查詢,Phase 2)、Integration(Graylog 深度整合)


Stage 6:Recovery + 結案(5 分鐘)

LibreNMS 發送 recovery alert,Arova 自動更新事件時間軸。

┌─────────────────────────────────────────────────────────┐
│ 時間軸                                                   │
│                                                         │
│ 14:00  LibreNMS 偵測 8 port down + Graylog 35 筆 error  │
│ 14:00  AI 合併 43 筆告警為 3 個事件(信心度 96%)         │
│ 14:00  AI 分類 P1 + 指派王工程                           │
│ 14:02  王工程確認接手                                     │
│ 14:07  王工程到達機房                                     │
│ 14:10  確認 PSU-A 故障 + PSU-B 靜默故障                  │
│ 14:15  更換 PSU-A(主電源恢復)                           │
│ 14:18  更換 PSU-B(備援恢復)                             │
│ 14:19  🟢 LibreNMS 報告 8 port 恢復(Recovery alert)    │
│ 14:20  💡 監控系統報告已恢復,建議可結案                   │
│ 14:22  王工程點擊「解決」                                 │
│ 14:25  李維運遠端審查 AI 結案摘要 → 「結案」              │
│                                                         │
│ 總 MTTR:25 分鐘(以往同類事件平均 2-4 小時)             │
└─────────────────────────────────────────────────────────┘

王工程點「批次解決」,一次關閉根因 INC-0501 + 衍生 INC-0502/0503。

使用者情緒: 🟢 第一次獨立處理 P1,25 分鐘搞定!

涉及模組: Incident(IN-016 結案、IN-006 批次解決)


Stage 7:PIR 自動產出 + ISO 報告(10 分鐘)

系統偵測到 P1 結案,建議產出 PIR。

┌─────────────────────────────────────────────────────────┐
│ 事後檢討報告 (PIR) — AI 自動草擬                          │
│                                                         │
│ 1. 事件概述                                              │
│ 2026-04-09 14:00-14:25,Core-SW-01 電源模組故障導致      │
│ 產線 A/B IT 系統中斷 25 分鐘,影響 ERP、MES、SCADA 三    │
│ 個核心服務。                                              │
│                                                         │
│ 2. 根因分析(AI 信心度 96%)                              │
│ PSU-A 硬體故障 + PSU-B 靜默故障(冗餘失效)。PSU-B 故障   │
│ 未被 LibreNMS SNMP 偵測到(trap 未啟用)。                │
│                                                         │
│ 3. 影響評估                                              │
│ • 受影響服務:3 個(ERP、MES、SCADA Gateway)             │
│ • 中斷時間:25 分鐘                                      │
│ • 影響產線:A/B 線暫停 IT 相關作業                        │
│                                                         │
│ 4. 預防建議                                              │
│ ① 啟用 PSU 冗餘狀態 SNMP trap 監控                       │
│ ② 建立每月 PSU 健康檢查排程                               │
│ ③ 評估核心交換機備援架構(Stack 或 VSS)                   │
│                                                         │
│ 5. Action Items                                          │
│ ┌──────────────────────┬────────┬────────────┬─────┐     │
│ │ 項目                  │ 負責人  │ 到期日      │ 狀態│     │
│ ├──────────────────────┼────────┼────────────┼─────┤     │
│ │ 啟用 PSU SNMP trap   │ 王工程  │ 2026-04-16 │ ⬜  │     │
│ │ 建立 PSU 月檢排程    │ 李維運  │ 2026-04-23 │ ⬜  │     │
│ │ 評估交換機備援方案    │ 李維運  │ 2026-05-09 │ ⬜  │     │
│ └──────────────────────┴────────┴────────────┴─────┘     │
│                                                         │
│               [送出簽核]  [下載 PDF]                      │
└─────────────────────────────────────────────────────────┘

PIR 由 AI 在 30 秒內自動草擬。王工程補充現場照片(PSU LED 狀態),李維運遠端在手機上簽核。

接著,李維運在「分析報表」頁面產出 ISO 27001 合規報告,此事件的完整稽核軌跡自動包含。

使用者情緒: 🟢 以前寫 PIR 要 2-3 天,現在 AI 30 秒就寫好了

涉及模組: Incident(PIR)、Analytics(ISO 27001 報告)


旅程成果

指標 以往(無 AI) 本次(AI 輔助) 改善
告警分類時間 30 分鐘(人工逐條看) 25 秒(AI 自動) 98%↓
根因定位 1-2 小時(問資深同事) 2 分鐘(AI 摘要) 97%↓
修復時間 1-2 小時(找 SOP + 試錯) 15 分鐘(按 AI 建議 + SOP) 85%↓
總 MTTR 2-4 小時 25 分鐘 90%↓
PIR 撰寫 2-3 天 30 秒(AI 草擬)+ 10 分鐘(人工補充) 99%↓
ISO 報告 3-5 天 10 分鐘(範本 + 自動填充) 99%↓
初階工程師能否獨立處理 P1 ❌ 需等資深 ✅ AI 引導下可獨立完成

涉及模組與 Story 對照

模組 Stories 說明
Integration INT-001 Graylog + LibreNMS Webhook 接收
Incident IN-001, IN-005, IN-006, IN-007, IN-009, IN-016 事件建立、AI 摘要、批次解決、結案、告警合併
AI Native AIN-011, AIN-012, AIN-024 Correlation Agent、Triage Agent、結案摘要
AI Copilot AIC-001, AIC-002, AIC-003, AIC-009 自然語言查詢、上下文感知、KB 搜尋、Graylog 查詢(Phase 2)
Knowledge KB-008, KB-018, KB-031, KB-045 語意搜尋、SOP 推薦
Analytics AN-009 ISO 27001 合規報告
Notification NT-002, NT-003 Email/Toast/Slack/Webhook 通知
CMDB CM-001 設備資訊查詢

Self-Healing 路線圖預覽

本次事件中的 AI 角色是 L1 通知(分析 + 建議,人工執行)。未來路線圖:

階段 AI 在本事件中的行為 條件
MVP (L1) 分析 + 建議「檢查 PSU」→ 王工程手動修復 現在
V1.5 (L2+) 建議「執行 PSU 健康檢查 Workflow」→ 王工程點確認 準確率 >85% 連續 30 天
V2.0 (L3) 偵測到 disk full → 自動執行 log 清理(Runbook 範圍內) 準確率 >90% 連續 60 天
V2.5 (L3+) 偵測到未知故障模式 → AI 自主判斷修復策略 長期目標