角色: 王工程(初階 IT 工程師,入職 3 個月)+ AI Agent + 李維運(IT 主管,在外開會)
場景: 泰國廠產線核心交換機 Core-SW-01 電源模組故障,Graylog 偵測到大量 app timeout,LibreNMS 偵測到 8 個 port down。王工程第一次獨立面對 SEV1 事件
橫跨模組: Integration → Incident → AI Copilot → Knowledge → Analytics
泰國廠 IT 團隊只有 5 人,其中資深工程師 2 人、初階工程師 3 人。王工程入職 3 個月,之前只處理過 SEV3/SEV4 的小事件。今天下午 2 點,資深工程師都在巡檢其他廠區,只有王工程值班。
產線核心交換機 Core-SW-01 是連接 ERP、MES、SCADA 閘道的關鍵設備,一旦故障整條產線的 IT 系統都會受影響。
Core-SW-01 電源模組 PSU-A 故障,瞬間產生大量告警。
王工程手機收到 Slack 通知,打開 Arova 事件詳情頁。
王工程雖然入職 3 個月沒處理過 SEV1,但 AI 摘要告訴他:
王工程點「確認」接手事件。
王工程到機房前,先用 AI Copilot 快速了解更多。
AI Copilot 做了資深工程師才會做的事:追問「為什麼冗餘沒生效」,幫王工程建立正確的排障思路。
王工程到機房檢查:
王工程按 SOP:
交換機恢復後,王工程想確認上游服務是否都恢復正常。
標註: 這個 Stage 展示的是 Phase 2 Graylog 深度整合的能力。MVP 階段工程師需要自己到 Graylog 介面查 log,Phase 2 後可以直接在 Copilot 中用自然語言查詢。
LibreNMS 發送 recovery alert,Arova 自動更新事件時間軸。
王工程點「批次解決」→ 系統彈出 preview dialog(IN-020),列出 INC-0501(根因)+ INC-0502/0503(衍生)三筆,預設全選,附 AI 信心度 96% / 94% / 92%。王工程確認都已恢復 → 點確認 → 一次關閉三筆。
若王工程發現其中某筆衍生事件其實是獨立問題(例如 INC-0503 的 SCADA 通訊失敗其實是另一起 cert 過期問題,與 Switch 故障無關),他可以在 dialog 中 uncheck 該筆,或事先透過 IN-019「解除衍生關係」將其獨立出去,避免被連帶錯誤關閉。
系統偵測到 SEV1 結案,建議產出 PIR。
PIR 由 AI 在 30 秒內自動草擬。王工程補充現場照片(PSU LED 狀態),李維運遠端在手機上簽核。
接著,李維運在「分析報表」頁面產出 ISO 27001 合規報告,此事件的完整稽核軌跡自動包含。
| 指標 | 以往(無 AI) | 本次(AI 輔助) | 改善 |
|---|---|---|---|
| 告警分類時間 | 30 分鐘(人工逐條看) | 25 秒(AI 自動) | 98%↓ |
| 根因定位 | 1-2 小時(問資深同事) | 2 分鐘(AI 摘要) | 97%↓ |
| 修復時間 | 1-2 小時(找 SOP + 試錯) | 15 分鐘(按 AI 建議 + SOP) | 85%↓ |
| 總 MTTR | 2-4 小時 | 25 分鐘 | 90%↓ |
| PIR 撰寫 | 2-3 天 | 30 秒(AI 草擬)+ 10 分鐘(人工補充) | 99%↓ |
| ISO 報告 | 3-5 天 | 10 分鐘(範本 + 自動填充) | 99%↓ |
| 初階工程師能否獨立處理 SEV1 | ❌ 需等資深 | ✅ AI 引導下可獨立完成 | — |
| 模組 | Stories | 說明 |
|---|---|---|
| Integration | INT-001 | Graylog + LibreNMS Webhook 接收 |
| Incident | IN-001, IN-005, IN-006, IN-007, IN-009, IN-016 | 事件建立、AI 摘要、批次解決、結案、告警合併 |
| AI Native | AIN-011, AIN-012, AIN-024 | Correlation Agent、Triage Agent、結案摘要 |
| AI Copilot | AIC-001, AIC-002, AIC-003, AIC-009 | 自然語言查詢、上下文感知、KB 搜尋、Graylog 查詢(Phase 2) |
| Knowledge | KB-008, KB-018, KB-031, KB-045 | 語意搜尋、SOP 推薦 |
| Analytics | AN-009 | ISO 27001 合規報告 |
| Notification | NT-002, NT-003 | Email/Toast/Slack/Webhook 通知 |
| CMDB | CM-001 | 設備資訊查詢 |
本次事件中的 AI 角色是 L1 通知(分析 + 建議,人工執行)。未來路線圖:
| 階段 | AI 在本事件中的行為 | 條件 |
|---|---|---|
| MVP (L1) | 分析 + 建議「檢查 PSU」→ 王工程手動修復 | 現在 |
| V1.5 (L2+) | 建議「執行 PSU 健康檢查 Workflow」→ 王工程點確認 | 準確率 >85% 連續 30 天 |
| V2.0 (L3) | 偵測到 disk full → 自動執行 log 清理(Runbook 範圍內) | 準確率 >90% 連續 60 天 |
| V2.5 (L3+) | 偵測到未知故障模式 → AI 自主判斷修復策略 | 長期目標 |