旅程 20:製造業事件回應——初階工程師靠 AI 排障
Arova Nexus — Phase 0 Product Definition | 2026-03-31

角色: 王工程(初階 IT 工程師,入職 3 個月)+ AI Agent + 李維運(IT 主管,在外開會)
場景: 泰國廠產線核心交換機 Core-SW-01 電源模組故障,Graylog 偵測到大量 app timeout,LibreNMS 偵測到 8 個 port down。王工程第一次獨立面對 SEV1 事件
橫跨模組: Integration → Incident → AI Copilot → Knowledge → Analytics


背景

泰國廠 IT 團隊只有 5 人,其中資深工程師 2 人、初階工程師 3 人。王工程入職 3 個月,之前只處理過 SEV3/SEV4 的小事件。今天下午 2 點,資深工程師都在巡檢其他廠區,只有王工程值班。

產線核心交換機 Core-SW-01 是連接 ERP、MES、SCADA 閘道的關鍵設備,一旦故障整條產線的 IT 系統都會受影響。


旅程步驟

Stage 1:多源告警湧入 + AI 自動處理(0-60 秒)

Core-SW-01 電源模組 PSU-A 故障,瞬間產生大量告警。

多源告警 AI 處理流程
多源告警 AI 處理流程

使用者情緒: 🟢 43 筆告警 → 3 個事件,AI 在 25 秒內完成(以往需要 30 分鐘人工分類)

涉及模組: Integration(Webhook 接收)、Incident(IN-001, IN-009)、AI Native(AIN-011 Correlation, AIN-012 Triage)、Notification


Stage 2:初階工程師查看 AI 摘要(2 分鐘)

王工程手機收到 Slack 通知,打開 Arova 事件詳情頁。

SEV1 事件詳情卡片 — AI 摘要與建議行動
SEV1 事件詳情卡片 — AI 摘要與建議行動

王工程雖然入職 3 個月沒處理過 SEV1,但 AI 摘要告訴他:

王工程點「確認」接手事件。

使用者情緒: 🟢 第一次遇到 SEV1 有點緊張,但 AI 摘要像資深同事在旁邊指導

涉及模組: Incident(IN-005, IN-007)、AI Copilot(AIC-002, AIC-003)、Knowledge(KB-008)


Stage 3:AI Copilot 輔助排障(5 分鐘)

王工程到機房前,先用 AI Copilot 快速了解更多。

AI Copilot PSU 排障對話
AI Copilot PSU 排障對話

AI Copilot 做了資深工程師才會做的事:追問「為什麼冗餘沒生效」,幫王工程建立正確的排障思路。

使用者情緒: 🟢 AI 的追問比我自己想得更深入

涉及模組: AI Copilot(AIC-001, AIC-002)、CMDB(CM-001 資產資訊)、Knowledge(KB-018)


Stage 4:現場修復(10 分鐘)

王工程到機房檢查:

王工程按 SOP:

  1. 從備品箱取出 2 顆新 PSU
  2. 更換 PSU-A(主電源恢復)
  3. 更換 PSU-B(備援恢復)
  4. 交換機自動開機,port 逐一恢復

Stage 5:AI Copilot 查 Graylog 確認恢復(Phase 2 預覽)

交換機恢復後,王工程想確認上游服務是否都恢復正常。

AI Copilot Graylog 恢復確認對話
AI Copilot Graylog 恢復確認對話

標註: 這個 Stage 展示的是 Phase 2 Graylog 深度整合的能力。MVP 階段工程師需要自己到 Graylog 介面查 log,Phase 2 後可以直接在 Copilot 中用自然語言查詢。

使用者情緒: 🟢 不用切換到 Graylog 介面,直接在 Arova 確認所有服務恢復

涉及模組: AI Copilot(AIC-009 Graylog 查詢,Phase 2)、Integration(Graylog 深度整合)


Stage 6:Recovery + 結案(5 分鐘)

LibreNMS 發送 recovery alert,Arova 自動更新事件時間軸。

事件時間軸卡片
事件時間軸卡片

王工程點「批次解決」→ 系統彈出 preview dialog(IN-020),列出 INC-0501(根因)+ INC-0502/0503(衍生)三筆,預設全選,附 AI 信心度 96% / 94% / 92%。王工程確認都已恢復 → 點確認 → 一次關閉三筆。

若王工程發現其中某筆衍生事件其實是獨立問題(例如 INC-0503 的 SCADA 通訊失敗其實是另一起 cert 過期問題,與 Switch 故障無關),他可以在 dialog 中 uncheck 該筆,或事先透過 IN-019「解除衍生關係」將其獨立出去,避免被連帶錯誤關閉。

使用者情緒: 🟢 第一次獨立處理 SEV1,25 分鐘搞定!Preview dialog 讓他確信沒誤關

涉及模組: Incident(IN-016 結案、IN-020 批次 resolve preview、IN-019 根因覆寫)


Stage 7:PIR 自動產出 + ISO 報告(10 分鐘)

系統偵測到 SEV1 結案,建議產出 PIR。

事後檢討報告 (PIR) 卡片
事後檢討報告 (PIR) 卡片

PIR 由 AI 在 30 秒內自動草擬。王工程補充現場照片(PSU LED 狀態),李維運遠端在手機上簽核。

接著,李維運在「分析報表」頁面產出 ISO 27001 合規報告,此事件的完整稽核軌跡自動包含。

使用者情緒: 🟢 以前寫 PIR 要 2-3 天,現在 AI 30 秒就寫好了

涉及模組: Incident(PIR)、Analytics(ISO 27001 報告)


旅程成果

指標 以往(無 AI) 本次(AI 輔助) 改善
告警分類時間 30 分鐘(人工逐條看) 25 秒(AI 自動) 98%↓
根因定位 1-2 小時(問資深同事) 2 分鐘(AI 摘要) 97%↓
修復時間 1-2 小時(找 SOP + 試錯) 15 分鐘(按 AI 建議 + SOP) 85%↓
總 MTTR 2-4 小時 25 分鐘 90%↓
PIR 撰寫 2-3 天 30 秒(AI 草擬)+ 10 分鐘(人工補充) 99%↓
ISO 報告 3-5 天 10 分鐘(範本 + 自動填充) 99%↓
初階工程師能否獨立處理 SEV1 ❌ 需等資深 ✅ AI 引導下可獨立完成

涉及模組與 Story 對照

模組 Stories 說明
Integration INT-001 Graylog + LibreNMS Webhook 接收
Incident IN-001, IN-005, IN-006, IN-007, IN-009, IN-016 事件建立、AI 摘要、批次解決、結案、告警合併
AI Native AIN-011, AIN-012, AIN-024 Correlation Agent、Triage Agent、結案摘要
AI Copilot AIC-001, AIC-002, AIC-003, AIC-009 自然語言查詢、上下文感知、KB 搜尋、Graylog 查詢(Phase 2)
Knowledge KB-008, KB-018, KB-031, KB-045 語意搜尋、SOP 推薦
Analytics AN-009 ISO 27001 合規報告
Notification NT-002, NT-003 Email/Toast/Slack/Webhook 通知
CMDB CM-001 設備資訊查詢

Self-Healing 路線圖預覽

本次事件中的 AI 角色是 L1 通知(分析 + 建議,人工執行)。未來路線圖:

階段 AI 在本事件中的行為 條件
MVP (L1) 分析 + 建議「檢查 PSU」→ 王工程手動修復 現在
V1.5 (L2+) 建議「執行 PSU 健康檢查 Workflow」→ 王工程點確認 準確率 >85% 連續 30 天
V2.0 (L3) 偵測到 disk full → 自動執行 log 清理(Runbook 範圍內) 準確率 >90% 連續 60 天
V2.5 (L3+) 偵測到未知故障模式 → AI 自主判斷修復策略 長期目標