所屬模組: Incident Management(可選) Wireframe: 開啟互動原型 → 側邊欄「事件管理」
系統出事時,IT 人員要同時看監控、查 log、打電話通報、手動記錄。整個過程沒有統一的追蹤,事後也無法回溯「當時到底做了什麼」。MTTR 居高不下。
監控系統(Datadog、Prometheus、LibreNMS、Graylog 等)偵測到異常時,透過 Webhook 自動建立事件。不需要人工抄寫告警資訊。
四級分類,自動決定回應時間和升級規則:
| 等級 | 定義 | 回應時間 |
|---|---|---|
| SEV1 | 核心服務完全中斷 | 15 分鐘 |
| SEV2 | 部分功能異常 | 30 分鐘 |
| SEV3 | 非核心服務異常 | 2 小時 |
| SEV4 | 輕微異常 | 下一工作日 |
5 分鐘內來源和類型相同的告警自動合併為同一個事件,避免告警風暴淹沒佇列。
SEV1 超過 15 分鐘沒人確認?自動通知 IT 管理員和全團隊。升級規則可自訂。
新事件建立後 30 秒內,AI 自動產出分析摘要:可能原因、影響範圍、相似歷史事件、建議嚴重度。
事件可以關聯相關的工單。事件解決時,可一鍵批次處理所有關聯工單。
凌晨 2:00,防火牆偵測到大量 Deny 流量,透過 Webhook 自動建立 SEV1 事件。 AI 在 30 秒內產出摘要:「來源 IP 集中於 10.20.30.0/24,疑似內部設備感染。建議排查該網段。」 值班人員小李的手機收到通知,打開 Nexus 確認事件。 在 AI Copilot 問:「這個網段有哪些設備?」AI 查 CMDB 回答。 找到感染設備,執行隔離。標記事件為「已解決」。 隔天寫事後回顧,存入知識庫。
| 版本 | 功能 |
|---|---|
| v0.1 MVP | 事件 CRUD + Webhook 接收 + AI 摘要 + 告警合併 + 自動升級 |
| v0.2 | 工單關聯 + 批次處理 |
| v0.3 | AI Incident Correlation Agent(語意關聯) |
| v1.0 | 影響分析(CMDB 拓撲)+ 事後回顧存入知識庫 |