事件管理(Incident Management)
Arova Nexus — Phase 0 Product Definition | 2026-03-31

所屬模組: Incident Management(可選) Wireframe: 開啟互動原型 → 側邊欄「事件管理」

解決什麼問題

系統出事時,IT 人員要同時看監控、查 log、打電話通報、手動記錄。整個過程沒有統一的追蹤,事後也無法回溯「當時到底做了什麼」。MTTR 居高不下。

核心能力

自動建立事件

監控系統(Datadog、Prometheus、LibreNMS、Graylog 等)偵測到異常時,透過 Webhook 自動建立事件。不需要人工抄寫告警資訊。

嚴重度分級

四級分類,自動決定回應時間和升級規則:

等級 定義 回應時間
SEV1 核心服務完全中斷 15 分鐘
SEV2 部分功能異常 30 分鐘
SEV3 非核心服務異常 2 小時
SEV4 輕微異常 下一工作日

告警合併

5 分鐘內來源和類型相同的告警自動合併為同一個事件,避免告警風暴淹沒佇列。

自動升級

SEV1 超過 15 分鐘沒人確認?自動通知 IT 管理員和全團隊。升級規則可自訂。

AI 分析摘要

新事件建立後 30 秒內,AI 自動產出分析摘要:可能原因、影響範圍、相似歷史事件、建議嚴重度。

關聯管理

事件可以關聯相關的工單。事件解決時,可一鍵批次處理所有關聯工單。

使用者場景

凌晨 2:00,防火牆偵測到大量 Deny 流量,透過 Webhook 自動建立 SEV1 事件。 AI 在 30 秒內產出摘要:「來源 IP 集中於 10.20.30.0/24,疑似內部設備感染。建議排查該網段。」 值班人員小李的手機收到通知,打開 Nexus 確認事件。 在 AI Copilot 問:「這個網段有哪些設備?」AI 查 CMDB 回答。 找到感染設備,執行隔離。標記事件為「已解決」。 隔天寫事後回顧,存入知識庫。

版本規劃

版本 功能
v0.1 MVP 事件 CRUD + Webhook 接收 + AI 摘要 + 告警合併 + 自動升級
v0.2 工單關聯 + 批次處理
v0.3 AI Incident Correlation Agent(語意關聯)
v1.0 影響分析(CMDB 拓撲)+ 事後回顧存入知識庫