AI Agent 監控與管理
Arova Nexus — Phase 0 Product Definition | 2026-03-31

所屬模組: Nexus Core(必備)
Wireframe: 開啟互動原型 → 側邊欄「設定」→「AI Agent 管理」

解決什麼問題

AI 自動化帶來效率,但主管需要掌控「AI 到底做了什麼、做得好不好、該給它多大權限」。沒有透明的績效數據和漸進式的權限管理,主管無法放心讓 AI 自動執行。

核心能力

Agent 清單與狀態

一覽所有 AI Agent 的運作狀態:

Agent 職責 狀態指標
Correlation Agent 跨來源告警語意關聯與合併 關聯準確率、誤判率
Triage Agent 工單/事件自動分類、嚴重度建議(SEV1~SEV4)、智慧指派 分類準確率、嚴重度準確率
Preventive Agent 反覆問題模式偵測、根因分析、預防建議 偵測率、建議採納率
Compliance Agent 法規差異比對、IT 請求合規檢查、規則自動提取(Phase 2) 合規檢查攔截率、誤攔截率、法規差異偵測率

績效儀表板

權限:IT Manager 和 Admin 角色可管理 AI Agent(查看績效 + 調整信任等級 + 修改設定)。IT Staff 可查看績效但不可修改。其他角色看不到此功能。RBAC1 角色定義見 使用者管理

每個 Agent 的績效指標即時呈現,支援時間區間篩選(24h / 7d / 30d):

信任等級管理(L0-L2)

AI Agent 的自動化程度由信任等級控制,主管可漸進調整:

等級 行為 適用時機
L0 觀察 記錄分析結果,不行動、不通知 剛部署、評估期、試用授權
L1 通知 偵測後通知操作人員,附建議行動 初期信任建立
L2 輔助 高信心度自動執行,低信心度建議人工處理 準確率穩定達標後

L2 的核心設計是依信心度分流——不是全部自動,而是 AI 有把握的自動做、沒把握的提建議等人確認。信心度門檻由管理員在 Agent 設定中調整。

升級建議由系統根據準確率自動產生。例如「Triage Agent 分類準確率連續 30 天 > 85%,建議從 L1 升級到 L2」。主管確認後生效。

Agent 設定

每個 Agent 可獨立設定,設定面板分為共用區域和 Agent 專屬參數:

共用設定(所有 Agent):

Agent 專屬參數:

Agent 專屬參數
Triage Agent 信心度門檻(自動執行最低信心度、需人工 review 的信心度)、作用範圍(所有新事件 / 僅特定類別)。嚴重度判定必須在推理鏈中引用「使用者影響 / 業務影響」客觀判準(見 事件管理 嚴重度分級),判準無法對應時信心度 < 0.6 並送人工審核。Pattern-level 信心度降級(IN-031):某 host / service / symptom 組合在 7 天內被誤報關閉 ≥ 3 次 → 該 pattern 的信心度 -0.2(下限 0.3),通知 IT Manager 檢查規則;連續 14 天無誤報則自動恢復
Correlation Agent 關聯時間窗口(比對近 N 小時內的警報)、自動合併信心度門檻(預設 0.85)、月度準確率趨勢(引用 AIN-022)、Recovery 參數:各來源 weight(預設相等)、LibreNMS hysteresis(預設 3 分鐘)、Graylog 靜默時間窗(預設 10 分鐘,可調 5-30 分鐘)、倒數自動 Resolve 時長(預設 10 分鐘,可調 5-30 分鐘)、嚴重度啟用白名單(預設 SEV2~4)、Auto-reopen 觀察期(SEV1 60min、SEV2 30min、SEV3/4 15min)。Recovery 判定與倒數結案不獨立成新 Agent,視為 Correlation Agent 的延伸能力避免 Agent 數量膨脹
Preventive Agent (無額外參數)
Compliance Agent 精確規則攔截動作(block/warn)、作用範圍(Service Desk 工單 / 全部請求類型)

所有設定變更即時生效,並寫入稽核日誌。

隱式回饋追蹤

系統自動追蹤使用者修改 AI 建議的行為(例如改了 AI 建議的優先級),記錄「原始建議 vs 實際值」。彙整修正模式,持續改善 AI 準確率。不需要使用者額外操作。

回饋訊號分類(每個 Agent 共用定義):

訊號類型 觸發條件(Correlation Agent 範例)
negative 工程師執行事件拆分(IN-018)、解除衍生關係 / 變更根因 / 設為根因(IN-019)、變更 AI 建議的嚴重度 / 分類 / 指派人
positive Resolve 未曾被拆分或覆寫的 AI 合併事件、採納 AI 建議後 Resolve

每筆訊號記錄:原合併 / 建議 ID、信心度、推理鏈、操作人、操作時間(AIN-021 AC⑤)。AIN-025 月度重算信心度門檻時引用上月 positive / negative 比例;負向回饋率超過閾值時建議調升對應 Agent 的自動執行信心度門檻,並通知管理員審核。

使用者場景

IT 主管陳志豪每月初打開 AI Agent 管理頁面:

  • Triage Agent 分類準確率 88%(目標 85% ✅),系統建議升級到 L2
  • Correlation Agent 關聯準確率 82%(目標 80% ✅),但建議再觀察 1 個月
  • 陳志豪和資安主管討論後,同意 Triage 升級到 L2(自動執行分類)
  • 下個月起,新工單自動分類不再需要人工確認

版本規劃

版本 功能
v0.1 MVP Agent 清單 + 基礎績效指標 + L0 觀察 / L1 通知
v0.2 L2 輔助(信心度分流)+ 升級建議 + 隱式回饋追蹤
v0.3 信心度分布圖 + 動作時間軸 + 準確率趨勢圖
v1.5 L2+ 輔助修復:AI 建議修復動作 + Automation Workflow 整合,需人工審核確認才執行
v2.0 L3 已知修復:管理員預設核准的 Runbook 範圍內,AI 自動執行已知故障修復
v2.5 L3+ 自主修復:AI 自主判斷修復策略,含未見過的故障模式(長期目標)

Self-Healing 漸進式放權

AI 修復能力採漸進式放權原則——每個階段都需準確率連續達標,管理員隨時可降級。

階段 AI 行為 範例 升級條件
L2 輔助(MVP) 分析 + 建議行動,人工執行 「建議檢查 PSU 電源模組」→ 工程師手動
L2+ 輔助修復(V1.5) 建議修復動作 + 一鍵執行 Workflow,需人工確認 「建議執行 log 清理 Workflow,是否執行?」→ 人工點確認 建議準確率 >85% 連續 30 天
L3 已知修復(V2.0) Runbook 範圍內自動修復,無需人工確認 disk full → 自動清理 30 天前 log;service down → 自動重啟(最多 2 次) 修復準確率 >90% 連續 60 天
L3+ 自主修復(V2.5) AI 自主判斷修復策略,含未知故障模式 AI 分析 log 推斷根因,自動組合修復步驟 準確率 >99% + 大量歷史數據

L3 Runbook 範例(管理員預設核准):

管理員在 Agent 設定中定義核准範圍,超出範圍的自動回退到 L2+(建議 + 人工確認)。