AI Agent 監控與管理

產品指南

AI Agent 監控與管理

Arova Nexus — Phase 0 Product Definition ｜ 2026-03-31

所屬模組： Nexus Core（必備）
Wireframe： 開啟互動原型 → 側邊欄「設定」→「AI Agent 管理」

解決什麼問題

AI 自動化帶來效率，但主管需要掌控「AI 到底做了什麼、做得好不好、該給它多大權限」。沒有透明的績效數據和漸進式的權限管理，主管無法放心讓 AI 自動執行。

核心能力

Agent 清單與狀態

一覽所有 AI Agent 的運作狀態：

Agent	職責	狀態指標
Correlation Agent	跨來源告警語意關聯與合併	關聯準確率、誤判率
Triage Agent	工單/事件自動分類、嚴重度建議（SEV1~SEV4）、智慧指派	分類準確率、嚴重度準確率
Preventive Agent	反覆問題模式偵測、根因分析、預防建議	偵測率、建議採納率
Compliance Agent	法規差異比對、IT 請求合規檢查、規則自動提取（Phase 2）	合規檢查攔截率、誤攔截率、法規差異偵測率

績效儀表板

權限：IT Manager 和 Admin 角色可管理 AI Agent（查看績效 + 調整信任等級 + 修改設定）。IT Staff 可查看績效但不可修改。其他角色看不到此功能。RBAC1 角色定義見使用者管理。

每個 Agent 的績效指標即時呈現，支援時間區間篩選（24h / 7d / 30d）：

準確率：分類、關聯、優先級的準確率趨勢圖（計算公式定義見分析報表）
動作數：每個 Agent 過去一段時間的動作次數
信心度分布：信心度的分布直方圖，了解 AI 的確定程度
最近動作時間軸：每個 Agent 最近的決策紀錄，可展開看推理過程

信任等級管理（L0-L2）

AI Agent 的自動化程度由信任等級控制，主管可漸進調整：

等級	行為	適用時機
L0 觀察	記錄分析結果，不行動、不通知	剛部署、評估期、試用授權
L1 通知	偵測後通知操作人員，附建議行動	初期信任建立
L2 輔助	高信心度自動執行，低信心度建議人工處理	準確率穩定達標後

L2 的核心設計是依信心度分流——不是全部自動，而是 AI 有把握的自動做、沒把握的提建議等人確認。信心度門檻由管理員在 Agent 設定中調整。

升級建議由系統根據準確率自動產生。例如「Triage Agent 分類準確率連續 30 天 > 85%，建議從 L1 升級到 L2」。主管確認後生效。

Agent 設定

每個 Agent 可獨立設定，設定面板分為共用區域和 Agent 專屬參數：

共用設定（所有 Agent）：

信任等級切換（L0 / L1 / L2）
啟用 / 停用

Agent 專屬參數：

Agent	專屬參數
Triage Agent	信心度門檻（自動執行最低信心度、需人工 review 的信心度）、作用範圍（所有新事件 / 僅特定類別）。嚴重度判定必須在推理鏈中引用「使用者影響 / 業務影響」客觀判準（見事件管理嚴重度分級），判準無法對應時信心度 < 0.6 並送人工審核。Pattern-level 信心度降級（IN-031）：某 host / service / symptom 組合在 7 天內被誤報關閉 ≥ 3 次 → 該 pattern 的信心度 -0.2（下限 0.3），通知 IT Manager 檢查規則；連續 14 天無誤報則自動恢復
Correlation Agent	關聯時間窗口（比對近 N 小時內的警報）、自動合併信心度門檻（預設 0.85）、月度準確率趨勢（引用 AIN-022）、Recovery 參數：各來源 weight（預設相等）、LibreNMS hysteresis（預設 3 分鐘）、Graylog 靜默時間窗（預設 10 分鐘，可調 5-30 分鐘）、倒數自動 Resolve 時長（預設 10 分鐘，可調 5-30 分鐘）、嚴重度啟用白名單（預設 SEV2~4）、Auto-reopen 觀察期（SEV1 60min、SEV2 30min、SEV3/4 15min）。Recovery 判定與倒數結案不獨立成新 Agent，視為 Correlation Agent 的延伸能力避免 Agent 數量膨脹
Preventive Agent	（無額外參數）
Compliance Agent	精確規則攔截動作（block/warn）、作用範圍（Service Desk 工單 / 全部請求類型）

所有設定變更即時生效，並寫入稽核日誌。

隱式回饋追蹤

系統自動追蹤使用者修改 AI 建議的行為（例如改了 AI 建議的優先級），記錄「原始建議 vs 實際值」。彙整修正模式，持續改善 AI 準確率。不需要使用者額外操作。

回饋訊號分類（每個 Agent 共用定義）：

訊號類型	觸發條件（Correlation Agent 範例）
negative	工程師執行事件拆分（IN-018）、解除衍生關係 / 變更根因 / 設為根因（IN-019）、變更 AI 建議的嚴重度 / 分類 / 指派人
positive	Resolve 未曾被拆分或覆寫的 AI 合併事件、採納 AI 建議後 Resolve

每筆訊號記錄：原合併 / 建議 ID、信心度、推理鏈、操作人、操作時間（AIN-021 AC⑤）。AIN-025 月度重算信心度門檻時引用上月 positive / negative 比例；負向回饋率超過閾值時建議調升對應 Agent 的自動執行信心度門檻，並通知管理員審核。

使用者場景

IT 主管陳志豪每月初打開 AI Agent 管理頁面：

Triage Agent 分類準確率 88%（目標 85% ✅），系統建議升級到 L2

Correlation Agent 關聯準確率 82%（目標 80% ✅），但建議再觀察 1 個月

陳志豪和資安主管討論後，同意 Triage 升級到 L2（自動執行分類）

下個月起，新工單自動分類不再需要人工確認

版本規劃

版本	功能
v0.1 MVP	Agent 清單 + 基礎績效指標 + L0 觀察 / L1 通知
v0.2	L2 輔助（信心度分流）+ 升級建議 + 隱式回饋追蹤
v0.3	信心度分布圖 + 動作時間軸 + 準確率趨勢圖
v1.5	L2+ 輔助修復：AI 建議修復動作 + Automation Workflow 整合，需人工審核確認才執行
v2.0	L3 已知修復：管理員預設核准的 Runbook 範圍內，AI 自動執行已知故障修復
v2.5	L3+ 自主修復：AI 自主判斷修復策略，含未見過的故障模式（長期目標）

Self-Healing 漸進式放權

AI 修復能力採漸進式放權原則——每個階段都需準確率連續達標，管理員隨時可降級。

階段	AI 行為	範例	升級條件
L2 輔助（MVP）	分析 + 建議行動，人工執行	「建議檢查 PSU 電源模組」→ 工程師手動	—
L2+ 輔助修復（V1.5）	建議修復動作 + 一鍵執行 Workflow，需人工確認	「建議執行 log 清理 Workflow，是否執行？」→ 人工點確認	建議準確率 >85% 連續 30 天
L3 已知修復（V2.0）	Runbook 範圍內自動修復，無需人工確認	disk full → 自動清理 30 天前 log；service down → 自動重啟（最多 2 次）	修復準確率 >90% 連續 60 天
L3+ 自主修復（V2.5）	AI 自主判斷修復策略，含未知故障模式	AI 分析 log 推斷根因，自動組合修復步驟	準確率 >99% + 大量歷史數據

L3 Runbook 範例（管理員預設核准）：

✅ disk full → 自動清理 30 天前 log
✅ service down → 自動重啟（最多 2 次）
✅ certificate expired → 自動續約
❌ database corruption → 需人工（風險太高）
❌ hardware failure → 需人工（無法遠端修復）

管理員在 Agent 設定中定義核准範圍，超出範圍的自動回退到 L2+（建議 + 人工確認）。

← 上一篇授權系統（Licensing System）下一篇 →合規智能（Compliance Intelligence）