所屬模組: Integration(可選)
Wireframe: 開啟互動原型 → 側邊欄「設備監控」(設備即時健康)+ 側邊欄「設定 > 整合管理」tab(Connector 設定)
IT 團隊已經有監控工具、郵件系統、通訊軟體、AD。Nexus 不是要取代這些——而是要把它們串起來,讓資料在系統之間自動流動。
統一管理所有外部系統的連線設定。每個 Connector 顯示連線狀態、最後同步時間、錯誤日誌。
| 整合對象 | 用途 | 階段 |
|---|---|---|
| Active Directory / LDAP | 身份整合、密碼重置、帳號管理 | MVP |
| Email(SMTP) | 通知寄信、簽核通知 | MVP |
| Slack | 通知推播 | MVP |
| Line | 通知推播 | MVP |
| Datadog / PagerDuty / Prometheus | 監控告警接收 | MVP |
| Generic Webhook | 通用整合 | MVP |
| LibreNMS | 設備同步、效能指標、網路拓撲 | Phase 2 |
| Graylog | Log 搜尋、根因分析、報表資料源 | Phase 2 |
| Microsoft Teams | 通知推播 | Phase 2 |
| OIDC Provider | SSO 單一登入 | Phase 2 |
外部系統透過 REST API 與 Arova Nexus 整合時,使用 API Key 做身份驗證。管理員在「設定 > API Key」管理所有 Key。
API Key 欄位:
| 欄位 | 說明 |
|---|---|
| 名稱 | 用途識別(如「Monitoring-Webhook」「Report-API」) |
| 權限範圍 | 限定可存取的模組(Incident Management / Analytics / Service Desk 等,可多選) |
| 建立日期 | Key 建立時間 |
| 最後使用 | 最近一次 API 呼叫時間 |
| 狀態 | 啟用 / 停用 |
操作:
安全要求:
不同監控系統的告警格式不同。Nexus 預設支援 Datadog、PagerDuty、Prometheus 的格式自動對應,也可以自訂 Mapping 規則。
Dashboard 和設備監控頁面的健康狀態顏色由以下門檻決定:
| 指標 | 🟢 正常 | 🟡 警告(WARN) | 🔴 異常(CRITICAL) |
|---|---|---|---|
| CPU 使用率 | < 80% | ≥ 80% | ≥ 95% |
| Memory 使用率 | < 80% | ≥ 80% | ≥ 95% |
| Disk 使用率 | < 85% | ≥ 85% | ≥ 95% |
| Ping 狀態 | 回應 | — | 無回應(DOWN) |
門檻值為系統預設,管理員可在「設定 > 升級規則」中調整。
Sidebar「設備監控」頁面是整合管理的展示成果——Connector 在 Settings 設定,設備資料在此頁面即時呈現。
與 CMDB(資產管理)的差異:
| 設備監控 | CMDB(資產管理) | |
|---|---|---|
| 定位 | 值班工程師看即時健康狀態 | 管理員管理資產生命週期 |
| 資料來源 | LibreNMS(自動同步) | 手動建立 + CSV 匯入 + LibreNMS 同步 |
| 涵蓋範圍 | 僅 LibreNMS 管理的設備(實體/網路) | 所有 IT 資產(含應用程式、資料庫、服務等) |
| 顯示重點 | 即時 CPU/Memory/Disk/Ping 狀態 | 資產欄位、關聯、維護記錄 |
| 使用頻率 | 每天看(即時監控) | 偶爾操作(新增/編輯資產) |
兩頁的設備可交叉連結:設備監控中點設備名稱可跳轉到 CMDB 資產詳情頁。
同步頻率:
| 資料類型 | 同步頻率 | 說明 |
|---|---|---|
| 設備清冊 | 每小時 | LibreNMS 設備清單同步到 Arova(新增/移除設備) |
| 健康指標(CPU/Memory/Disk/Ping) | 每 5 分鐘 | LibreNMS SNMP 查詢結果更新 |
設備統計 KPI:
| 指標 | 計算方式 |
|---|---|
| 全部設備 | count(LibreNMS 管理的設備) — 注意:不等於 CMDB 資產總數(CMDB 包含應用程式/資料庫/服務等非 LibreNMS 設備) |
| [OK] 在線 | Ping 回應 + 所有指標在正常範圍 |
| [WARN] 警告 | Ping 回應,但 CPU ≥80% 或 Memory ≥80% 或 Disk ≥85% |
| [DOWN] 離線 | Ping 無回應 |
設備列表表格欄位:
| 欄位 | 來源 | 說明 |
|---|---|---|
| 狀態 | 由門檻規則計算 | OK / WARN / DOWN(badge 顏色) |
| 設備名稱 | LibreNMS hostname | 和 CMDB 資產名稱可能不同 |
| IP | LibreNMS | |
| 類型 | LibreNMS 設備類型 | Server / Network / iDRAC / ESXi / Other |
| OS | LibreNMS | 作業系統名稱 |
| CPU % | SNMP OID | 超過門檻粗體顯示 |
| Memory % | SNMP OID | 超過門檻粗體顯示 |
| Disk % | SNMP OID | 超過門檻粗體顯示。部分設備無此資料顯示「—」 |
| Uptime | SNMP sysUpTime | 從最後重開機至今的持續時間 |
粗體標示規則:值超過 WARN 門檻時粗體顯示(CPU/Memory ≥80%、Disk ≥85%)。
篩選 Tab:依 LibreNMS 設備類型分類。全部 = 各類型加總。點擊 tab 即時篩選表格。
排序:預設 WARN → DOWN → OK(異常優先),同狀態依名稱排序。
互動:
搜尋:wireframe 目前無搜尋框。建議 Phase 2 加入設備名稱/IP 搜尋。
設備清單同步到 CMDB、Dashboard 顯示即時 CPU/Memory/Port 流量、告警歷史整合到 Analytics、網路拓撲自動推斷。
使用者場景:
工程師在事件詳情頁看到 Core-SW-01 port down 告警,想知道更多設備狀態。
AI Copilot 自動從 LibreNMS 取得:CPU 使用率 0%(設備無回應)、8 個 port 全 down、最後正常時間 14:00:00。
工程師不需要切換到 LibreNMS 介面,在 Arova 內一站完成排障。同時,LibreNMS 的設備清單每小時自動同步到 CMDB,AI Correlation Agent 可以根據網路拓撲判斷「同一網段的告警是否相關」。
在事件詳情直接查原始 log、AI Copilot 用自然語言查 log、防火牆和 AD 統計作為報表資料源。
使用者場景:
事件 INC-0501 發生後,工程師想確認上游服務是否恢復。
在 AI Copilot 輸入:「給我 ERP 伺服器過去 30 分鐘的 error log」
AI 即時查詢 Graylog API,回覆:
「14:00-14:18 共 127 筆 Connection timeout,14:19 起 error 停止,✅ 已恢復」不需要切換到 Graylog 介面、不需要寫查詢語法,用自然語言就能查 log。
防火牆 Deny 統計和 AD 登入失敗統計也可以作為 Analytics 報表的資料源,讓合規報告涵蓋更多維度。
IT 管理員在整合管理頁面設定 LibreNMS 連線:
- 填入 API URL 和 Token,連線測試通過
- 設定每小時同步設備清單到 CMDB
- Dashboard 自動多出「設備健康」卡片,顯示 40 台設備狀態
- AI Copilot 現在可以回答「TH-DCVer1 的 CPU 多少?」
| 版本 | 功能 |
|---|---|
| v0.1 MVP | AD + SMTP + Slack + Line + Generic Webhook + 監控告警接收 |
| v0.2 | Connector 管理 UI + 健康狀態監控 |
| v0.3 | LibreNMS + Graylog 深度整合 |
| v1.0 | Teams + SSO + 自訂 Payload Mapping UI |