ADR-003: Hybrid LLM — 地端預設，外部可選 — Arova Nexus

系統架構

ADR-003: Hybrid LLM — 地端預設，外部可選

Arova Nexus — Phase 0 Product Definition ｜ 2026-03-31

狀態： 已採納（Accepted）
日期： 2026-03
決策者： Software Architect, Product

背景

Arova Nexus 的 L4 需要 LLM 來驅動：

AI Copilot 對話（使用者提問）
Agent 推理（Triage / Correlation / Preventive / Compliance）
摘要產生（事件、工單、每日簡報）
分類/優先級判斷

客戶群涵蓋金融業（要求資料不出內網）、製造業（資料敏感度中等）、一般企業（成本敏感）。不同客戶對準確度、成本、資料主權的權重不同，無法用單一 LLM 策略滿足。

決策

Hybrid LLM 策略 — 地端 LLM 為預設，外部 LLM 作為可選。

預設路徑：使用者安裝後直接用地端 LLM（Ollama + Qwen / Llama / Gemma 系列），不需要網路
可選路徑：客戶可以自備 API Key（OpenAI / Anthropic / Azure OpenAI），系統透過設定頁切換
策略由客戶決定，不強加：我們不內建對外 LLM key，客戶要用外部就自帶

理由

資料主權是金融業客戶的硬需求 — 不能把日誌 / 工單 / 告警內容送到外部 API，否則客戶無法採購
地端成本可預測 — 一次性 GPU 投資比按 token 付費對多數企業客戶更友善
外部 LLM 有時候仍有價值 — Opus / GPT-4 class 模型在複雜推理上仍領先；允許客戶選擇讓產品有彈性
Embedding 永遠在地端 — Embedding 模型輕量（BGE-M3、E5-large 都可 CPU 跑），不需要外部推論，省一半複雜度
開關在客戶手上，不在 Arova 手上 — 我們不負責客戶的 API 額度、隱私合約、token 成本，減少法務風險
對應 PRD Ch20 AI Strategy 明確規定

考慮過的替代方案

方案	優點	缺點
Hybrid：on-prem 預設 + external 可選（選）	滿足所有客戶類型，風險分散	需要同時維運兩種 adapter
純地端 LLM	資料最安全、成本最可預測	能力天花板低，遇到複雜任務（長上下文推理）客戶會抱怨準確度
純外部 LLM	開發最快、能力最強	金融業客戶直接刷掉；成本難預測
Arova 代理外部 API	客戶不需要自己管 key	法務風險巨大：我們成為資料處理者、需要跟 OpenAI 簽 BAA 等

影響

正面

客戶分層策略清晰：金融 = 地端；其他客戶可自選
Arova 不承擔資料出境的責任
Embedding 的 CPU-only 部署要求大幅降低客戶 GPU 投資門檻

負面 / 取捨

要維護兩套 Adapter：Ollama / vLLM + OpenAI 相容 API，測試矩陣變大
Prompt 相容性：同一個 Prompt 在地端 Qwen 和雲端 Claude 可能表現差很多，需要針對性調整或做 Prompt 版本管理
能力差異要明說：如果客戶選低階地端模型（如 7B），部分進階功能（長上下文摘要）可能退化。UX 要讓客戶意識到選型影響。

需要追蹤的風險

LLM 升級跟上：地端模型迭代（Qwen 3、Llama 4 等）要定期評估並提供推薦模型清單
Ollama 穩定度：生產環境發生過記憶體外洩、載入失敗等狀況，要評估是否需要 vLLM 作為備選後端
配額互搶：Agent 推論和使用者 Copilot 共用同一 LLM pool，需實作「Agent 在配額 80% 時降級」策略（PRD Ch20）

技術實作要點

LLM Service 在 @mastra/core 上抽象出 provider adapter 介面
設定頁（Settings > AI）讓 admin 選擇 LLM Provider
所有 Agent 定義不直接綁 LLM，而是透過 llm.generate() 抽象呼叫
配額監控：Redis 計數每分鐘 token 用量，超過 80% 時降級 Agent（跳過非必要推論）

相關

PRD v1.3 Ch20（AI Strategy）
docs/research/LLM_Model_Selection_Guide.md
docs/architecture/AI_Ops_Agent_Architecture.md 第五章（混合模型策略）

← 上一篇ADR-002: 用 pgvector 不另起 Qdrant / Milvus 下一篇 →Architecture Decision Records