狀態: 已採納(Accepted)
日期: 2026-03
決策者: Software Architect, Product
背景
Arova Nexus 的 L4 需要 LLM 來驅動:
- AI Copilot 對話(使用者提問)
- Agent 推理(Triage / Correlation / Preventive / Compliance)
- 摘要產生(事件、工單、每日簡報)
- 分類/優先級判斷
客戶群涵蓋金融業(要求資料不出內網)、製造業(資料敏感度中等)、一般企業(成本敏感)。不同客戶對準確度、成本、資料主權的權重不同,無法用單一 LLM 策略滿足。
決策
Hybrid LLM 策略 — 地端 LLM 為預設,外部 LLM 作為可選。
- 預設路徑:使用者安裝後直接用地端 LLM(Ollama + Qwen / Llama / Gemma 系列),不需要網路
- 可選路徑:客戶可以自備 API Key(OpenAI / Anthropic / Azure OpenAI),系統透過設定頁切換
- 策略由客戶決定,不強加:我們不內建對外 LLM key,客戶要用外部就自帶
理由
- 資料主權是金融業客戶的硬需求 — 不能把日誌 / 工單 / 告警內容送到外部 API,否則客戶無法採購
- 地端成本可預測 — 一次性 GPU 投資比按 token 付費對多數企業客戶更友善
- 外部 LLM 有時候仍有價值 — Opus / GPT-4 class 模型在複雜推理上仍領先;允許客戶選擇讓產品有彈性
- Embedding 永遠在地端 — Embedding 模型輕量(BGE-M3、E5-large 都可 CPU 跑),不需要外部推論,省一半複雜度
- 開關在客戶手上,不在 Arova 手上 — 我們不負責客戶的 API 額度、隱私合約、token 成本,減少法務風險
- 對應 PRD Ch20 AI Strategy 明確規定
考慮過的替代方案
| 方案 |
優點 |
缺點 |
| Hybrid:on-prem 預設 + external 可選(選) |
滿足所有客戶類型,風險分散 |
需要同時維運兩種 adapter |
| 純地端 LLM |
資料最安全、成本最可預測 |
能力天花板低,遇到複雜任務(長上下文推理)客戶會抱怨準確度 |
| 純外部 LLM |
開發最快、能力最強 |
金融業客戶直接刷掉;成本難預測 |
| Arova 代理外部 API |
客戶不需要自己管 key |
法務風險巨大:我們成為資料處理者、需要跟 OpenAI 簽 BAA 等 |
影響
正面
- 客戶分層策略清晰:金融 = 地端;其他客戶可自選
- Arova 不承擔資料出境的責任
- Embedding 的 CPU-only 部署要求大幅降低客戶 GPU 投資門檻
負面 / 取捨
- 要維護兩套 Adapter:Ollama / vLLM + OpenAI 相容 API,測試矩陣變大
- Prompt 相容性:同一個 Prompt 在地端 Qwen 和雲端 Claude 可能表現差很多,需要針對性調整或做 Prompt 版本管理
- 能力差異要明說:如果客戶選低階地端模型(如 7B),部分進階功能(長上下文摘要)可能退化。UX 要讓客戶意識到選型影響。
需要追蹤的風險
- LLM 升級跟上:地端模型迭代(Qwen 3、Llama 4 等)要定期評估並提供推薦模型清單
- Ollama 穩定度:生產環境發生過記憶體外洩、載入失敗等狀況,要評估是否需要 vLLM 作為備選後端
- 配額互搶:Agent 推論和使用者 Copilot 共用同一 LLM pool,需實作「Agent 在配額 80% 時降級」策略(PRD Ch20)
技術實作要點
- LLM Service 在
@mastra/core 上抽象出 provider adapter 介面
- 設定頁(Settings > AI)讓 admin 選擇 LLM Provider
- 所有 Agent 定義不直接綁 LLM,而是透過
llm.generate() 抽象呼叫
- 配額監控:Redis 計數每分鐘 token 用量,超過 80% 時降級 Agent(跳過非必要推論)
相關
- PRD v1.3 Ch20(AI Strategy)
docs/research/LLM_Model_Selection_Guide.md
docs/architecture/AI_Ops_Agent_Architecture.md 第五章(混合模型策略)