






















推理服務兼容
vLLM, SGLang, NVIDIA Dynamo, LMDeploy

KVCache 框架適配
Mooncake, HiCache, LMCache

接口支持
POSIX, usrbio

硬件支持
廣泛適配 NVIDIA 及國產 GPU 算力卡(華為 Ascend、寒武紀等)

場景
代碼生成、復雜任務規劃。
價值
持久化存儲多輪對話的歷史狀態,無需重復計算,降低端到端延遲。

場景
法律合同審查、財報分析、書籍問答。
價值
低成本承載 128K~1M+ 超長上下文,避免顯存溢出 (OOM)。

場景
云廠商 API 服務。
價值
在有限的 GPU 顯存中并發服務更多用戶,提升 ROI。
