FIM One 是提供商无关的 — 任何兼容 OpenAI 的端点都可以工作。本页面帮助您为您的用例选择最佳的模型组合。有关配置详情,请参阅环境变量。
FIM One 如何使用模型
FIM One 有两个模型槽位:
| 槽位 | 环境变量 | 用途 |
|---|
| 主 LLM | LLM_MODEL | 规划、分析、ReAct 智能体、复杂推理 |
| 快速 LLM | FAST_LLM_MODEL | DAG 步骤执行、上下文压缩(成本更低、速度更快) |
如果未设置 FAST_LLM_MODEL,将回退到 LLM_MODEL。对于生产部署,分离为两个模型可以获得最佳的成本/质量平衡。
快速选择矩阵
| 提供商 | 主要 LLM | 快速 LLM | 推理 | 备注 |
|---|
| OpenAI | gpt-5.4 / o3 | gpt-5-mini / gpt-5-nano | ✅ reasoning_effort | 最佳原生工具调用;GPT-5.4 是最新旗舰版 |
| Anthropic | claude-sonnet-4-6 | claude-haiku-4-5 | ✅ 通过 LiteLLM | 原生 API 路由;完整 reasoning_content 支持 |
| Google Gemini | gemini-2.5-pro / gemini-3.1-pro-preview | gemini-2.5-flash / gemini-3-flash-preview | ✅ reasoning_effort | 2.5 是稳定 GA;3.x 是预览版 |
| DeepSeek | deepseek-chat (V3.2) | deepseek-chat | ✅ deepseek-reasoner | 最佳成本/性能比;V4 即将推出 |
| Qwen (阿里巴巴) | qwen3.5-plus / qwen3-max | qwen-turbo | ✅ qwen3-max-thinking | 最强中文语言支持 |
| ChatGLM (智谱) | glm-5 | glm-4-flash | ❌ | GLM-5 是 744B MoE;glm-4-flash 免费层 |
| MiniMax | MiniMax-M2.5 | MiniMax-M2.5-Lightning | ❌ | 开源权重,强大编码能力(80.2% SWE-Bench) |
| Kimi (月之暗面) | kimi-k2.5 | kimi-k2.5 | ❌ | 256K 上下文,强大编码能力 |
| Ollama (本地) | qwen3.5 / llama4 | qwen3.5:9b | ❌ | 完全离线,无需 API 密钥 |
提供商详情
OpenAI
最经过实战检验的选项。OpenAI 模型具有最好的原生函数调用(工具调用)支持,这直接影响智能体的可靠性。GPT-5 系列(2025 年 8 月以后)相比 GPT-4 是一个重大的代际飞跃。
推荐模型:
- 主要:
gpt-5.4(最新旗舰版,2026 年 3 月 — 内置计算机使用)或 o3(最佳推理精度)
- 快速:
gpt-5-mini(0.25/2.00 每 MTok)或 gpt-5-nano(最便宜,0.05/0.40 每 MTok)
- 遗留版本:
gpt-4.1(仍在 API 中,100 万上下文,适合编码)— 2026 年 2 月从 ChatGPT 中停用
推理: 设置 LLM_REASONING_EFFORT=medium — 与 o 系列和 GPT-5.x 模型原生兼容。o 系列需要 max_completion_tokens 而不是 max_tokens,LiteLLM 会自动处理。注意:GPT-5.x 在 /v1/chat/completions 中不支持 reasoning_effort 与工具调用的组合 — FIM One 在智能体工具使用步骤中会静默删除它,以便工作流不中断运行。GPT-5.x 也仅支持 temperature=1 — FIM One 通过 LiteLLM 的参数过滤(drop_params)自动处理。
| 模型 | 输入 $/MTok | 输出 $/MTok | 上下文 |
|---|
gpt-5.4 | $2.50 | $15.00 | 272K |
o3 | $2.00 | $8.00 | 200K |
o4-mini | $1.10 | $4.40 | 200K |
gpt-5-mini | $0.25 | $2.00 | — |
gpt-5-nano | $0.05 | $0.40 | — |
# .env — OpenAI(带推理的生产环境)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI(预算推理)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5-nano
LLM_REASONING_EFFORT=medium
Anthropic (Claude)
Claude 在细致推理和复杂多步骤任务方面表现出色。FIM One 通过 LiteLLM 连接,自动通过其原生 API 路由 Anthropic 模型。当前版本是 Claude 4.6(2026 年 2 月)。
推荐模型:
- 主要:
claude-sonnet-4-6(能力和成本的最佳平衡 — 3/15 per MTok)
- 快速:
claude-haiku-4-5(快速且便宜 — 1/5 per MTok)
- 高级:
claude-opus-4-6(能力最强,128K 最大输出 — 5/25 per MTok)
基础 URL: https://api.anthropic.com/v1/
所有当前 Claude 模型都支持扩展思考,具有 200K 上下文窗口(测试版中为 1M)。
推理: 设置 LLM_REASONING_EFFORT=medium — LiteLLM 通过原生 API 路由 Anthropic 模型,因此 reasoning_content(扩展思考)完全返回并在 UI”思考”步骤中可见。启用扩展思考时,Anthropic 要求 temperature=1 — 在你的 .env 或模型配置中设置 LLM_TEMPERATURE=1。详见扩展思考。
.env — Anthropic Claude
LLM_API_KEY=sk-ant-…
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium
---
### Google Gemini
Gemini 模型通过 Google 的 OpenAI 兼容端点提供强大的性能和有竞争力的定价。3.x 代(2025 年末及以后)是一个重大飞跃 — Gemini 3 Flash 的性能超越 2.5 Pro,同时速度快 3 倍。
**推荐模型:**
- 稳定版 (GA):`gemini-2.5-pro`(主要)+ `gemini-2.5-flash`(快速)— 生产就绪
- 最新版 (Preview):`gemini-3.1-pro-preview`(主要)+ `gemini-3-flash-preview`(快速)— 最佳性能,但为预览状态
**基础 URL:** `https://generativelanguage.googleapis.com/v1beta/openai/`
**推理:** 兼容性端点支持 `reasoning_effort` — 设置 `LLM_REASONING_EFFORT=medium`,开箱即用。
| 模型 | 输入 $/MTok | 输出 $/MTok | 状态 |
|---|---|---|---|
| `gemini-3.1-pro-preview` | $2.00 | $12.00 | Preview |
| `gemini-3-flash-preview` | $0.50 | $3.00 | Preview |
| `gemini-2.5-pro` | $1.25 | $10.00 | 稳定 GA |
| `gemini-2.5-flash` | $0.30 | $2.50 | 稳定 GA |
| `gemini-2.5-flash-lite` | $0.10 | $0.40 | 稳定 GA |
```bash
.env — Gemini (stable)
LLM_API_KEY=AIza…
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
```bash
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium
DeepSeek
DeepSeek 提供市场上最佳的成本/性能比。V3.2(2025年12月)将聊天和推理系列统一为单一模型,定价极低。
模型 ID(均由 V3.2 支持):
deepseek-chat — 通用目的(非思考模式)
deepseek-reasoner — 链式思考推理模式,返回 reasoning_content
基础 URL: https://api.deepseek.com
定价: 0.28/0.42 每百万 Token(缓存命中:$0.028)— 迄今为止最便宜的前沿级 API。
V4 即将推出(2026年3月):万亿参数多模态模型,支持 100 万 Token 上下文窗口。发布时预期会有新的模型 ID。
# .env — DeepSeek(经济实惠)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek(带推理)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat
中文国内模型
所有主要的中文模型提供商都提供与 OpenAI 兼容的端点。这些模型特别擅长处理中文任务,并提供具有竞争力的本地定价。
Qwen / 通义千问 (Alibaba Cloud)
Qwen 3.5(2026年2月)是最新一代——397B MoE旗舰版在MMLU-Pro上的表现超越GPT-5.2。
- Base URL:
https://dashscope.aliyuncs.com/compatible-mode/v1
- International:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- Main:
qwen3.5-plus(旗舰版,1M上下文)或 qwen3-max(万亿参数)
- Fast:
qwen-turbo(快速且便宜)
- Reasoning:
qwen3-max-thinking(与GPT-5.2-Thinking相当)
# .env — Qwen
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen-turbo
ChatGLM / 智谱
GLM-5 (2026) 是最新的旗舰模型 — 总参数 744B(40B 活跃),在编码/智能体任务上接近 Claude Opus 级别。
- Base URL:
https://open.bigmodel.cn/api/paas/v4
- Main:
glm-5 (旗舰)
- Fast:
glm-4-flash (免费层可用!)
某些 HTTP 客户端会自动在 base URL 后追加 /v1。智谱使用 /v4 — 确保你的客户端不会强制使用 OpenAI 风格的路径后缀,否则会出现 404 错误。
# .env — ChatGLM
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-5
FAST_LLM_MODEL=glm-4-flash
MiniMax
MiniMax M2.5(2026年2月)是开源权重模型,在SWE-Bench上得分为80.2%。
- Base URL(中国):
https://api.minimaxi.com/v1
- Base URL(全球):
https://api.minimax.io
- 主模型:
MiniMax-M2.5
- 快速模型:
MiniMax-M2.5-Lightning
# .env — MiniMax
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.5
FAST_LLM_MODEL=MiniMax-M2.5-Lightning
Kimi / 月之暗面 (Moonshot)
Kimi K2.5(2026年1月)拥有256K上下文,编码性能强劲(在开源模型中SWE-Bench达到76.8%)。
- Base URL:
https://api.moonshot.ai/v1
- Model:
kimi-k2.5
.env — Kimi
LLM_API_KEY=…
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2.5
---
### 本地模型 (Ollama)
在您自己的硬件上完全运行模型 — 无需 API 密钥,完全离线。Ollama 开箱即用地暴露一个 OpenAI 兼容的端点。开源生态系统已经发生了巨大变化 — Qwen 3.5、Llama 4 和 GPT-OSS(OpenAI 的首批开放权重模型)都已可用。
**基础 URL:** `http://localhost:11434/v1`
**按 VRAM 推荐的模型:**
| VRAM | 主 LLM | 快速 LLM | 备注 |
|---|---|---|---|
| 8 GB | `qwen3.5:9b` / `gemma3:4b` | `qwen3.5:4b` | Qwen 3.5 9B 是该级别的佼佼者 |
| 16 GB | `gpt-oss:20b` / `deepseek-r1:14b` | `qwen3.5:9b` | GPT-OSS 20B 针对智能体进行了优化 |
| 24 GB | `qwen3:32b` / `deepseek-r1:32b` | `qwen3.5:9b` | Qwen 3 32B 最适合工具调用 |
| 48 GB+ | `llama3.3:70b` / `gpt-oss:120b` | `qwen3.5:14b` | 接近前沿质量 |
**最适合工具调用:** Qwen 3/3.5 (32B+)、GLM-4.7、GPT-OSS、Mistral — 这些模型具有明确的函数调用训练。14B+ 参数的模型是可靠工具调用的最低要求;强烈推荐 32B+ 及以上。
<Warning>
**工具调用质量在本地模型中差异很大。** 并非所有模型都能可靠地生成有效的函数调用。在生产环境中使用之前,请使用智能体工作流测试您选择的模型。一般规则:14B 最低要求,32B+ 推荐用于智能体任务。
</Warning>
```bash
# .env — Ollama(平衡配置,16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama(智能体优化,24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
第三方中继平台
许多用户通过单个中继(代理)服务访问多个模型提供商。FIM One 根据 URL 路径模式自动检测正确的 API 协议 — 只需填入 LLM_BASE_URL 即可工作。
工作原理
当您的基础 URL 指向第三方中继时,FIM One 会检查 URL 路径以确定使用哪个协议:
| URL 路径包含 | 检测到的协议 | 认证头 | 主要优势 |
|---|
/v1(或无匹配) | OpenAI 兼容 | Authorization: Bearer | 通用回退,适用于大多数中继 |
/claude 或 /anthropic | Anthropic 原生 | x-api-key | 完整 reasoning_content(扩展思维)支持 |
/gemini | Google 原生 | x-goog-api-key | 原生 Gemini 参数转换 |
解析顺序: 显式数据库提供商字段 > 域名匹配(官方 API)> URL 路径提示(中继平台)> OpenAI 兼容回退。
示例:一个中继,三个协议
使用单个中继账户,您可以通过简单地更改基础 URL 路径来访问不同的提供商:
.env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
```bash
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — 通过中继的 GPT(OpenAI 兼容协议)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
无需额外配置 — 身份验证标头、参数格式和响应解析都会自动切换。
分步指南:路径检测的工作原理
以下是一个具体示例,展示了配置中继时内部发生的情况:
.env — 通过中继平台使用 Claude
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
1. FIM One 在 URL 路径中看到 `/claude` → 检测到 **Anthropic 原生**协议
2. 模型被前缀化为 `anthropic/claude-sonnet-4-6` 用于 LiteLLM 路由
3. 请求使用 Anthropic 的 `/v1/messages` 格式和 `x-api-key` 认证头
4. `reasoning_effort=medium` 被转换为 Anthropic 的原生 `thinking` 参数(不是 OpenAI 的 `reasoning_effort`)
<Warning>
如果相同的中继 URL 改为 `https://my-relay.example.com/v1`,则会缺少 `/claude` 提示 — FIM One 将回退到 OpenAI 兼容协议,向 Claude 原生端点发送 `/v1/chat/completions` 请求,这会失败。**URL 路径很重要。**
</Warning>
### 为什么这很重要
- **Anthropic 原生端点**为您提供适当的 `reasoning_content` 支持(扩展思考在 UI 中可见)、正确的工具调用格式和 `x-api-key` 身份验证 — 使用 OpenAI 兼容转换时会丢失这些功能。
- **Google 原生端点**为您提供原生 Gemini 参数和 `x-goog-api-key` 身份验证。
- **OpenAI 兼容**是通用后备方案,适用于任何中继,但提供商特定功能(如扩展思考输出)可能不可用。
<Note>
如果您的中继平台使用非标准路径约定(例如,URL 中没有 `/claude` 或 `/anthropic`),FIM One 会回退到 OpenAI 兼容协议 — 这适用于大多数用例。为了获得完整的原生协议支持,您可以通过管理员模型配置 UI 显式设置 `provider` 字段。
</Note>
---
## 配置策略
### Main vs Fast: 何时拆分
- **拆分** 当你的主模型昂贵或缓慢时(例如,`gpt-5.4` + `gpt-5-nano`)。DAG 模式运行许多并行步骤 — 使用更便宜的快速模型可以节省大量成本。
- **相同模型** 当你的模型已经很便宜时(例如,两者都使用 `deepseek-chat`)。管理两个模型的开销不值得。
### 何时启用推理
- **启用** 用于复杂分析任务、多步骤规划和需要仔细判断的任务
- **禁用**(默认)用于常规任务、简单问答和成本敏感的部署
- 推理通常会使每个请求的成本增加 2-5 倍 — `medium` 工作量是一个很好的起点
### 上下文窗口大小调整
设置 `LLM_CONTEXT_SIZE` 以匹配您模型的实际窗口:
| 模型 | 上下文窗口 |
|---|---|
| GPT-5.4 | 272K |
| o3 / o4-mini | 200K |
| Claude Sonnet 4.6 | 200K (1M beta) |
| Gemini 2.5 Pro | 1M |
| Gemini 3.1 Pro | 1M |
| DeepSeek V3.2 | 128K |
| Qwen 3.5 Plus | 1M |
| Local (Ollama) | 4K–128K (varies) |
对于本地模型,请显式设置 `LLM_CONTEXT_SIZE` 和 `LLM_MAX_OUTPUT_TOKENS` — 默认值假设云规模的上下文窗口,本地模型无法支持。