Documentation Index
Fetch the complete documentation index at: https://docs.fim.ai/llms.txt
Use this file to discover all available pages before exploring further.
FIM One 是提供商无关的 — 任何 OpenAI 兼容的端点都可以工作。本页面帮助您为您的用例选择最佳的模型组合。有关配置详情,请参阅 环境变量。
FIM One 如何使用模型
FIM One 有三个模型角色:
| 角色 | 环境变量 | 用途 |
|---|
| 通用 | LLM_MODEL | 规划、分析、ReAct 智能体、复杂推理 |
| 快速 | FAST_LLM_MODEL | DAG 步骤执行、上下文压缩(更便宜、更快) |
| 推理 | REASONING_LLM_MODEL | 深度分析、复杂规划、数学证明 |
如果未配置,快速和推理模型将回退到通用模型。对于生产部署,至少分离为两个模型(通用 + 快速)可以获得最佳的成本/质量平衡。
这些角色可以通过环境变量或通过管理 UI 的模型组功能进行配置,该功能允许一键切换模型集。有关完整的管理 UI 指南,请参阅 模型管理。
快速选择矩阵
| 提供商 | 主要LLM | 快速LLM | 推理 | 视觉 | 备注 |
|---|
| OpenAI | gpt-5.4 | gpt-5.4-mini / gpt-5.4-nano | ✅ reasoning_effort | ✅ 全部 | 最佳原生工具调用;GPT-5.4是最新旗舰版(2026年3月) |
| Anthropic | claude-sonnet-4-6 | claude-haiku-4-5 | ✅ 通过LiteLLM | ✅ 全部 | 原生API路由;完整reasoning_content支持;1M上下文GA |
| Google Gemini | gemini-2.5-pro / gemini-3.1-pro-preview | gemini-2.5-flash / gemini-3-flash-preview | ✅ reasoning_effort | ✅ 全部 | 2.5为稳定GA;3.x为预览版;gemini-3-pro-preview已于3月9日关闭 |
| DeepSeek | deepseek-chat(V3.2) | deepseek-chat | ✅ deepseek-reasoner | ❌ | 仅文本;V4(2026年4月)将添加视觉功能 |
| Qwen(阿里巴巴) | qwen3.5-plus / qwen3-max | qwen3.5-flash / qwen-turbo | ✅ qwen3-max上的enable_thinking | ⚠️ 仅qwen3.5 | 最强中文语言能力;qwq/推理仅文本 |
| ChatGLM(智谱) | glm-4.7 | glm-4.7-flash | glm-5 | ⚠️ GLM-4.6V | 不支持强制FC;视觉需要单独的VLM模型 |
| MiniMax | MiniMax-M2.7 | MiniMax-M2.5 | ❌ | ❌ | 仅文本;M2.7最新版(2026年3月);SWE-Bench 80.2% |
| Kimi(月之暗面) | kimi-k2.5 | kimi-k2 | ✅ kimi-k2-thinking | ⚠️ 仅K2.5 | K2-thinking仅文本;思考模式下不支持强制FC |
| Ollama(本地) | qwen3.5 / llama4 | qwen3.5:9b | ❌ | 因模型而异 | 完全离线,无需API密钥;Llama 4支持视觉 |
视觉表示模型是否接受图像输入。这是智能文档处理(IDP)所必需的——如果您的模型不支持视觉,IDP将回退到仅文本提取。标记为⚠️的提供商在某些模型上支持视觉但在其他模型上不支持;请检查您正在使用的特定模型。
结构化输出兼容性
FIM One 的 DAG 规划器需要模型返回有效的结构化 JSON。在内部,它按顺序尝试三个提取级别:
- 原生函数调用 — 通过工具调用 API 强制模型输出与架构匹配的 JSON。最可靠。
- JSON 模式 — 请求
response_format: json_object。保证有效的 JSON,但不强制架构合规性。
- 纯文本提取 — 作为最后手段从自由格式文本中解析 JSON。
支持第 1 级(带强制 tool_choice 的原生 FC)的模型提供最佳的规划可靠性。如果模型仅达到第 2 级,其输出质量取决于它遵循提示指令的程度 — 较弱的模型可能会生成与预期结构不匹配的有效 JSON。
| 提供商 | 强制函数调用 | JSON 模式 | 规划可靠性 |
|---|
| OpenAI (GPT-5.x, o3) | ✅ 完全支持 | ✅ | ⭐⭐⭐ 优秀 |
| Anthropic (Claude 4.x) | ⚠️ 与思考模式冲突 | ✅ | ⭐⭐⭐ 优秀(强指令遵循能力弥补) |
| Google Gemini (2.5/3.x) | ✅ 完全支持 | ✅ | ⭐⭐⭐ 优秀 |
| Mistral | ✅ 完全支持 | ✅ | ⭐⭐ 良好 |
| DeepSeek (V3.2) | ⚠️ 不稳定(tool_choice="required" 有效,"auto" 不可靠) | ✅ | ⭐⭐ 良好 |
| Qwen (3.x) | ⚠️ 部分支持 | ✅ | ⭐⭐ 良好 |
| Kimi (K2.5) | ⚠️ 部分 — 仅在启用思考时 auto | ✅ | ⭐ 一般 — 可能生成格式错误的计划 |
| ChatGLM (GLM-4.7/5) | ❌ 不支持(仅 auto) | ✅ | ⭐ 一般 |
| MiniMax (M2.5/M2.7) | ✅ 完全支持 | ✅ | ⭐⭐ 良好 |
| 本地 (Ollama) | 因模型而异 | 因模型而异 | ⭐ 一般 — 建议 32B+ |
如果看到错误”failed to generate a valid task plan”,说明模型的结构化输出能力不足以进行 DAG 规划。将你的主 LLM 切换到评级为 ⭐⭐⭐ 或 ⭐⭐ 或更高的模型,或禁用 DAG 模式并改用更简单的 ReAct 智能体。
思维/推理兼容性
不同的提供商以根本不同的方式实现”思维”(思维链推理)。这很重要,因为思维模式可能与工具调用冲突,并且输出根据提供商的不同而出现在不同的位置。FIM One 透明地处理所有这些——此表可帮助您了解底层发生的情况。
关键概念
- 可选启用 — 思考功能默认关闭;你可以通过 API 参数(例如
reasoning_effort)启用它。可以按调用选择性地禁用。
- 始终启用 — 模型始终进行思考;没有 API 参数可以关闭它。你需要切换到非思考模型变体才能避免它。
- 模型级别 — 思考功能由你选择的模型 ID 决定(例如
deepseek-reasoner vs deepseek-chat),而不是由参数决定。
兼容性矩阵
| 提供商 | 启用方式 | 可禁用? | 思考输出 | 强制 FC 冲突? |
|---|
| OpenAI (GPT-5.x) | reasoning_effort 参数 | ✅ 可选择启用 | 内部(用户不可见) | ⚠️ 当存在工具时 API 会丢弃 reasoning_effort |
| OpenAI (o-series) | 始终启用 | ❌ | 内部(计数但不返回) | ✅ 无冲突 |
| Anthropic (Claude 4.x) | reasoning_effort → thinking | ✅ 可选择启用 | API reasoning_content 字段 → 推理面板 | ❌ 强制 FC + 思考 = 400 错误 |
| Google Gemini (2.5/3.x) | reasoning_effort 参数 | ✅ 可选择启用 | 内部 | ✅ 无冲突 |
| DeepSeek | 模型变体(deepseek-reasoner) | 模型级别 | API reasoning_content 字段 → 推理面板 | ⚠️ 强制 FC 不可靠 |
| Qwen (3.x) | enable_thinking 参数 | ✅ 可选择启用 | 内容中的 <think> 标签 | ⚠️ 部分 FC 支持 |
| MiniMax (M2.7) | 始终启用 | ❌ | 内容中的 <think> 标签 | ✅ 无冲突 |
| ChatGLM (GLM-5) | 模型变体 | 模型级别 | 未外部化 | N/A — 不支持强制 FC |
| Kimi (K2-thinking) | 模型变体 | 模型级别 | API 字段 | ❌ 强制 FC + 思考 = 冲突 |
FIM One 如何处理每种情况
API 级别的 reasoning_content(Claude、DeepSeek):推理字段直接从 API 响应读取,并在 UI 推理面板中显示。无需后处理。
内容中的 <think> 标签(MiniMax、Qwen、QwQ 和其他开源衍生版本):FIM One 自动从内容字段中剥离 <think>...</think> 标签,并将思考文本重新路由到推理面板。这适用于流式和非流式响应。
强制 FC + 思考冲突(Claude、Kimi):当 FIM One 需要强制函数调用时(例如,在 DAG 规划的结构化输出提取期间),它通过传递 reasoning_effort=None 为该特定调用临时禁用思考。这之所以有效,是因为 Claude 的思考是可选的——不发送该参数意味着没有思考,从而避免 400 错误。对于无法禁用思考的提供商(MiniMax),强制 FC 工作正常,因为这些提供商不会拒绝该组合。
回退链:如果强制函数调用因任何原因失败,FIM One 会自动回退:原生 FC → JSON 模式 → 纯文本提取。这种三层方法确保规划即使在提供商工具调用支持不完整的情况下也能工作。
如果您使用始终进行思考的模型(MiniMax M2.7、DeepSeek R1)作为主 LLM,思考输出将出现在每个智能体迭代的推理面板中。这是正常的——它不会影响功能,您可以看到模型的推理过程。
提供商详情
OpenAI
最经过实战检验的选项。OpenAI 模型具有最好的原生函数调用(工具调用)支持,这直接影响智能体的可靠性。GPT-5 系列(2025 年 8 月+)相比 GPT-4 是一个重大的代际飞跃。
推荐模型:
- 主力:
gpt-5.4(最新旗舰版,2026 年 3 月 — 1M+ 上下文,计算机使用)或 o3(最佳推理准确度)
- 快速:
gpt-5.4-mini(0.75/4.50 每 MTok)或 gpt-5.4-nano(最便宜 0.20/1.25 每 MTok)
- 预算快速:
gpt-5-mini(0.25/2.00)和 gpt-5-nano(0.05/0.40)以更低价格继续可用
- 遗留:
gpt-4.1(仍在 API 中,1M 上下文,适合编码)
推理: 设置 LLM_REASONING_EFFORT=medium — 与 o 系列和 GPT-5.x 模型原生兼容。GPT-5.4 支持 reasoning_effort,级别为 none、low、medium、high、xhigh。o 系列需要 max_completion_tokens 而不是 max_tokens,LiteLLM 会自动处理。注意:当工具存在于 /v1/chat/completions 中时,GPT-5.x 仍会丢弃 reasoning_effort — FIM One 在智能体工具使用步骤中会静默丢弃它,以便工作流不中断运行。GPT-5.4 需要 temperature=1 — FIM One 通过 LiteLLM 的参数过滤(drop_params)自动处理。
| 模型 | 输入 $/MTok | 输出 $/MTok | 上下文 |
|---|
gpt-5.4 | $2.50 | $15.00 | 1,050K(>272K 时收费) |
gpt-5.4-mini | $0.75 | $4.50 | 400K |
gpt-5.4-nano | $0.20 | $1.25 | 400K |
o3 | $2.00 | $8.00 | 200K |
o4-mini | $1.10 | $4.40 | 200K |
gpt-5-mini | $0.25 | $2.00 | 400K |
gpt-5-nano | $0.05 | $0.40 | 400K |
# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
Anthropic (Claude)
Claude 在细致推理和复杂多步骤任务中表现出色。FIM One 通过 LiteLLM 连接,自动通过其原生 API 路由 Anthropic 模型。当前版本是 Claude 4.6(2026 年 2 月)。
推荐模型:
- 主要:
claude-sonnet-4-6(能力和成本的最佳平衡 — 3/15 per MTok)
- 快速:
claude-haiku-4-5(快速且便宜 — 1/5 per MTok)
- 高级:
claude-opus-4-6(最强大,128K 最大输出 — 5/25 per MTok)
基础 URL: https://api.anthropic.com/v1/
Opus 4.6 和 Sonnet 4.6 拥有 1M 上下文窗口(自 2026 年 3 月 13 日正式发布 — 无需 beta 标头)。Haiku 4.5 拥有 200K 上下文窗口。
推理: 设置 LLM_REASONING_EFFORT=medium — LiteLLM 通过原生 API 路由 Anthropic 模型,因此 reasoning_content(扩展思考)完全返回并在 UI”思考”步骤中可见。Claude 4.6 模型支持自适应思考(thinking: {type: "adaptive"}),替代手动 budget_tokens — LiteLLM 自动处理转换。启用扩展思考时,Anthropic 要求 temperature=1 — 在 .env 或模型配置中设置 LLM_TEMPERATURE=1。详见 Extended Thinking。
# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium
Google Gemini
Gemini 模型通过 Google 的 OpenAI 兼容端点提供强大的性能和具有竞争力的定价。3.x 代(2025 年末及以后)是一个重大飞跃 — Gemini 3 Flash 的性能超越 2.5 Pro,同时速度快 3 倍。注意:gemini-3-pro-preview 已于 2026 年 3 月 9 日关闭 — 请改用 gemini-3.1-pro-preview。
推荐模型:
- 稳定版 (GA):
gemini-2.5-pro(主要)+ gemini-2.5-flash(快速)— 生产就绪
- 最新版 (Preview):
gemini-3.1-pro-preview(主要)+ gemini-3-flash-preview(快速)+ gemini-3.1-flash-lite-preview(预算快速)— 最佳性能,但处于预览状态
基础 URL: https://generativelanguage.googleapis.com/v1beta/openai/
推理: 兼容性端点支持 reasoning_effort — 设置 LLM_REASONING_EFFORT=medium 即可开箱即用。
| 模型 | 输入 $/MTok | 输出 $/MTok | 状态 |
|---|
gemini-3.1-pro-preview | $2.00 | $12.00 | Preview |
gemini-3-flash-preview | $0.50 | $3.00 | Preview |
gemini-3.1-flash-lite-preview | $0.25 | $1.50 | Preview (Mar 2026) |
gemini-2.5-pro | $1.25 | $10.00 | Stable GA |
gemini-2.5-flash | $0.30 | $2.50 | Stable GA |
gemini-2.5-flash-lite | $0.10 | $0.40 | Stable GA |
# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium
DeepSeek
DeepSeek 提供市场上最佳的成本/性能比。V3.2(2025年12月)将聊天和推理系列统一为单一模型,定价极低。
模型 ID(均由 V3.2 支持):
deepseek-chat — 通用目的(非思考模式)
deepseek-reasoner — 链式思考推理模式,返回 reasoning_content
基础 URL: https://api.deepseek.com
定价: 0.28/0.42 每百万令牌(缓存命中:$0.028)— 迄今为止最便宜的前沿级 API。
输出限制: deepseek-chat 最大输出为 8K 令牌(必须通过 max_tokens 显式设置)。deepseek-reasoner 最大输出为 64K 令牌(包括链式思考)。
V4 预计 2026 年 4 月:万亿参数多模态模型,具有 1M 上下文窗口。发布时预期会有新的模型 ID。
# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat
中文国内模型
所有主要的中文模型提供商都提供 OpenAI 兼容的端点。这些模型特别擅长处理中文任务,并提供具有竞争力的本地定价。
Qwen / 通义千问 (阿里云)
Qwen 3.5(2026年2月)是最新一代——397B MoE旗舰模型在MMLU-Pro上的表现超越GPT-5.2。提供最强的中文语言支持和最便宜的前沿级定价(约$0.11/MTok输入)。
- 基础URL(中国):
https://dashscope.aliyuncs.com/compatible-mode/v1
- 基础URL(全球):
https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- 主力:
qwen3.5-plus(旗舰,1M上下文,0.11/0.66 per MTok)或 qwen3-max(256K,最强)
- 快速:
qwen3.5-flash(0.055/0.22 per MTok)或 qwen-turbo(0.04/0.08 per MTok)
- 推理:
qwen3-max 配合 enable_thinking: true 参数(没有单独的 qwen3-max-thinking 模型ID)
# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
ChatGLM / 智谱
GLM-4.7 和 GLM-5(2026)是最新的模型。GLM-5 是 745B MoE 旗舰模型,在编码/智能体任务上接近 Claude Opus 级别。
- Base URL(国内):
https://open.bigmodel.cn/api/paas/v4
- Base URL(Z.AI 国际):
https://api.z.ai/api/paas/v4
- 主要:
glm-4.7(强大的编码能力,Z.AI 上 0.60/2.20)
- 快速:
glm-4.7-flash(免费层级!)或 glm-4.7-flashx(0.07/0.40,更高吞吐量)
- 推理:
glm-5(745B MoE 旗舰模型,1.00/3.20)
不支持强制 tool_choice — 仅 "auto" 有效。
某些 HTTP 客户端会自动在 base URL 后追加 /v1。智谱使用 /v4 — 确保您的客户端不会强制使用 OpenAI 风格的路径后缀,否则会出现 404 错误。
# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
MiniMax
MiniMax M2.7(2026年3月18日)是最新模型,开放权重,在SWE-Bench上得分80.2%。M2.5仍可作为快速/预算选项使用。
MiniMax为不同地区提供两个独立的API端点:
- Base URL(全球/海外版):
https://api.minimax.io/v1 — 用于中国大陆以外的用户
- Base URL(中国/国内版):
https://api.minimaxi.com/v1 — 用于中国大陆用户(注意minimaxi中多了一个i)
- 主要:
MiniMax-M2.7
- 快速:
MiniMax-M2.5
- 速度:
MiniMax-M2.7-highspeed(成本提高2倍,延迟更低)
| 模型 | 输入 $/MTok | 输出 $/MTok |
|---|
MiniMax-M2.7 | $0.30 | $1.20 |
MiniMax-M2.7-highspeed | $0.60 | $2.40 |
MiniMax-M2.5 | $0.30 | $1.20 |
MiniMax-M2.5-highspeed | $0.60 | $2.40 |
# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
Kimi / 月之暗面 (Moonshot)
Kimi K2.5(2026年1月)具有256K上下文和强大的编码性能(在开源模型中SWE-Bench达到76.8%)。
- 基础URL(全球):
https://api.moonshot.ai/v1
- 基础URL(中国):
https://api.moonshot.cn/v1
- 主要:
kimi-k2.5
- 快速:
kimi-k2(非思考模式,函数调用有效)
- 推理:
kimi-k2-thinking(0.47/2.00 per MTok)
强制tool_choice仅在思考模式关闭时有效。启用思考模式时,仅支持"auto"。
# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
本地模型 (Ollama)
在自己的硬件上完全运行模型 — 无需 API 密钥,完全离线。Ollama 开箱即用地暴露一个 OpenAI 兼容的端点。开源生态已经发生了巨大变化 — Qwen 3.5、Llama 4 和 GPT-OSS(OpenAI 的首批开放权重模型)都已可用。
基础 URL: http://localhost:11434/v1
按 VRAM 推荐的模型:
| VRAM | 主 LLM | 快速 LLM | 备注 |
|---|
| 8 GB | qwen3.5:9b / gemma3:4b | qwen3.5:4b | Qwen 3.5 9B 是该层级的佼佼者 |
| 16 GB | gpt-oss:20b / deepseek-r1:14b | qwen3.5:9b | GPT-OSS 20B 针对智能体进行了优化 |
| 24 GB | qwen3:32b / deepseek-r1:32b | qwen3.5:9b | Qwen 3 32B 最适合工具调用 |
| 48 GB+ | llama3.3:70b / gpt-oss:120b | qwen3.5:14b | 接近前沿质量 |
最适合工具调用: Qwen 3/3.5 (32B+)、GLM-4.7、GPT-OSS、Mistral — 这些模型具有明确的函数调用训练。参数为 14B+ 的模型是可靠工具调用的最低要求;强烈推荐 32B+ 及以上。
工具调用质量在本地模型中差异很大。 并非所有模型都能可靠地生成有效的函数调用。在生产环境中使用之前,请使用智能体工作流测试您选择的模型。一般规则:14B 最低要求,32B+ 推荐用于智能体任务。
# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
第三方中继平台
许多用户通过单个中继(代理)服务访问多个模型提供商。FIM One 根据 URL 路径模式自动检测正确的 API 协议 — 只需填入 LLM_BASE_URL 即可工作。
工作原理
当您的基础 URL 指向第三方中继时,FIM One 检查 URL 路径以确定要使用的协议:
| URL 路径包含 | 检测到的协议 | 认证头 | 主要优势 |
|---|
/v1(或无匹配) | OpenAI 兼容 | Authorization: Bearer | 通用回退,适用于大多数中继 |
/claude 或 /anthropic | Anthropic 原生 | x-api-key | 完整的 reasoning_content(扩展思考)支持 |
/gemini | Google 原生 | x-goog-api-key | 原生 Gemini 参数转换 |
解析顺序: 显式数据库提供商字段 > 域名匹配(官方 API) > URL 路径提示(中继平台) > OpenAI 兼容回退。
示例:一个中继,三个协议
使用单个中继账户,您可以通过简单地更改基础 URL 路径来访问不同的提供商:
# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
无需额外配置 — 身份验证标头、参数格式和响应解析都会自动切换。
步骤详解:路径检测如何工作
以下是一个具体示例,展示了配置中继时内部发生的情况:
# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
- FIM One 在 URL 路径中看到
/claude → 检测到 Anthropic 原生协议
- 模型被前缀为
anthropic/claude-sonnet-4-6 用于 LiteLLM 路由
- 请求使用 Anthropic 的
/v1/messages 格式和 x-api-key 认证头
reasoning_effort=medium 被转换为 Anthropic 的原生 thinking 参数(不是 OpenAI 的 reasoning_effort)
如果相同的中继 URL 改为 https://my-relay.example.com/v1,则会缺少 /claude 提示 — FIM One 会回退到 OpenAI 兼容协议,向 Claude 原生端点发送 /v1/chat/completions 请求,这会失败。URL 路径很重要。
为什么这很重要
- Anthropic 原生端点为您提供适当的
reasoning_content 支持(UI 中可见的扩展思考)、正确的工具调用格式和 x-api-key 身份验证 — 使用 OpenAI 兼容转换时会丧失这些功能。
- Google 原生端点为您提供原生 Gemini 参数和
x-goog-api-key 身份验证。
- OpenAI 兼容是通用后备方案,适用于任何中继,但提供商特定功能(如扩展思考输出)可能不可用。
如果您的中继平台使用非标准路径约定(例如,URL 中没有 /claude 或 /anthropic),FIM One 会回退到 OpenAI 兼容协议 — 这适用于大多数用例。为了获得完整的原生协议支持,您可以通过管理员模型配置 UI 显式设置 provider 字段。
配置策略
主模型 vs 快速模型:何时拆分
- 拆分当你的主模型昂贵或缓慢时(例如,
gpt-5.4 + gpt-5.4-nano)。DAG 模式运行许多并行步骤 — 使用更便宜的快速模型可以节省大量成本。
- 相同模型当你的模型已经很便宜时(例如,两者都使用
deepseek-chat)。管理两个模型的开销不值得。
何时启用推理
- 启用 用于复杂分析任务、多步骤规划和需要仔细判断的任务
- 禁用(默认)用于日常任务、简单问答和成本敏感的部署
- 推理通常会使每个请求的成本增加 2-5 倍 —
medium 工作量是一个很好的起点
上下文窗口大小调整
设置 LLM_CONTEXT_SIZE 以匹配您的模型实际窗口:
| 模型 | 上下文窗口 |
|---|
| GPT-5.4 | 1,050K (超过272K收费) |
| o3 / o4-mini | 200K |
| Claude Opus 4.6 | 1M |
| Claude Sonnet 4.6 | 1M |
| Claude Haiku 4.5 | 200K |
| Gemini 2.5 Pro | 1M |
| Gemini 3.1 Pro | 1M |
| DeepSeek V3.2 | 128K |
| Qwen 3.5 Plus | 1M |
| Local (Ollama) | 4K–128K (因型号而异) |
对于本地模型,请明确设置 LLM_CONTEXT_SIZE 和 LLM_MAX_OUTPUT_TOKENS — 默认值假设云规模的上下文窗口,本地模型无法支持。