Documentation Index
Fetch the complete documentation index at: https://docs.fim.ai/llms.txt
Use this file to discover all available pages before exploring further.
FIM One はプロバイダーに依存しない — OpenAI 互換のエンドポイントであれば動作します。このページでは、ユースケースに最適なモデルの組み合わせを選択するのに役立ちます。設定の詳細については、環境変数を参照してください。
FIM One がモデルを使用する方法
FIM One には 3 つのモデルロールがあります:
| ロール | 環境変数 | 用途 |
|---|
| General | LLM_MODEL | 計画、分析、ReAct エージェント、複雑な推論 |
| Fast | FAST_LLM_MODEL | DAG ステップ実行、コンテキスト圧縮(より安価で高速) |
| Reasoning | REASONING_LLM_MODEL | 深い分析、複雑な計画、数学的証明 |
Fast と Reasoning が設定されていない場合は General にフォールバックします。本番環境のデプロイメントでは、少なくとも 2 つのモデル(General + Fast)に分割することで、最適なコスト/品質のバランスが得られます。
これらのロールは環境変数を通じて、または admin UI の Model Groups 機能を通じて設定できます。この機能により、モデルセット間のワンクリック切り替えが可能になります。詳細な admin UI ガイドについては Model Management を参照してください。
クイック選択マトリックス
| プロバイダー | メインLLM | 高速LLM | 推論 | ビジョン | 注記 |
|---|
| OpenAI | gpt-5.4 | gpt-5.4-mini / gpt-5.4-nano | ✅ reasoning_effort | ✅ すべて | ネイティブツール呼び出しが最高; GPT-5.4は最新フラッグシップ (2026年3月) |
| Anthropic | claude-sonnet-4-6 | claude-haiku-4-5 | ✅ LiteLLM経由 | ✅ すべて | ネイティブAPIルーティング; 完全なreasoning_contentサポート; 1Mコンテキストが一般提供 |
| Google Gemini | gemini-2.5-pro / gemini-3.1-pro-preview | gemini-2.5-flash / gemini-3-flash-preview | ✅ reasoning_effort | ✅ すべて | 2.5は安定版GA; 3.xはプレビュー; gemini-3-pro-previewは3月9日に廃止 |
| DeepSeek | deepseek-chat (V3.2) | deepseek-chat | ✅ deepseek-reasoner | ❌ | テキストのみ; V4 (2026年4月) でビジョン対応予定 |
| Qwen (Alibaba) | qwen3.5-plus / qwen3-max | qwen3.5-flash / qwen-turbo | ✅ qwen3-maxのenable_thinking | ⚠️ qwen3.5のみ | 中国語に最強; qwq/推論はテキストのみ |
| ChatGLM (Zhipu) | glm-4.7 | glm-4.7-flash | glm-5 | ⚠️ GLM-4.6V | 強制FCは非対応; ビジョンは別のVLMモデルが必要 |
| MiniMax | MiniMax-M2.7 | MiniMax-M2.5 | ❌ | ❌ | テキストのみ; M2.7は最新 (2026年3月); SWE-Bench 80.2% |
| Kimi (Moonshot) | kimi-k2.5 | kimi-k2 | ✅ kimi-k2-thinking | ⚠️ K2.5のみ | K2-thinkingはテキストのみ; 強制FCは思考モードで非対応 |
| Ollama (ローカル) | qwen3.5 / llama4 | qwen3.5:9b | ❌ | 異なる | 完全オフライン、APIキー不要; Llama 4はビジョン対応 |
ビジョンはモデルが画像入力を受け入れるかどうかを示します。これはインテリジェントドキュメント処理 (IDP)に必要です — モデルがビジョンをサポートしていない場合、IDPはテキストのみの抽出にフォールバックします。⚠️でマークされたプロバイダーは一部のモデルではビジョンをサポートしていますが、他のモデルではサポートしていません。使用している特定のモデルを確認してください。
構造化出力の互換性
FIM Oneの DAG プランナーは、モデルが有効な構造化JSONを返す必要があります。内部的には、以下の3つの抽出レベルを順番に試します:
- ネイティブ関数呼び出し — ツール呼び出し API経由でスキーマに一致するJSONを出力するようモデルに強制します。最も信頼性が高いです。
- JSONモード —
response_format: json_objectをリクエストします。有効なJSONを保証しますが、スキーマ準拠は強制しません。
- プレーンテキスト抽出 — 最後の手段として、自由形式のテキストからJSONを解析します。
レベル1をサポートするモデル(強制的なtool_choiceを備えたネイティブFC)は、最高のプランニング信頼性を提供します。モデルがレベル2のみに達する場合、その出力品質はプロンプト指示にどの程度従うかに依存します — より弱いモデルは、期待される構造に一致しない有効なJSONを生成する可能性があります。
| プロバイダー | 強制関数呼び出し | JSONモード | プランニング信頼性 |
|---|
| OpenAI (GPT-5.x, o3) | ✅ 完全サポート | ✅ | ⭐⭐⭐ 優秀 |
| Anthropic (Claude 4.x) | ⚠️ 思考モードと競合 | ✅ | ⭐⭐⭐ 優秀(強力な指示追従で補完) |
| Google Gemini (2.5/3.x) | ✅ 完全サポート | ✅ | ⭐⭐⭐ 優秀 |
| Mistral | ✅ 完全サポート | ✅ | ⭐⭐ 良好 |
| DeepSeek (V3.2) | ⚠️ 不安定(tool_choice="required"は動作、"auto"は不安定) | ✅ | ⭐⭐ 良好 |
| Qwen (3.x) | ⚠️ 部分的 | ✅ | ⭐⭐ 良好 |
| Kimi (K2.5) | ⚠️ 部分的 — 思考有効時のみauto | ✅ | ⭐ 中程度 — 不正なプランを生成する可能性あり |
| ChatGLM (GLM-4.7/5) | ❌ サポートなし(autoのみ) | ✅ | ⭐ 中程度 |
| MiniMax (M2.5/M2.7) | ✅ 完全サポート | ✅ | ⭐⭐ 良好 |
| ローカル (Ollama) | モデルによって異なる | 異なる | ⭐ 中程度 — 32B以上推奨 |
「有効なタスクプランの生成に失敗しました」というエラーが表示される場合、モデルの構造化出力機能は DAG プランニングには不十分です。メインLLMを⭐⭐⭐または⭐⭐以上の評価を持つモデルに切り替えるか、DAGモードを無効にしてより単純なReActエージェントを代わりに使用してください。
思考 / 推理互換性
異なるプロバイダーは「思考」(思考の連鎖推論)を根本的に異なる方法で実装しています。これが重要な理由は、思考モードがツール呼び出しと競合する可能性があり、出力がプロバイダーによって異なる場所に表示されるためです。FIM One はこれらすべてを透過的に処理します — この表は、内部で何が起こっているかを理解するのに役立ちます。
主要概念
- オプトイン — 思考はデフォルトでオフです。API パラメータ(例:
reasoning_effort)を使用して有効にします。呼び出しごとに選択的に無効にできます。
- 常時オン — モデルは常に思考します。オフにするための API パラメータはありません。これを回避するには、思考しないモデルバリアントに切り替える必要があります。
- モデルレベル — 思考は、パラメータではなく、選択するモデル ID(例:
deepseek-reasoner vs deepseek-chat)によって決定されます。
互換性マトリックス
| プロバイダー | 有効にする方法 | 無効化可能? | 思考出力 | 強制FC競合? |
|---|
| OpenAI (GPT-5.x) | reasoning_effort パラメータ | ✅ オプトイン | 内部(ユーザーに表示されない) | ⚠️ API はツール存在時に reasoning_effort を削除 |
| OpenAI (o-series) | 常時オン | ❌ | 内部(トークンカウント、返却なし) | ✅ 競合なし |
| Anthropic (Claude 4.x) | reasoning_effort → thinking | ✅ オプトイン | API reasoning_content フィールド → 推論パネル | ❌ 強制FC + 思考 = 400エラー |
| Google Gemini (2.5/3.x) | reasoning_effort パラメータ | ✅ オプトイン | 内部 | ✅ 競合なし |
| DeepSeek | モデルバリアント (deepseek-reasoner) | モデルレベル | API reasoning_content フィールド → 推論パネル | ⚠️ 強制FC は不安定 |
| Qwen (3.x) | enable_thinking パラメータ | ✅ オプトイン | コンテンツ内の <think> タグ | ⚠️ 部分的FC サポート |
| MiniMax (M2.7) | 常時オン | ❌ | コンテンツ内の <think> タグ | ✅ 競合なし |
| ChatGLM (GLM-5) | モデルバリアント | モデルレベル | 外部化されない | N/A — 強制FC はサポートされない |
| Kimi (K2-thinking) | モデルバリアント | モデルレベル | API フィールド | ❌ 強制FC + 思考 = 競合 |
FIM One が各ケースを処理する方法
API レベルの reasoning_content (Claude、DeepSeek): 推論フィールドは API レスポンスから直接読み取られ、UI の推論パネルに表示されます。後処理は不要です。
コンテンツ内の <think> タグ (MiniMax、Qwen、QwQ、およびその他のオープンソース派生版): FIM One は自動的にコンテンツフィールドから <think>...</think> タグを削除し、思考テキストを推論パネルに再ルーティングします。これはストリーミングとノンストリーミングの両方のレスポンスで機能します。
強制 FC + 思考の競合 (Claude、Kimi): FIM One が強制関数呼び出しが必要な場合 (例: DAG プランニングの構造化出力抽出中)、reasoning_effort=None を渡すことで、その特定の呼び出しに対して思考を一時的に無効にします。これは Claude の思考がオプトインであるため機能します — パラメータを送信しないことは思考がないことを意味し、400 エラーを回避します。思考を無効にできないプロバイダー (MiniMax) の場合、強制 FC は正常に機能します。これらのプロバイダーは組み合わせを拒否しないためです。
フォールバックチェーン: 強制関数呼び出しが何らかの理由で失敗した場合、FIM One は自動的にフォールバックします: ネイティブ FC → JSON モード → プレーンテキスト抽出。この 3 段階のアプローチにより、ツール呼び出しサポートが部分的なプロバイダーでもプランニングが機能することを保証します。
メイン LLM として常に思考するモデル (MiniMax M2.7、DeepSeek R1) を使用している場合、思考出力はすべてのエージェント反復の推論パネルに表示されます。これは正常です — 機能に影響を与えず、モデルの推論プロセスを確認できます。
プロバイダーの詳細
OpenAI
最も実績のあるオプション。OpenAIモデルは最高のネイティブ関数呼び出し(ツール呼び出し)サポートを備えており、これはエージェントの信頼性に直接影響します。GPT-5ファミリー(2025年8月以降)はGPT-4に対する大きな世代的飛躍です。
推奨モデル:
- メイン:
gpt-5.4(最新フラッグシップ、2026年3月 — 1M+コンテキスト、コンピュータ使用)またはo3(最高の推論精度)
- 高速:
gpt-5.4-mini(0.75/4.50 per MTok)またはgpt-5.4-nano(最安値 0.20/1.25 per MTok)
- 予算重視の高速:
gpt-5-mini(0.25/2.00)およびgpt-5-nano(0.05/0.40)はより低い価格で利用可能
- レガシー:
gpt-4.1(API内でまだ利用可能、1Mコンテキスト、コーディングに適している)
推論: LLM_REASONING_EFFORT=mediumを設定します — o-seriesおよびGPT-5.xモデルでネイティブに動作します。GPT-5.4はreasoning_effortをnone、low、medium、high、xhighのレベルでサポートしています。o-seriesはmax_tokensの代わりにmax_completion_tokensが必要で、LiteLLMが自動的に処理します。注意:GPT-5.xは/v1/chat/completionsでツールが存在する場合、reasoning_effortをドロップします — FIM Oneはエージェントツール使用ステップ中に静かにこれをドロップするため、ワークフローは中断なく実行されます。GPT-5.4はtemperature=1が必要です — FIM OneはLiteLLMのパラメータフィルタリング(drop_params)を介してこれを自動的に処理します。
| モデル | 入力 $/MTok | 出力 $/MTok | コンテキスト |
|---|
gpt-5.4 | $2.50 | $15.00 | 1,050K (272K超過時追加料金) |
gpt-5.4-mini | $0.75 | $4.50 | 400K |
gpt-5.4-nano | $0.20 | $1.25 | 400K |
o3 | $2.00 | $8.00 | 200K |
o4-mini | $1.10 | $4.40 | 200K |
gpt-5-mini | $0.25 | $2.00 | 400K |
gpt-5-nano | $0.05 | $0.40 | 400K |
# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
Anthropic (Claude)
Claudeは微妙な推論と複雑なマルチステップタスクに優れています。FIM OneはLiteLLM経由で接続し、Anthropicモデルをネイティブ API経由で自動的にルーティングします。現在の世代はClaude 4.6(2026年2月)です。
推奨モデル:
- メイン:
claude-sonnet-4-6(機能とコストのベストバランス — 3/15 per MTok)
- 高速:
claude-haiku-4-5(高速で低コスト — 1/5 per MTok)
- プレミアム:
claude-opus-4-6(最も高機能、最大出力128K — 5/25 per MTok)
ベースURL: https://api.anthropic.com/v1/
Opus 4.6とSonnet 4.6は1Mのコンテキストウィンドウを備えています(2026年3月13日以降GA — ベータヘッダーは不要)。Haiku 4.5は200Kのコンテキストウィンドウを備えています。
推論: LLM_REASONING_EFFORT=mediumを設定してください — LiteLLMはAnthropicモデルをネイティブ API経由でルーティングするため、reasoning_content(拡張思考)は完全に返され、UI の「thinking」ステップで表示されます。Claude 4.6モデルはAdaptive Thinking(thinking: {type: "adaptive"})をサポートしており、手動のbudget_tokensに置き換わります — LiteLLMが自動的に変換を処理します。拡張思考が有効な場合、Anthropicはtemperature=1を要求します — .envまたはモデル設定でLLM_TEMPERATURE=1を設定してください。詳細はExtended Thinkingを参照してください。
# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium
Google Gemini
Geminiモデルは、Googleの OpenAI互換エンドポイント経由で競争力のある価格で強力なパフォーマンスを提供します。3.x世代(2025年後半以降)は大きな飛躍です — Gemini 3 Flashは2.5 Proを上回りながら3倍高速です。注意: gemini-3-pro-previewは2026年3月9日にシャットダウンされました — 代わりにgemini-3.1-pro-previewを使用してください。
推奨モデル:
- 安定版(GA):
gemini-2.5-pro(メイン)+ gemini-2.5-flash(高速)— 本番環境対応
- 最新版(プレビュー):
gemini-3.1-pro-preview(メイン)+ gemini-3-flash-preview(高速)+ gemini-3.1-flash-lite-preview(予算重視の高速)— 最高のパフォーマンス、ただしプレビュー状態
ベースURL: https://generativelanguage.googleapis.com/v1beta/openai/
推論: 互換性エンドポイントでreasoning_effortがサポートされています — LLM_REASONING_EFFORT=mediumを設定するとそのまま動作します。
| モデル | 入力 $/MTok | 出力 $/MTok | ステータス |
|---|
gemini-3.1-pro-preview | $2.00 | $12.00 | プレビュー |
gemini-3-flash-preview | $0.50 | $3.00 | プレビュー |
gemini-3.1-flash-lite-preview | $0.25 | $1.50 | プレビュー(2026年3月) |
gemini-2.5-pro | $1.25 | $10.00 | 安定版GA |
gemini-2.5-flash | $0.30 | $2.50 | 安定版GA |
gemini-2.5-flash-lite | $0.10 | $0.40 | 安定版GA |
# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium
DeepSeek
DeepSeekは市場で最高のコスト/パフォーマンス比を提供しています。V3.2(2025年12月)はチャットと推論の系統を単一のモデルに統合し、非常に低い価格設定を実現しています。
モデルID(両方ともV3.2によってサポート):
deepseek-chat — 汎用(非思考モード)
deepseek-reasoner — 思考の連鎖推論モード、reasoning_contentを返す
ベースURL: https://api.deepseek.com
価格設定: 0.28/0.42 per MTok(キャッシュヒット: $0.028)— 圧倒的に最も安いフロンティアクラスのAPI。
出力制限: deepseek-chatの最大出力は8Kトークン(max_tokensで明示的に設定する必要があります)。deepseek-reasonerの最大出力は64Kトークン(思考の連鎖を含む)。
V4は2026年4月予定: 1兆パラメータのマルチモーダルモデル、1Mコンテキストウィンドウ。起動時に新しいモデルIDが期待されます。
# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat
中国国内モデル
すべての主要な中国のモデルプロバイダーは、OpenAI互換のエンドポイントを公開しています。これらは中国語タスクに特に強く、競争力のあるローカル価格を提供しています。
Qwen / 通义千問 (Alibaba Cloud)
Qwen 3.5(2026年2月)是最新一代 — 397B MoE旗艦版在MMLU-Pro上的表現超越GPT-5.2。最強的中文語言支持和最便宜的前沿級定價(~$0.11/MTok輸入)。
- Base URL(中國):
https://dashscope.aliyuncs.com/compatible-mode/v1
- Base URL(全球):
https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- 主要:
qwen3.5-plus(旗艦版,1M上下文,0.11/0.66 per MTok)或 qwen3-max(256K,最強)
- 快速:
qwen3.5-flash(0.055/0.22 per MTok)或 qwen-turbo(0.04/0.08 per MTok)
- 推理:
qwen3-max 搭配 enable_thinking: true 參數(沒有單獨的 qwen3-max-thinking 模型ID)
# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
ChatGLM / 智谱
GLM-4.7 と GLM-5 (2026) は最新モデルです。GLM-5 は 745B MoE フラッグシップで、コーディング/エージェントタスクで Claude Opus レベルに近づいています。
- Base URL (国内):
https://open.bigmodel.cn/api/paas/v4
- Base URL (Z.AI International):
https://api.z.ai/api/paas/v4
- Main:
glm-4.7 (強力なコーディング、Z.AI で 0.60/2.20)
- Fast:
glm-4.7-flash (無料ティア!) または glm-4.7-flashx (0.07/0.40、より高いスループット)
- Reasoning:
glm-5 (745B MoE フラッグシップ、1.00/3.20)
強制的な tool_choice はサポートされていません — "auto" のみが機能します。
一部の HTTP クライアントは base URL に自動的に /v1 を追加します。Zhipu は /v4 を使用しているため、クライアントが OpenAI スタイルのパス接尾辞を強制しないようにしてください。そうしないと 404 エラーが発生します。
# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
MiniMax
MiniMax M2.7(2026年3月18日)是最新模型,开放权重,在SWE-Bench上得分为80.2%。M2.5仍可作为快速/预算选项使用。
MiniMax为不同地区提供两个独立的API端点:
- Base URL(全球/海外版):
https://api.minimax.io/v1 — 适用于中国大陆以外的用户
- Base URL(中国/国内版):
https://api.minimaxi.com/v1 — 适用于中国大陆用户(注意minimaxi中多了一个i)
- 主要:
MiniMax-M2.7
- 快速:
MiniMax-M2.5
- 速度:
MiniMax-M2.7-highspeed(成本提高2倍,延迟降低)
| 模型 | 输入 $/MTok | 输出 $/MTok |
|---|
MiniMax-M2.7 | $0.30 | $1.20 |
MiniMax-M2.7-highspeed | $0.60 | $2.40 |
MiniMax-M2.5 | $0.30 | $1.20 |
MiniMax-M2.5-highspeed | $0.60 | $2.40 |
# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
Kimi / 月之暗面 (Moonshot)
Kimi K2.5(2026年1月)拥有256K上下文和强大的编码性能(在开源模型中SWE-Bench达到76.8%)。
- Base URL(グローバル):
https://api.moonshot.ai/v1
- Base URL(中国):
https://api.moonshot.cn/v1
- メイン:
kimi-k2.5
- 高速:
kimi-k2(非思考モード、関数呼び出し機能あり)
- 推論:
kimi-k2-thinking(0.47/2.00 per MTok)
強制的なtool_choiceは思考モードがオフの場合にのみ機能します。思考が有効な場合、"auto"のみがサポートされます。
# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
ローカルモデル (Ollama)
独自のハードウェア上でモデルを完全に実行 — APIキーは不要で、完全にオフライン。Ollama は OpenAI 互換エンドポイントをそのまま公開します。オープンソースの状況は劇的に変わりました — Qwen 3.5、Llama 4、GPT-OSS (OpenAI の最初のオープンウェイトモデル) がすべて利用可能です。
ベース URL: http://localhost:11434/v1
VRAM別の推奨モデル:
| VRAM | メイン LLM | 高速 LLM | 注記 |
|---|
| 8 GB | qwen3.5:9b / gemma3:4b | qwen3.5:4b | Qwen 3.5 9B はこのティアで傑出している |
| 16 GB | gpt-oss:20b / deepseek-r1:14b | qwen3.5:9b | GPT-OSS 20B はエージェント最適化 |
| 24 GB | qwen3:32b / deepseek-r1:32b | qwen3.5:9b | Qwen 3 32B はツール呼び出しに最適 |
| 48 GB+ | llama3.3:70b / gpt-oss:120b | qwen3.5:14b | ほぼ最先端の品質 |
ツール呼び出しに最適: Qwen 3/3.5 (32B+)、GLM-4.7、GPT-OSS、Mistral — これらは明示的な関数呼び出しトレーニングを備えています。14B 以上のパラメータを持つモデルは信頼できるツール呼び出しの最小要件です。32B 以上が強く推奨されます。
ツール呼び出しの品質はローカルモデル全体で大きく異なります。 すべてのモデルが確実に有効な関数呼び出しを生成するわけではありません。本番環境で使用する前に、エージェントワークフローで選択したモデルをテストしてください。一般的なルール: 最小 14B、エージェントタスクには 32B 以上を推奨します。
# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
サードパーティリレープラットフォーム
多くのユーザーは、単一のリレー(プロキシ)サービスを通じて複数のモデルプロバイダーにアクセスしています。FIM Oneは、URLパスパターンに基づいて正しいAPIプロトコルを自動的に検出します。LLM_BASE_URLを入力するだけで動作します。
仕組み
ベースURLがサードパーティリレーを指している場合、FIM OneはURLパスを検査してどのプロトコルを使用するかを決定します:
| URLパスに含まれる内容 | 検出されるプロトコル | 認証ヘッダー | 主な利点 |
|---|
/v1(またはマッチなし) | OpenAI互換 | Authorization: Bearer | ユニバーサルフォールバック、ほとんどのリレーで動作 |
/claudeまたは/anthropic | Anthropic ネイティブ | x-api-key | 完全なreasoning_content(拡張思考)サポート |
/gemini | Google ネイティブ | x-goog-api-key | ネイティブGeminiパラメータ変換 |
解決順序: 明示的なDB プロバイダフィールド > ドメインマッチ(公式API) > URLパスヒント(リレープラットフォーム) > OpenAI互換フォールバック。
例:1つのリレー、3つのプロトコル
単一のリレーアカウントで、ベースURLパスを変更するだけで異なるプロバイダーにアクセスできます:
# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
追加の設定は不要です。認証ヘッダー、パラメータ形式、レスポンス解析がすべて自動的に切り替わります。
ステップバイステップ: パス検出の仕組み
リレーを設定するときに内部で何が起こるかを示す具体例です:
# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
- FIM One は URL パスの
/claude を認識 → Anthropic ネイティブプロトコルを検出
- モデルは LiteLLM ルーティング用に
anthropic/claude-sonnet-4-6 としてプレフィックスが付与される
- リクエストは Anthropic の
/v1/messages フォーマットを使用し、x-api-key 認証ヘッダーで認証
reasoning_effort=medium は Anthropic のネイティブ thinking パラメータに変換される (OpenAI の reasoning_effort ではない)
同じリレー URL が https://my-relay.example.com/v1 だった場合、/claude ヒントが欠落するため、FIM One は OpenAI 互換プロトコルにフォールバックし、Claude ネイティブエンドポイントに /v1/chat/completions リクエストを送信することになり、失敗します。URL パスが重要です。
このことが重要な理由
- Anthropic ネイティブエンドポイントは、適切な
reasoning_content サポート(UI に表示される拡張思考)、正しいツール呼び出し形式、および x-api-key 認証を提供します — OpenAI 互換変換を使用する場合に失われる機能です。
- Google ネイティブエンドポイントは、ネイティブ Gemini パラメータと
x-goog-api-key 認証を提供します。
- OpenAI 互換は普遍的なフォールバックであり、任意のリレーで機能しますが、プロバイダー固有の機能(拡張思考出力など)は利用できない場合があります。
リレープラットフォームが非標準パス規則を使用している場合(例:URL に /claude または /anthropic がない)、FIM One は OpenAI 互換プロトコルにフォールバックします — これはほとんどのユースケースで機能します。完全なネイティブプロトコルサポートについては、管理者モデル設定 UI を介して provider フィールドを明示的に設定できます。
設定戦略
Main vs Fast: 分割するタイミング
- 分割する メインモデルが高価または遅い場合(例:
gpt-5.4 + gpt-5.4-nano)。DAG モードは多くの並列ステップを実行します — より安価な高速モデルを使用することで大幅なコスト削減が実現します。
- 同じモデル モデルが既に安価な場合(例:両方に
deepseek-chat)。2つのモデルを管理するオーバーヘッドは価値がありません。
推論を有効にする時期
- 有効にする 複雑な分析タスク、複数ステップの計画、慎重な判断が必要なタスク
- 無効にする(デフォルト)ルーチンタスク、シンプルなQ&A、コスト効率を重視するデプロイメント
- 推論は通常、リクエストあたりのコストを2~5倍増加させます —
mediumの努力レベルが良い出発点です
コンテキストウィンドウサイジング
LLM_CONTEXT_SIZE をモデルの実際のウィンドウに合わせて設定します:
| モデル | コンテキストウィンドウ |
|---|
| GPT-5.4 | 1,050K (272K超過時に追加料金) |
| o3 / o4-mini | 200K |
| Claude Opus 4.6 | 1M |
| Claude Sonnet 4.6 | 1M |
| Claude Haiku 4.5 | 200K |
| Gemini 2.5 Pro | 1M |
| Gemini 3.1 Pro | 1M |
| DeepSeek V3.2 | 128K |
| Qwen 3.5 Plus | 1M |
| Local (Ollama) | 4K–128K (変動) |
ローカルモデルの場合、LLM_CONTEXT_SIZE と LLM_MAX_OUTPUT_TOKENS の両方を明示的に設定してください。デフォルト値はクラウド規模のコンテキストウィンドウを想定しており、ローカルモデルではサポートできません。