メインコンテンツへスキップ
FIM One はプロバイダーに依存しない — OpenAI 互換のエンドポイントであれば動作します。このページは、ユースケースに最適なモデルの組み合わせを選択するのに役立ちます。設定の詳細については、環境変数を参照してください。

FIM One がモデルを使用する方法

FIM One には 2 つのモデルスロットがあります:
スロット環境変数用途
Main LLMLLM_MODEL計画、分析、ReAct エージェント、複雑な推論
Fast LLMFAST_LLM_MODELDAG ステップ実行、コンテキスト圧縮(より安価で高速)
FAST_LLM_MODEL が設定されていない場合、LLM_MODEL にフォールバックします。本番環境のデプロイメントでは、2 つのモデルに分割することで、最適なコスト/品質のバランスが得られます。

クイック選択マトリックス

プロバイダーメイン LLM高速 LLM推論注記
OpenAIgpt-5.4 / o3gpt-5-mini / gpt-5-nanoreasoning_effortネイティブツール呼び出しが最高; GPT-5.4は最新フラッグシップ
Anthropicclaude-sonnet-4-6claude-haiku-4-5✅ LiteLLM経由ネイティブAPIルーティング; 完全なreasoning_contentサポート
Google Geminigemini-2.5-pro / gemini-3.1-pro-previewgemini-2.5-flash / gemini-3-flash-previewreasoning_effort2.5は安定GA; 3.xはプレビュー
DeepSeekdeepseek-chat (V3.2)deepseek-chatdeepseek-reasoner最高のコスト/パフォーマンス; V4は近日中
Qwen (Alibaba)qwen3.5-plus / qwen3-maxqwen-turboqwen3-max-thinking最強の中国語サポート
ChatGLM (Zhipu)glm-5glm-4-flashGLM-5は744B MoE; glm-4-flashで無料ティア
MiniMaxMiniMax-M2.5MiniMax-M2.5-Lightningオープンウェイト、強力なコーディング (80.2% SWE-Bench)
Kimi (Moonshot)kimi-k2.5kimi-k2.5256Kコンテキスト、強力なコーディング
Ollama (ローカル)qwen3.5 / llama4qwen3.5:9b完全オフライン、APIキー不要

プロバイダーの詳細

OpenAI

最も実績のあるオプション。OpenAIモデルは最高のネイティブ関数呼び出し(ツール呼び出し)サポートを備えており、これはエージェントの信頼性に直接影響します。GPT-5ファミリー(2025年8月以降)はGPT-4に対する大きな世代的飛躍です。 推奨モデル:
  • メイン:gpt-5.4(最新フラッグシップ、2026年3月 — ビルトインコンピュータ使用)またはo3(最高の推論精度)
  • 高速:gpt-5-mini0.25/0.25/2.00 per MTok)またはgpt-5-nano(最安値 0.05/0.05/0.40 per MTok)
  • レガシー:gpt-4.1(APIに残存、1Mコンテキスト、コーディングに適している)— 2026年2月にChatGPTから廃止
推論: LLM_REASONING_EFFORT=mediumを設定します — o-seriesおよびGPT-5.xモデルでネイティブに動作します。o-seriesはmax_tokensの代わりにmax_completion_tokensが必要であり、LiteLLMが自動的に処理します。注意:GPT-5.xは/v1/chat/completionsreasoning_effortとツール呼び出しの組み合わせをサポートしていません — FIM Oneはエージェントツール使用ステップ中に自動的にそれをドロップするため、ワークフローは中断なく実行されます。GPT-5.xはtemperature=1のみをサポートしています — FIM OneはLiteLLMのパラメータフィルタリング(drop_params)を介して自動的にこれを処理します。
モデル入力 $/MTok出力 $/MTokコンテキスト
gpt-5.4$2.50$15.00272K
o3$2.00$8.00200K
o4-mini$1.10$4.40200K
gpt-5-mini$0.25$2.00
gpt-5-nano$0.05$0.40
# .env — OpenAI (本番環境(推論機能付き))
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI (予算推論)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5-nano
LLM_REASONING_EFFORT=medium

Anthropic (Claude)

Claudeは微妙な推論と複雑なマルチステップタスクに優れています。FIM OneはLiteLLM経由で接続し、Anthropicモデルをネイティブ APIを通じて自動的にルーティングします。現在の世代はClaude 4.6(2026年2月)です。 推奨モデル:
  • メイン: claude-sonnet-4-6 (機能とコストのバランスが最適 — 3/3/15 per MTok)
  • 高速: claude-haiku-4-5 (高速で安価 — 1/1/5 per MTok)
  • プレミアム: claude-opus-4-6 (最も高機能、最大出力128K — 5/5/25 per MTok)
ベースURL: https://api.anthropic.com/v1/ 現在のすべてのClaudeモデルは拡張思考をサポートし、200Kのコンテキストウィンドウ(ベータ版では1M)を備えています。 推論: LLM_REASONING_EFFORT=mediumを設定してください — LiteLLMはAnthropicモデルをネイティブ APIを通じてルーティングするため、reasoning_content(拡張思考)は完全に返され、UI の「thinking」ステップで表示されます。拡張思考が有効な場合、Anthropicはtemperature=1を要求します — .envまたはモデル設定でLLM_TEMPERATURE=1を設定してください。詳細は拡張思考を参照してください。
# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium

Google Gemini

Geminiモデルは、Googleの OpenAI互換エンドポイント経由で競争力のある価格で強力なパフォーマンスを提供します。3.x世代(2025年後半以降)は大きな飛躍です — Gemini 3 Flashは2.5 Proを上回りながら、3倍高速です。 推奨モデル:
  • 安定版(GA): gemini-2.5-pro(メイン)+ gemini-2.5-flash(高速)— 本番環境対応
  • 最新版(プレビュー): gemini-3.1-pro-preview(メイン)+ gemini-3-flash-preview(高速)— 最高のパフォーマンス、ただしプレビュー状態
ベースURL: https://generativelanguage.googleapis.com/v1beta/openai/ 推論: reasoning_effortは互換性エンドポイントでサポートされています — LLM_REASONING_EFFORT=mediumを設定すると、すぐに動作します。
モデル入力 $/MTok出力 $/MTokステータス
gemini-3.1-pro-preview$2.00$12.00プレビュー
gemini-3-flash-preview$0.50$3.00プレビュー
gemini-2.5-pro$1.25$10.00安定版GA
gemini-2.5-flash$0.30$2.50安定版GA
gemini-2.5-flash-lite$0.10$0.40安定版GA
# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium

DeepSeek

DeepSeekは市場で最高のコスト/パフォーマンス比を提供しています。V3.2(2025年12月)はチャットと推論の系統を単一モデルに統合し、非常に低い価格設定を実現しています。 モデルID(両方ともV3.2によってサポート):
  • deepseek-chat — 汎用(非思考モード)
  • deepseek-reasoner — 思考の連鎖推論モード、reasoning_contentを返す
ベースURL: https://api.deepseek.com 価格: 0.28/0.28/0.42 per MTok(キャッシュヒット: $0.028)— 圧倒的に最も安いフロンティアクラスのAPI。
V4が間近です(2026年3月): 1Mコンテキストウィンドウを備えた兆パラメータマルチモーダルモデル。起動時に新しいモデルIDが登場する予定です。
# .env — DeepSeek (予算に優しい)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek(推論機能付き)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat

中国国内モデル

すべての主要な中国モデルプロバイダーは、OpenAI互換のエンドポイントを公開しています。これらは中国語タスクに特に強く、競争力のあるローカル価格を提供しています。

Qwen / 通义千問 (Alibaba Cloud)

Qwen 3.5(2026年2月)は最新世代です。397B MoEフラッグシップはMMLU-ProでGPT-5.2を上回ります。
  • Base URL: https://dashscope.aliyuncs.com/compatible-mode/v1
  • International: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Main: qwen3.5-plus(フラッグシップ、1Mコンテキスト)またはqwen3-max(兆パラメータ)
  • Fast: qwen-turbo(高速で低コスト)
  • Reasoning: qwen3-max-thinking(GPT-5.2-Thinkingに相当)
# .env — Qwen
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen-turbo

ChatGLM / 智谱

GLM-5 (2026)は最新のフラッグシップモデルです — 744B総パラメータ(40B活性)、コーディング/エージェントタスクでClaude Opusレベルに近づいています。
  • Base URL: https://open.bigmodel.cn/api/paas/v4
  • Main: glm-5 (フラッグシップ)
  • Fast: glm-4-flash (無料ティア利用可能!)
一部のHTTPクライアントはBase URLに自動的に/v1を追加します。Zhipuは/v4を使用しています — クライアントがOpenAIスタイルのパス接尾辞を強制しないようにしてください。そうしないと404エラーが発生します。
# .env — ChatGLM
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-5
FAST_LLM_MODEL=glm-4-flash

MiniMax

MiniMax M2.5(2026年2月)はオープンウェイトであり、SWE-Benchで80.2%のスコアを獲得しています。
  • Base URL(中国): https://api.minimaxi.com/v1
  • Base URL(グローバル): https://api.minimax.io
  • Main: MiniMax-M2.5
  • Fast: MiniMax-M2.5-Lightning
# .env — MiniMax
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.5
FAST_LLM_MODEL=MiniMax-M2.5-Lightning

Kimi / 月之暗面 (Moonshot)

Kimi K2.5(2026年1月)拥有256K上下文和强大的编码性能(在开源模型中SWE-Bench达到76.8%)。
  • Base URL: https://api.moonshot.ai/v1
  • Model: kimi-k2.5

.env — Kimi

LLM_API_KEY=… LLM_BASE_URL=https://api.moonshot.ai/v1 LLM_MODEL=kimi-k2.5 FAST_LLM_MODEL=kimi-k2.5

---

### ローカルモデル (Ollama)

独自のハードウェア上でモデルを完全に実行 — APIキーは不要で、完全にオフライン。Ollama は OpenAI互換のエンドポイントをそのまま公開しています。オープンソースの状況は劇的に変わりました — Qwen 3.5、Llama 4、GPT-OSS (OpenAI初のオープンウェイトモデル) がすべて利用可能です。

**ベースURL:** `http://localhost:11434/v1`

**VRAM別の推奨モデル:**

| VRAM | メインLLM | 高速LLM | 備考 |
|---|---|---|---|
| 8 GB | `qwen3.5:9b` / `gemma3:4b` | `qwen3.5:4b` | Qwen 3.5 9B はこのティアで最高 |
| 16 GB | `gpt-oss:20b` / `deepseek-r1:14b` | `qwen3.5:9b` | GPT-OSS 20B はエージェント最適化 |
| 24 GB | `qwen3:32b` / `deepseek-r1:32b` | `qwen3.5:9b` | Qwen 3 32B はツール呼び出しに最適 |
| 48 GB+ | `llama3.3:70b` / `gpt-oss:120b` | `qwen3.5:14b` | ほぼ最先端の品質 |

**ツール呼び出しに最適:** Qwen 3/3.5 (32B+)、GLM-4.7、GPT-OSS、Mistral — これらは明示的な関数呼び出しトレーニングを備えています。14B以上のパラメータを持つモデルが信頼できるツール呼び出しの最小要件です。32B以上が強く推奨されます。

<Warning>
**ツール呼び出しの品質はローカルモデル間で大きく異なります。** すべてのモデルが確実に有効な関数呼び出しを生成するわけではありません。本番環境で使用する前に、選択したモデルをエージェントワークフローでテストしてください。一般的なルール: 最小14B、エージェントタスクには32B以上を推奨。
</Warning>

```bash
# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama (エージェント最適化、24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

サードパーティリレープラットフォーム

多くのユーザーは、単一のリレー(プロキシ)サービスを通じて複数のモデルプロバイダーにアクセスします。FIM Oneは、URLパスパターンに基づいて正しいAPIプロトコルを自動的に検出します。LLM_BASE_URLを入力するだけで機能します。

仕組み

ベースURLがサードパーティリレーを指している場合、FIM OneはURLパスを検査してどのプロトコルを使用するかを判定します:
URLパスに含まれる内容検出されたプロトコル認証ヘッダー主な利点
/v1(またはマッチなし)OpenAI互換Authorization: Bearerユニバーサルフォールバック、ほとんどのリレーで動作
/claudeまたは/anthropicAnthropic ネイティブx-api-key完全なreasoning_content(拡張思考)サポート
/geminiGoogle ネイティブx-goog-api-keyネイティブGeminiパラメータ変換
解決順序: 明示的なDBプロバイダフィールド > ドメインマッチ(公式API) > URLパスヒント(リレープラットフォーム) > OpenAI互換フォールバック。

例:1つのリレー、3つのプロトコル

単一のリレーアカウントで、ベースURLパスを変更するだけで異なるプロバイダーにアクセスできます:
# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — リレイ経由のGPT(OpenAI互換プロトコル)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
追加の設定は不要です。認証ヘッダー、パラメータ形式、レスポンス解析はすべて自動的に切り替わります。

ステップバイステップ: パス検出の仕組み

リレーを設定する際に内部で何が起こるかを示す具体的な例を以下に示します:
# .env — リレープラットフォーム経由の Claude
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
  1. FIM One は URL パスの /claude を認識 → Anthropic ネイティブプロトコルを検出
  2. モデルは LiteLLM ルーティング用に anthropic/claude-sonnet-4-6 としてプレフィックス付与
  3. リクエストは Anthropic の /v1/messages フォーマットと x-api-key 認証ヘッダーを使用
  4. reasoning_effort=medium は Anthropic のネイティブ thinking パラメータに変換(OpenAI の reasoning_effort ではない)
同じリレー URL が https://my-relay.example.com/v1 だった場合、/claude ヒントが欠落するため、FIM One は OpenAI 互換プロトコルにフォールバックし、Claude ネイティブエンドポイントに /v1/chat/completions リクエストを送信してしまい、失敗します。URL パスが重要です。

これが重要な理由

  • Anthropic ネイティブエンドポイントは、適切な reasoning_content サポート(UI に表示される拡張思考)、正しいツール呼び出し形式、および x-api-key 認証を提供します。これらの機能は OpenAI 互換の変換を使用する場合に失われます。
  • Google ネイティブエンドポイントは、ネイティブ Gemini パラメータと x-goog-api-key 認証を提供します。
  • OpenAI 互換は汎用フォールバックであり、任意のリレーで機能しますが、プロバイダー固有の機能(拡張思考出力など)は利用できない場合があります。
リレープラットフォームが非標準のパス規則を使用している場合(例えば、URL に /claude/anthropic がない場合)、FIM One は OpenAI 互換プロトコルにフォールバックします。これはほとんどのユースケースで機能します。完全なネイティブプロトコルサポートについては、管理者モデル設定 UI を通じて provider フィールドを明示的に設定できます。

設定戦略

Main vs Fast: 分割するタイミング

  • 分割する メインモデルが高価または遅い場合(例:gpt-5.4 + gpt-5-nano)。DAG モードは多くの並列ステップを実行します — より安価な高速モデルを使用することで、大幅なコスト削減が実現します。
  • 同じモデル モデルが既に安価な場合(例:両方に deepseek-chat)。2つのモデルを管理するオーバーヘッドは価値がありません。

推論を有効にするタイミング

  • 有効にする 複雑な分析タスク、複数ステップの計画、慎重な判断が必要なタスク
  • 無効にする(デフォルト)ルーチンタスク、シンプルなQ&A、コスト効率を重視するデプロイメント
  • 推論は通常、リクエストあたりのコストを2~5倍増加させます — medium の努力レベルが良い出発点です

コンテキストウィンドウのサイジング

LLM_CONTEXT_SIZE をモデルの実際のウィンドウに合わせて設定してください:
モデルコンテキストウィンドウ
GPT-5.4272K
o3 / o4-mini200K
Claude Sonnet 4.6200K (1M ベータ)
Gemini 2.5 Pro1M
Gemini 3.1 Pro1M
DeepSeek V3.2128K
Qwen 3.5 Plus1M
Local (Ollama)4K–128K (変動)
ローカルモデルの場合、LLM_CONTEXT_SIZELLM_MAX_OUTPUT_TOKENS の両方を明示的に設定してください — デフォルト値はローカルモデルがサポートできないクラウドスケールのコンテキストウィンドウを想定しています。