FIM One は、LLM プロバイダーとモデルを管理するための機能豊富な管理 UI を提供します。このガイドでは、プロバイダーの追加、個別モデルの設定、高度な構造化出力設定の調整、およびワンクリック切り替え用のモデルグループへの整理方法について説明します。 ENV ベースの設定(管理 UI なし)については、環境変数を参照してください。モデル選択の推奨事項については、推奨モデルを参照してください。Documentation Index
Fetch the complete documentation index at: https://docs.fim.ai/llms.txt
Use this file to discover all available pages before exploring further.
アーキテクチャ: プロバイダー、モデル、グループ
FIM One は LLM 設定を 3 つのレベルで整理します:| レベル | 表現するもの | 例 |
|---|---|---|
| プロバイダー | 共有認証情報のセット (API キー + ベース URL)。1 つのプロバイダーは多くのモデルをホストできます。 | “My OpenAI Account”、“Company Bedrock Relay” |
| モデル | プロバイダー下の個別モデル。独自の表示名、API モデル識別子、および詳細設定があります。 | “GPT-4o”、“Claude Sonnet 4.6” |
| モデルグループ | ロール (General / Fast / Reasoning) にモデルを割り当てる名前付きプリセット。グループを有効化するとすべてのロールが一度に切り替わります。 | “Production (OpenAI)”、“Budget (DeepSeek)“ |
プロバイダーの追加
プリセットを選択するか、カスタムエンドポイントを使用
ダイアログには、一般的なプロバイダーのプリセットボタンが表示されます:OpenAI、Anthropic (Claude)、Google Gemini、DeepSeek、Mistral AI、および OpenAI Compatible(カスタムエンドポイント)。プリセットをクリックすると、プロバイダー名とベースURLが自動入力されます。プロバイダーがリストにない場合(例:サードパーティリレー、Ollama、またはその他のOpenAI互換エンドポイント)は、OpenAI Compatible を選択してください。
認証情報を入力
必須フィールドに入力します:
- Provider Name — わかりやすいラベル(例:「My OpenAI Account」)。これは参照用です。
- Base URL — APIエンドポイント。プリセットは自動的に入力されます。カスタムエンドポイントの場合は、完全なURL(例:Ollamaの場合は
http://localhost:11434/v1)を入力します。 - API Key — プロバイダーのAPIキー。ローカルモデル(Ollama)の場合は、空でない任意の文字列(例:
ollama)を入力します。
モデルの追加
モデルの詳細を入力
2つの必須フィールドに入力します:
- 表示名 — UI に表示される人間が読める名前 (例: “GPT-4o”、“Claude Sonnet”)。任意の名前を付けることができます。
- モデル名 (API) — API に送信される正確なモデル識別子 (例:
gpt-4o、claude-sonnet-4-6、deepseek-chat)。プロバイダーが期待する内容と一致する必要があります。
高度な設定を構成する (オプション)
高度トグルをクリックして、追加の設定を表示します: 最大出力トークン、コンテキストサイズ、温度、ネイティブ関数呼び出し、JSON モード。各設定の詳細については、下の高度な設定セクションを参照してください。
高度な設定
各モデルには、FIM One が構造化出力抽出のためにプロバイダーの API とどのようにやり取りするかを制御する高度な設定があります。これらの設定は、モデル作成/編集ダイアログの Advanced トグルの下にあります。ネイティブ関数呼び出し
設定名: ネイティブ関数呼び出し (tool_choice_enabled として保存)
デフォルト: ON
FIM One が構造化出力抽出のために強制的な tool_choice を使用するかどうかを制御します。これは構造化出力の劣化チェーンのレベル 1 です — モデルがサポートしている場合の最も信頼性の高い方法です。
無効にする場合:
- モデルが
"tool_choice 'specified' is incompatible with thinking enabled"のようなエラーを返す場合 — 常時オンの思考モデル (DeepSeek R1、Kimi K2.5) で一般的 - 構造化出力リクエストが一貫して遅い場合 (呼び出しごとに約 10 秒のペナルティがあり、その後 JSON Mode へのフォールバックが続く)
tool_choice="auto" を使用し、この設定に関係なくすべてのモデルで機能します。
この設定は、構造化出力抽出に使用される強制的なツール選択 (DAG プランニング、スキーマ注釈) にのみ影響します。ReAct エージェントには影響を与えません。ReAct エージェントは
tool_choice="auto" を使用してツール呼び出しのタイミングを自由に決定します。JSON Mode
Setting name: JSON Mode (stored asjson_mode_enabled)
Default: ON
Controls whether FIM One uses response_format=json_object for structured output. This is Level 2 in the degradation chain.
When to disable:
- Your provider rejects assistant message prefill — primarily AWS Bedrock relays, which throw
"This model does not support assistant message prefill"
Temperature
デフォルト: 0.7(未設定の場合、グローバル設定から継承) モデル出力のランダム性を制御します。範囲:0(決定的)~2(高度に創造的)。Anthropicモデルで推論/拡張思考が有効になっている場合、温度は自動的にシステムによって1.0に強制されます。手動で設定する必要はありません。
最大出力トークン
モデルが単一の応答で生成できるトークンの最大数。システムデフォルト(64,000)を使用する場合は空白のままにします。VRAM が限定されたローカルモデルの場合は、これを明示的に低い値(例:8192)に設定します。コンテキストサイズ
モデルのコンテキストウィンドウサイズ(トークン単位)。システムデフォルト(128,000)を使用する場合は空白のままにしてください。ローカルモデルの場合、モデルと利用可能なメモリに応じて、通常4K~32Kの範囲でモデルの実際の機能に合わせて設定してください。推奨設定
ほとんどのモデルはデフォルト設定(両方のトグルがON)で正しく動作します。エラーが発生した場合や不要なレイテンシーが生じた場合にのみ調整してください。 以下の表は、一般的なプロバイダーとモデルをカバーしています。データはUniAPI機能タグから取得され、2026-03-22時点でのランタイム動作に対して検証されています。モデル機能は頻繁に変更されます。エラーが発生した場合は、プロバイダーの最新ドキュメントを確認してください。クイックルール
- Native FC ON 関数呼び出しをサポートするモデル向け(ほとんどの最新モデル)
- Native FC OFF 強制的な
tool_choiceを拒否する思考常時オンモデル向け - JSON Mode ON ほとんどのモデル向け(安全なデフォルト)
- JSON Mode OFF AWS Bedrockリレー向けのみ(プリフィル拒否)
プロバイダー別設定マトリックス
OpenAI| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
gpt-5.4 | General | 1,050K | 128K | ON | ON | Function calling + structured output + reasoning |
gpt-5.4-mini | Fast | 400K | 128K | ON | ON | Function calling + structured output + reasoning |
o3-pro | Reasoning | 200K | 100K | ON | ON | Reasoning model; FC works with auto-disabled thinking |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
claude-sonnet-4-6 | General | 1,000K | 64K | ON | ON | Function calling + reasoning; thinking auto-disabled for FC |
claude-haiku-4-5 | Fast | 200K | 64K | ON | ON | Function calling supported |
claude-opus-4-6 | Reasoning | 1,000K | 128K | ON | ON | Function calling + reasoning; thinking auto-disabled for FC |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
gemini-3.1-pro-preview | General | 1,048K | 65K | ON | ON | Latest preview; successor to deprecated gemini-3-pro-preview |
gemini-2.5-pro | Fast | 1,048K | 65K | ON | ON | Stable GA; production-ready |
gemini-3.1-pro-preview | Reasoning | 1,048K | 65K | ON | ON | Thinking support with configurable thinking_level |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
deepseek-chat | General | 128K | 8K | ON | ON | V3.2 non-thinking mode; FC + JSON mode supported |
deepseek-chat | Fast | 128K | 8K | ON | ON | Same model as General; only two official API model IDs exist |
deepseek-reasoner | Reasoning | 128K | 64K | OFF | ON | Thinking always-on; forced tool_choice rejected; 64K includes CoT |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
grok-4-1-fast-non-reasoning | General | 2,000K | 30K | ON | ON | Function calling + structured output |
grok-3-mini-fast | Fast | 131K | 131K | ON | ON | Function calling + structured output + reasoning; 131K is shared context budget |
grok-4-1-fast-reasoning | Reasoning | 2,000K | 30K | ON | ON | Function calling + structured output + reasoning |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
qwen3.5-plus | General | 1,000K | 64K | ON | ON | Function calling + structured output |
qwen-turbo-latest | Fast | 1,000K | 16K | ON | ON | FC likely supported (UniAPI tags incomplete) |
qwq-plus | Reasoning | 131K | 16K | ON | ON | Reasoning + function calling; thinking toggleable via enable_thinking |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
glm-4.7 | General | 200K | 65K | OFF | ON | Forced tool_choice not supported (auto only); strong coding |
glm-4.7-flashx | Fast | 200K | 65K | OFF | ON | Higher throughput variant; free glm-4.7-flash also available |
glm-5 | Reasoning | 200K | 65K | OFF | ON | 745B MoE flagship; built-in reasoning (no API toggle) |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
kimi-k2.5 | General | 262K | 65K | OFF | ON | FC works but forced tool_choice rejected when thinking is on (default) |
kimi-k2 | Fast | 131K | 32K | ON | ON | Non-thinking; native FC works (verified in production) |
kimi-k2-thinking | Reasoning | 131K | — | OFF | ON | Thinking always-on; forced tool_choice rejected |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
MiniMax-M2.7 | General | 205K | 131K | ON | ON | Latest (Mar 2026); function calling + structured output |
MiniMax-M2.5 | Fast | 197K | 65K | ON | ON | Function calling + structured output; cheaper cache read ($0.03/MTok) |
MiniMax-M2.7-highspeed | Fast (speed) | 205K | 131K | ON | ON | 2x throughput (~100 tok/s), 2x cost |
MiniMax-M2.5-highspeed | Fast (speed) | 197K | 65K | ON | ON | 2x throughput (~100 tok/s), 2x cost |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
doubao-seed-2-0-pro | General | 256K | 128K | ON | ON | Function calling + structured output + reasoning |
doubao-seed-1-6 | Fast | 256K | 16K | ON | ON | Function calling + structured output + reasoning |
doubao-seed-1-6 | Reasoning | 256K | 16K | ON | ON | Supports reasoning_effort (minimal/low/medium/high) |
| Model | Role | Context | Max Output | Native FC | JSON Mode | Notes |
|---|---|---|---|---|---|---|
llama-3.3-70b | General | 131K | 16K | ON | ON | FC + JSON mode depend on hosting provider; max output varies (2K–16K) |
Max Outputの「—」について は、プロバイダーが制限を報告しなかったことを意味します。実際には、これらのモデルは通常4K~16Kの出力トークンをサポートしています。特定の値が必要な場合は、モデルの詳細設定で Max Output Tokens を明示的に設定してください。
モデルグループ
モデルグループを使用すると、モデルを特定のロールに割り当て、1回のクリックで設定を切り替えることができます。ロール
FIM One は 3 つのモデルロールを使用します。各ロールは実行パイプラインで異なる目的を果たします:| ロール | 用途 | 推奨事項 |
|---|---|---|
| General | 計画、分析、ReAct エージェント、DAG ステップ実行(デフォルト) | 最も高性能なモデル(例: gpt-4o、claude-sonnet-4-6) |
| Fast | model_hint="fast" DAG ステップ、コンテキスト圧縮、履歴要約 | 速度とコストに最適化(例: gpt-5-nano、deepseek-chat)。割り当てられていない場合は General にフォールバック |
| Reasoning | model_hint="reasoning" DAG ステップ、ドメイン段階的 ReAct(法律/医療/金融) | 強力な推論モデル(例: o3、deepseek-reasoner)。割り当てられていない場合は General にフォールバック |
モデルグループの作成
ロールにモデルを割り当てる
各ロール(General、Fast、Reasoning)について、ドロップダウンからモデルを選択します。ドロップダウンには、アクティブなプロバイダーからのすべてのアクティブなモデルが表示され、プロバイダー名でグループ化されています。ロールを未割り当てのままにすることができます。その場合、General モデルにフォールバックします(General も未割り当ての場合は、ENV で設定されたモデルにフォールバックします)。
グループの有効化
モデルグループを有効化するには、モデルページのドロップダウンまたは有効化コントロールを使用します。一度に1つのグループのみをアクティブにできます。グループを有効化すると、そのモデル割り当てがすべての新しい会話に直ちに適用されます。 現在のグループを無効化する(ENV設定されたモデルにフォールバック)には、無効化オプションを選択します。ドメイン対応モデルエスカレーション
オートルーターが専門ドメイン — 法律、医療、または金融 — を検出すると、システムは通常のロール割り当てを超えてモデル選択を自動的にエスカレートします:- ReAct モード: 一般モデルは推論モデル(
registry.get_by_role("reasoning"))に置き換えられます。これは、モデルグループの推論スロットが DAGmodel_hint="reasoning"ステップだけでなく、ドメイン固有の ReAct タスクのエスカレーションターゲットとしても機能することを意味します。 - DAG モード: ドメインコンテキストはプランナープロンプトに注入され、専門家の精度が必要なステップに
model_hint="reasoning"を割り当てるようガイドします。
REASONING_LLM_MODEL 環境変数経由で)以外の設定は不要です。
関連する環境変数:
| 変数 | デフォルト | 説明 |
|---|---|---|
DAG_CITATION_VERIFICATION | true | 法律/医療/金融コンテンツのステップ後引用検証を有効にします。正規表現を使用して引用を抽出し、LLM判定を使用して精度を検証します。 |
DAG_STRUCTURED_CONTEXT_MULTIPLIER | 3.0 | DAG 依存関係コンテキストの構造化コンテンツ(引用、テーブル、コードブロック)の切り詰め予算乗数。値が高いほど、ステップ間でより多くの構造化データが保持されます。 |
ENV フォールバック
アクティブな管理者設定モデルグループがない場合、FIM One は ENV ベースの設定にフォールバックします:| ロール | ENV 変数 |
|---|---|
| General | LLM_MODEL |
| Fast | FAST_LLM_MODEL (LLM_MODEL にフォールバック) |
| Reasoning | REASONING_LLM_MODEL (LLM_MODEL にフォールバック) |
エクスポートとインポート
モデルページでは、プロバイダーとモデルの設定全体(プロバイダー、モデル、グループ)をJSONファイルとしてエクスポートし、別のインスタンスにインポートできます。これは以下の場合に便利です:- 開発環境、ステージング環境、本番環境間での設定の移行
- チームメンバーと既知の良好なモデル設定を共有する
- 変更を加える前に設定をバックアップする