メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.fim.ai/llms.txt

Use this file to discover all available pages before exploring further.

FIM One は、LLM プロバイダーとモデルを管理するための機能豊富な管理 UI を提供します。このガイドでは、プロバイダーの追加、個別モデルの設定、高度な構造化出力設定の調整、およびワンクリック切り替え用のモデルグループへの整理方法について説明します。 ENV ベースの設定(管理 UI なし)については、環境変数を参照してください。モデル選択の推奨事項については、推奨モデルを参照してください。

アーキテクチャ: プロバイダー、モデル、グループ

FIM One は LLM 設定を 3 つのレベルで整理します:
レベル表現するもの
プロバイダー共有認証情報のセット (API キー + ベース URL)。1 つのプロバイダーは多くのモデルをホストできます。“My OpenAI Account”、“Company Bedrock Relay”
モデルプロバイダー下の個別モデル。独自の表示名、API モデル識別子、および詳細設定があります。“GPT-4o”、“Claude Sonnet 4.6”
モデルグループロール (General / Fast / Reasoning) にモデルを割り当てる名前付きプリセット。グループを有効化するとすべてのロールが一度に切り替わります。“Production (OpenAI)”、“Budget (DeepSeek)“
Provider: "My OpenAI Account"
  ├── Model: "GPT-4o"         (model_name: gpt-4o)
  ├── Model: "GPT-5 Nano"     (model_name: gpt-5-nano)
  └── Model: "o3"             (model_name: o3)

Provider: "Anthropic Direct"
  ├── Model: "Claude Sonnet"   (model_name: claude-sonnet-4-6)
  └── Model: "Claude Haiku"    (model_name: claude-haiku-4-5)

Group: "Production"
  ├── General → GPT-4o
  ├── Fast    → GPT-5 Nano
  └── Reasoning → o3

プロバイダーの追加

1

モデルページを開く

Admin(サイドバー)に移動し、Models タブを選択します。
2

プロバイダーを追加をクリック

プロバイダーセクションの右上にある Add Provider ボタンをクリックします。
3

プリセットを選択するか、カスタムエンドポイントを使用

ダイアログには、一般的なプロバイダーのプリセットボタンが表示されます:OpenAIAnthropic (Claude)Google GeminiDeepSeekMistral AI、および OpenAI Compatible(カスタムエンドポイント)。プリセットをクリックすると、プロバイダー名とベースURLが自動入力されます。プロバイダーがリストにない場合(例:サードパーティリレー、Ollama、またはその他のOpenAI互換エンドポイント)は、OpenAI Compatible を選択してください。
4

認証情報を入力

必須フィールドに入力します:
  • Provider Name — わかりやすいラベル(例:「My OpenAI Account」)。これは参照用です。
  • Base URL — APIエンドポイント。プリセットは自動的に入力されます。カスタムエンドポイントの場合は、完全なURL(例:Ollamaの場合は http://localhost:11434/v1)を入力します。
  • API Key — プロバイダーのAPIキー。ローカルモデル(Ollama)の場合は、空でない任意の文字列(例:ollama)を入力します。
5

保存

Create をクリックします。プロバイダーがリストに表示され、その下にモデルを追加する準備ができます。
同じサービスに対して複数のプロバイダーを作成できます。例えば、異なるAPIキーを持つ2つの「OpenAI」プロバイダー(別々の請求アカウント用)、または異なるベースURLを持つ「Anthropic (Direct)」と「Anthropic (via Bedrock)」などです。

モデルの追加

1

プロバイダーを展開する

モデルページで、既存のプロバイダーの横にあるシェブロンをクリックして展開し、そのモデルを表示します。
2

モデルを追加をクリック

展開されたプロバイダーの下に表示されるモデルを追加ボタンをクリックします。
3

モデルの詳細を入力

2つの必須フィールドに入力します:
  • 表示名 — UI に表示される人間が読める名前 (例: “GPT-4o”、“Claude Sonnet”)。任意の名前を付けることができます。
  • モデル名 (API) — API に送信される正確なモデル識別子 (例: gpt-4oclaude-sonnet-4-6deepseek-chat)。プロバイダーが期待する内容と一致する必要があります。
4

高度な設定を構成する (オプション)

高度トグルをクリックして、追加の設定を表示します: 最大出力トークン、コンテキストサイズ、温度、ネイティブ関数呼び出し、JSON モード。各設定の詳細については、下の高度な設定セクションを参照してください。
5

保存

作成をクリックします。モデルがそのプロバイダーの下に表示され、モデルグループへの割り当てに使用できるようになります。

高度な設定

各モデルには、FIM One が構造化出力抽出のためにプロバイダーの API とどのようにやり取りするかを制御する高度な設定があります。これらの設定は、モデル作成/編集ダイアログの Advanced トグルの下にあります。

ネイティブ関数呼び出し

設定名: ネイティブ関数呼び出し (tool_choice_enabled として保存) デフォルト: ON FIM One が構造化出力抽出のために強制的な tool_choice を使用するかどうかを制御します。これは構造化出力の劣化チェーンのレベル 1 です — モデルがサポートしている場合の最も信頼性の高い方法です。 無効にする場合:
  • モデルが "tool_choice 'specified' is incompatible with thinking enabled" のようなエラーを返す場合 — 常時オンの思考モデル (DeepSeek R1、Kimi K2.5) で一般的
  • 構造化出力リクエストが一貫して遅い場合 (呼び出しごとに約 10 秒のペナルティがあり、その後 JSON Mode へのフォールバックが続く)
無効にした場合の効果: FIM One はレベル 1 (ネイティブ関数呼び出し) をスキップし、構造化出力のレベル 2 (JSON Mode) から開始します。ReAct エージェントのツール呼び出しは完全に影響を受けません — tool_choice="auto" を使用し、この設定に関係なくすべてのモデルで機能します。
この設定は、構造化出力抽出に使用される強制的なツール選択 (DAG プランニング、スキーマ注釈) にのみ影響します。ReAct エージェントには影響を与えません。ReAct エージェントは tool_choice="auto" を使用してツール呼び出しのタイミングを自由に決定します。
技術的な詳細については、LLM プロバイダー互換性 — tool_choice_enabled を参照してください。

JSON Mode

Setting name: JSON Mode (stored as json_mode_enabled) Default: ON Controls whether FIM One uses response_format=json_object for structured output. This is Level 2 in the degradation chain. When to disable:
  • Your provider rejects assistant message prefill — primarily AWS Bedrock relays, which throw "This model does not support assistant message prefill"
Effect when disabled: FIM One skips Level 2 (JSON Mode) and falls to Level 3 (plain text extraction). Modern models produce valid JSON from prompt instructions alone, so there is typically no quality loss. For technical details, see LLM Provider Compatibility — json_mode_enabled.

Temperature

デフォルト: 0.7(未設定の場合、グローバル設定から継承) モデル出力のランダム性を制御します。範囲:0(決定的)~2(高度に創造的)。
Anthropicモデルで推論/拡張思考が有効になっている場合、温度は自動的にシステムによって1.0に強制されます。手動で設定する必要はありません。

最大出力トークン

モデルが単一の応答で生成できるトークンの最大数。システムデフォルト(64,000)を使用する場合は空白のままにします。VRAM が限定されたローカルモデルの場合は、これを明示的に低い値(例:8192)に設定します。

コンテキストサイズ

モデルのコンテキストウィンドウサイズ(トークン単位)。システムデフォルト(128,000)を使用する場合は空白のままにしてください。ローカルモデルの場合、モデルと利用可能なメモリに応じて、通常4K~32Kの範囲でモデルの実際の機能に合わせて設定してください。

推奨設定

ほとんどのモデルはデフォルト設定(両方のトグルがON)で正しく動作します。エラーが発生した場合や不要なレイテンシーが生じた場合にのみ調整してください。 以下の表は、一般的なプロバイダーとモデルをカバーしています。データはUniAPI機能タグから取得され、2026-03-22時点でのランタイム動作に対して検証されています。モデル機能は頻繁に変更されます。エラーが発生した場合は、プロバイダーの最新ドキュメントを確認してください。

クイックルール

  • Native FC ON 関数呼び出しをサポートするモデル向け(ほとんどの最新モデル)
  • Native FC OFF 強制的な tool_choice を拒否する思考常時オンモデル向け
  • JSON Mode ON ほとんどのモデル向け(安全なデフォルト)
  • JSON Mode OFF AWS Bedrockリレー向けのみ(プリフィル拒否)

プロバイダー別設定マトリックス

OpenAI
ModelRoleContextMax OutputNative FCJSON ModeNotes
gpt-5.4General1,050K128KONONFunction calling + structured output + reasoning
gpt-5.4-miniFast400K128KONONFunction calling + structured output + reasoning
o3-proReasoning200K100KONONReasoning model; FC works with auto-disabled thinking
Anthropic (Claude)
ModelRoleContextMax OutputNative FCJSON ModeNotes
claude-sonnet-4-6General1,000K64KONONFunction calling + reasoning; thinking auto-disabled for FC
claude-haiku-4-5Fast200K64KONONFunction calling supported
claude-opus-4-6Reasoning1,000K128KONONFunction calling + reasoning; thinking auto-disabled for FC
Google Gemini
ModelRoleContextMax OutputNative FCJSON ModeNotes
gemini-3.1-pro-previewGeneral1,048K65KONONLatest preview; successor to deprecated gemini-3-pro-preview
gemini-2.5-proFast1,048K65KONONStable GA; production-ready
gemini-3.1-pro-previewReasoning1,048K65KONONThinking support with configurable thinking_level
DeepSeek
ModelRoleContextMax OutputNative FCJSON ModeNotes
deepseek-chatGeneral128K8KONONV3.2 non-thinking mode; FC + JSON mode supported
deepseek-chatFast128K8KONONSame model as General; only two official API model IDs exist
deepseek-reasonerReasoning128K64KOFFONThinking always-on; forced tool_choice rejected; 64K includes CoT
xAI (Grok)
ModelRoleContextMax OutputNative FCJSON ModeNotes
grok-4-1-fast-non-reasoningGeneral2,000K30KONONFunction calling + structured output
grok-3-mini-fastFast131K131KONONFunction calling + structured output + reasoning; 131K is shared context budget
grok-4-1-fast-reasoningReasoning2,000K30KONONFunction calling + structured output + reasoning
Qwen (Alibaba Cloud)
ModelRoleContextMax OutputNative FCJSON ModeNotes
qwen3.5-plusGeneral1,000K64KONONFunction calling + structured output
qwen-turbo-latestFast1,000K16KONONFC likely supported (UniAPI tags incomplete)
qwq-plusReasoning131K16KONONReasoning + function calling; thinking toggleable via enable_thinking
Zhipu (GLM)
ModelRoleContextMax OutputNative FCJSON ModeNotes
glm-4.7General200K65KOFFONForced tool_choice not supported (auto only); strong coding
glm-4.7-flashxFast200K65KOFFONHigher throughput variant; free glm-4.7-flash also available
glm-5Reasoning200K65KOFFON745B MoE flagship; built-in reasoning (no API toggle)
Moonshot (Kimi)
ModelRoleContextMax OutputNative FCJSON ModeNotes
kimi-k2.5General262K65KOFFONFC works but forced tool_choice rejected when thinking is on (default)
kimi-k2Fast131K32KONONNon-thinking; native FC works (verified in production)
kimi-k2-thinkingReasoning131KOFFONThinking always-on; forced tool_choice rejected
MiniMax
ModelRoleContextMax OutputNative FCJSON ModeNotes
MiniMax-M2.7General205K131KONONLatest (Mar 2026); function calling + structured output
MiniMax-M2.5Fast197K65KONONFunction calling + structured output; cheaper cache read ($0.03/MTok)
MiniMax-M2.7-highspeedFast (speed)205K131KONON2x throughput (~100 tok/s), 2x cost
MiniMax-M2.5-highspeedFast (speed)197K65KONON2x throughput (~100 tok/s), 2x cost
ByteDance (Doubao)
ModelRoleContextMax OutputNative FCJSON ModeNotes
doubao-seed-2-0-proGeneral256K128KONONFunction calling + structured output + reasoning
doubao-seed-1-6Fast256K16KONONFunction calling + structured output + reasoning
doubao-seed-1-6Reasoning256K16KONONSupports reasoning_effort (minimal/low/medium/high)
Meta (Llama)
ModelRoleContextMax OutputNative FCJSON ModeNotes
llama-3.3-70bGeneral131K16KONONFC + JSON mode depend on hosting provider; max output varies (2K–16K)
Max Outputの「—」について は、プロバイダーが制限を報告しなかったことを意味します。実際には、これらのモデルは通常4K~16Kの出力トークンをサポートしています。特定の値が必要な場合は、モデルの詳細設定で Max Output Tokens を明示的に設定してください。
診断方法: アプリケーションログで structured_llm_call: native_fc call raised 警告を確認してください。これらの警告の後に JSON Mode 抽出が成功している場合、そのモデルはネイティブ関数呼び出しの恩恵を受けていません。その場合、そのモデルの Native Function Calling を無効にして、無駄な API 呼び出しと構造化出力リクエストごとの約10秒のレイテンシペナルティを排除してください。
モデルの機能はプロバイダーが API を更新するにつれて頻繁に変わります。上記の推奨事項は 2026-03-26 のデータ(UniAPI 機能タグ + 本番環境ランタイム検証)に基づいています。以前に機能していたモデルがエラーを返し始めた場合は、プロバイダーの変更ログで破壊的な変更を確認してください。

モデルグループ

モデルグループを使用すると、モデルを特定のロールに割り当て、1回のクリックで設定を切り替えることができます。

ロール

FIM One は 3 つのモデルロールを使用します。各ロールは実行パイプラインで異なる目的を果たします:
ロール用途推奨事項
General計画、分析、ReAct エージェント、DAG ステップ実行(デフォルト)最も高性能なモデル(例: gpt-4oclaude-sonnet-4-6
Fastmodel_hint="fast" DAG ステップ、コンテキスト圧縮、履歴要約速度とコストに最適化(例: gpt-5-nanodeepseek-chat)。割り当てられていない場合は General にフォールバック
Reasoningmodel_hint="reasoning" DAG ステップ、ドメイン段階的 ReAct(法律/医療/金融)強力な推論モデル(例: o3deepseek-reasoner)。割り当てられていない場合は General にフォールバック

モデルグループの作成

1

グループセクションを開く

Admin > Models ページで、Model Groups セクションまでスクロールします。
2

グループを追加をクリック

Add Group ボタンをクリックします。
3

グループに名前を付ける

わかりやすい名前を入力します(例:「Production (OpenAI)」、「Budget (DeepSeek)」、「Local Dev」)。
4

ロールにモデルを割り当てる

各ロール(General、Fast、Reasoning)について、ドロップダウンからモデルを選択します。ドロップダウンには、アクティブなプロバイダーからのすべてのアクティブなモデルが表示され、プロバイダー名でグループ化されています。ロールを未割り当てのままにすることができます。その場合、General モデルにフォールバックします(General も未割り当ての場合は、ENV で設定されたモデルにフォールバックします)。
5

保存

Create をクリックします。グループがアクティベーション可能な状態になります。

グループの有効化

モデルグループを有効化するには、モデルページのドロップダウンまたは有効化コントロールを使用します。一度に1つのグループのみをアクティブにできます。グループを有効化すると、そのモデル割り当てがすべての新しい会話に直ちに適用されます。 現在のグループを無効化する(ENV設定されたモデルにフォールバック)には、無効化オプションを選択します。
アクティブなモデルグループを切り替えると、システム全体のすべての新しい会話に影響します。進行中の既存の会話は、開始時にアクティブだったモデルを使用し続けます。

ドメイン対応モデルエスカレーション

オートルーターが専門ドメイン — 法律医療、または金融 — を検出すると、システムは通常のロール割り当てを超えてモデル選択を自動的にエスカレートします:
  • ReAct モード: 一般モデルは推論モデルregistry.get_by_role("reasoning"))に置き換えられます。これは、モデルグループの推論スロットが DAG model_hint="reasoning" ステップだけでなく、ドメイン固有の ReAct タスクのエスカレーションターゲットとしても機能することを意味します。
  • DAG モード: ドメインコンテキストはプランナープロンプトに注入され、専門家の精度が必要なステップに model_hint="reasoning" を割り当てるようガイドします。
このエスカレーションは自動的に行われ、アクティブなモデルグループに推論モデルが割り当てられている(または REASONING_LLM_MODEL 環境変数経由で)以外の設定は不要です。 関連する環境変数:
変数デフォルト説明
DAG_CITATION_VERIFICATIONtrue法律/医療/金融コンテンツのステップ後引用検証を有効にします。正規表現を使用して引用を抽出し、LLM判定を使用して精度を検証します。
DAG_STRUCTURED_CONTEXT_MULTIPLIER3.0DAG 依存関係コンテキストの構造化コンテンツ(引用、テーブル、コードブロック)の切り詰め予算乗数。値が高いほど、ステップ間でより多くの構造化データが保持されます。
ワークロードが法律、医療、または金融クエリを含む場合は、推論モデルが強力な推論者(例:o3claude-opus-4-6deepseek-reasoner)であることを確認してください。自動エスカレーションはこのスロットがドメイン重要な精度要件を処理できるモデルで満たされていることに依存しています。

ENV フォールバック

アクティブな管理者設定モデルグループがない場合、FIM One は ENV ベースの設定にフォールバックします:
ロールENV 変数
GeneralLLM_MODEL
FastFAST_LLM_MODEL (LLM_MODEL にフォールバック)
ReasoningREASONING_LLM_MODEL (LLM_MODEL にフォールバック)
管理者設定モデルは常に ENV 変数よりも優先されます。システムヘルスチェックは両方のソースを考慮します — アクティブなモデルグループまたは有効な ENV 変数のいずれかが設定されている限り、LLM サブシステムは正常と報告されます。 完全な ENV リファレンスについては、環境変数を参照してください。

エクスポートとインポート

モデルページでは、プロバイダーとモデルの設定全体(プロバイダー、モデル、グループ)をJSONファイルとしてエクスポートし、別のインスタンスにインポートできます。これは以下の場合に便利です:
  • 開発環境、ステージング環境、本番環境間での設定の移行
  • チームメンバーと既知の良好なモデル設定を共有する
  • 変更を加える前に設定をバックアップする
エクスポートされた設定には、APIキーは含まれません。インポート後、各プロバイダーを編集して適切なAPIキーを入力する必要があります。