Modèles recommandés

FIM One est agnostique du fournisseur — tout point de terminaison compatible OpenAI fonctionne. Cette page vous aide à choisir la meilleure combinaison de modèles pour votre cas d’usage. Pour les détails de configuration, consultez Variables d’environnement.

Comment FIM One utilise les modèles

FIM One a trois rôles de modèle :

Rôle	Variable d’environnement	Utilisé pour
General	`LLM_MODEL`	Planification, analyse, agent ReAct, raisonnement complexe
Fast	`FAST_LLM_MODEL`	Exécution des étapes DAG, compaction de contexte (moins cher, plus rapide)
Reasoning	`REASONING_LLM_MODEL`	Analyse approfondie, planification complexe, preuves mathématiques

Fast et Reasoning reviennent à General s’ils ne sont pas configurés. Pour les déploiements en production, la division en au moins deux modèles (General + Fast) offre le meilleur équilibre coût/qualité. Ces rôles peuvent être configurés via des variables d’environnement ou via la fonctionnalité Model Groups de l’interface d’administration, qui permet de basculer en un clic entre des ensembles de modèles. Consultez Gestion des modèles pour le guide complet de l’interface d’administration.

Matrice de sélection rapide

Fournisseur	LLM principal	LLM rapide	Raisonnement	Vision	Notes
OpenAI	`gpt-5.4`	`gpt-5.4-mini` / `gpt-5.4-nano`	✅ `reasoning_effort`	✅ Tous	Meilleur appel d’outils natif ; GPT-5.4 est le dernier modèle phare (mar 2026)
Anthropic	`claude-sonnet-4-6`	`claude-haiku-4-5`	✅ via LiteLLM	✅ Tous	Routage API natif ; support complet de `reasoning_content` ; contexte 1M GA
Google Gemini	`gemini-2.5-pro` / `gemini-3.1-pro-preview`	`gemini-2.5-flash` / `gemini-3-flash-preview`	✅ `reasoning_effort`	✅ Tous	2.5 est GA stable ; 3.x est en aperçu ; `gemini-3-pro-preview` arrêté le 9 mar
DeepSeek	`deepseek-chat` (V3.2)	`deepseek-chat`	✅ `deepseek-reasoner`	❌	Texte uniquement ; V4 (avr 2026) ajoutera la vision
Qwen (Alibaba)	`qwen3.5-plus` / `qwen3-max`	`qwen3.5-flash` / `qwen-turbo`	✅ `enable_thinking` sur `qwen3-max`	⚠️ qwen3.5 uniquement	Langage chinois le plus fort ; qwq/raisonnement texte uniquement
ChatGLM (Zhipu)	`glm-4.7`	`glm-4.7-flash`	`glm-5`	⚠️ GLM-4.6V	Appel de fonction forcé non supporté ; la vision nécessite un modèle VLM séparé
MiniMax	`MiniMax-M2.7`	`MiniMax-M2.5`	❌	❌	Texte uniquement ; M2.7 dernier (mar 2026) ; 80,2% SWE-Bench
Kimi (Moonshot)	`kimi-k2.5`	`kimi-k2`	✅ `kimi-k2-thinking`	⚠️ K2.5 uniquement	K2-thinking texte uniquement ; appel de fonction forcé non supporté avec raisonnement
Ollama (local)	`qwen3.5` / `llama4`	`qwen3.5:9b`	❌	Varie	Entièrement hors ligne, pas de clé API ; Llama 4 supporte la vision

Vision indique si le modèle accepte l’entrée d’image. Ceci est requis pour le Traitement intelligent des documents (IDP) — si votre modèle ne supporte pas la vision, IDP reviendra à l’extraction texte uniquement. Les fournisseurs marqués ⚠️ ont la vision sur certains modèles mais pas d’autres ; vérifiez le modèle spécifique que vous utilisez.

Compatibilité de la sortie structurée

Le planificateur DAG de FIM One nécessite que le modèle retourne un JSON structuré valide. En interne, il essaie trois niveaux d’extraction dans l’ordre :

Appel de fonction natif — force le modèle à produire un JSON correspondant à un schéma via l’API d’appel d’outil. Le plus fiable.
Mode JSON — demande response_format: json_object. Garantit un JSON valide, mais n’impose pas la conformité au schéma.
Extraction de texte brut — analyse le JSON à partir de texte libre en dernier recours.

Les modèles qui supportent le niveau 1 (appel de fonction natif avec tool_choice forcé) offrent la meilleure fiabilité de planification. Si un modèle n’atteint que le niveau 2, la qualité de sa sortie dépend de la qualité de son suivi des instructions du prompt — les modèles plus faibles peuvent produire un JSON valide qui ne correspond pas à la structure attendue.

Fournisseur	Appel de fonction forcé	Mode JSON	Fiabilité de planification
OpenAI (GPT-5.x, o3)	✅ Support complet	✅	⭐⭐⭐ Excellent
Anthropic (Claude 4.x)	⚠️ Conflits avec le mode réflexion	✅	⭐⭐⭐ Excellent (le suivi d’instructions fort compense)
Google Gemini (2.5/3.x)	✅ Support complet	✅	⭐⭐⭐ Excellent
Mistral	✅ Support complet	✅	⭐⭐ Bon
DeepSeek (V3.2)	⚠️ Instable (`tool_choice="required"` fonctionne, `"auto"` peu fiable)	✅	⭐⭐ Bon
Qwen (3.x)	⚠️ Partiel	✅	⭐⭐ Bon
Kimi (K2.5)	⚠️ Partiel — `auto` uniquement quand la réflexion est activée	✅	⭐ Acceptable — peut produire des plans malformés
ChatGLM (GLM-4.7/5)	❌ Non supporté (`auto` uniquement)	✅	⭐ Acceptable
MiniMax (M2.5/M2.7)	✅ Support complet	✅	⭐⭐ Bon
Local (Ollama)	Varie selon le modèle	Varie	⭐ Acceptable — 32B+ recommandé

Si vous voyez l’erreur « failed to generate a valid task plan », la capacité de sortie structurée du modèle est insuffisante pour la planification DAG. Changez votre LLM principal vers un modèle noté ⭐⭐⭐ ou ⭐⭐ ou plus, ou désactivez le mode DAG et utilisez plutôt l’agent ReAct plus simple.

Compatibilité de la réflexion / du raisonnement

Les différents fournisseurs implémentent la « réflexion » (raisonnement en chaîne de pensée) de manières fondamentalement différentes. Cela importe car le mode de réflexion peut entrer en conflit avec l’appel d’outils, et la sortie apparaît à différents endroits selon le fournisseur. FIM One gère tout cela de manière transparente — ce tableau vous aide à comprendre ce qui se passe sous le capot.

Concepts clés

Opt-in — la réflexion est désactivée par défaut ; vous l’activez via un paramètre API (par exemple, reasoning_effort). Peut être désactivée sélectivement par appel.
Always-on — le modèle réfléchit toujours ; aucun paramètre API pour le désactiver. Vous devriez basculer vers une variante de modèle sans réflexion pour l’éviter.
Au niveau du modèle — la réflexion est déterminée par l’ID de modèle que vous choisissez (par exemple, deepseek-reasoner vs deepseek-chat), et non par un paramètre.

Matrice de Compatibilité

Fournisseur	Comment Activer	Peut Désactiver ?	Sortie de Réflexion	Conflit FC Forcé ?
OpenAI (GPT-5.x)	paramètre `reasoning_effort`	✅ Opt-in	Interne (non visible à l’utilisateur)	⚠️ L’API supprime `reasoning_effort` quand des outils sont présents
OpenAI (série o)	Toujours activé	❌	Interne (jetons comptabilisés, non retournés)	✅ Pas de conflit
Anthropic (Claude 4.x)	`reasoning_effort` → `thinking`	✅ Opt-in	Champ API `reasoning_content` → Panneau de Réflexion	❌ FC forcé + réflexion = erreur 400
Google Gemini (2.5/3.x)	paramètre `reasoning_effort`	✅ Opt-in	Interne	✅ Pas de conflit
DeepSeek	Variante de modèle (`deepseek-reasoner`)	Niveau du modèle	Champ API `reasoning_content` → Panneau de Réflexion	⚠️ FC forcé peu fiable
Qwen (3.x)	paramètre `enable_thinking`	✅ Opt-in	Balises `<think>` dans le contenu	⚠️ Support FC partiel
MiniMax (M2.7)	Toujours activé	❌	Balises `<think>` dans le contenu	✅ Pas de conflit
ChatGLM (GLM-5)	Variante de modèle	Niveau du modèle	Non externalisée	N/A — FC forcé non supporté
Kimi (K2-thinking)	Variante de modèle	Niveau du modèle	Champ API	❌ FC forcé + réflexion = conflit

Comment FIM One gère chaque cas

reasoning_content au niveau de l’API (Claude, DeepSeek) : Le champ reasoning est lu directement à partir de la réponse de l’API et affiché dans le panneau Reasoning de l’interface utilisateur. Aucun post-traitement nécessaire. Balises <think> dans le contenu (MiniMax, Qwen, QwQ et autres dérivés open-source) : FIM One supprime automatiquement les balises <think>...</think> du champ content et réachemine le texte de réflexion vers le panneau Reasoning. Cela fonctionne pour les réponses en streaming et non-streaming. Conflits FC forcé + thinking (Claude, Kimi) : Lorsque FIM One a besoin d’un appel de fonction forcé (par exemple, lors de l’extraction de sortie structurée pendant la planification DAG), il désactive temporairement la réflexion pour cet appel spécifique en passant reasoning_effort=None. Cela fonctionne parce que la réflexion de Claude est opt-in — ne pas envoyer le paramètre signifie pas de réflexion, ce qui évite l’erreur 400. Pour les fournisseurs où la réflexion ne peut pas être désactivée (MiniMax), le FC forcé fonctionne bien puisque ces fournisseurs ne rejettent pas la combinaison. Chaîne de secours : Si l’appel de fonction forcé échoue pour une raison quelconque, FIM One bascule automatiquement : FC natif → mode JSON → extraction de texte brut. Cette approche à trois niveaux garantit que la planification fonctionne même avec les fournisseurs qui ont un support d’appel d’outil partiel.

Si vous utilisez un modèle qui réfléchit toujours (MiniMax M2.7, DeepSeek R1) comme votre LLM principal, la sortie de réflexion apparaîtra dans le panneau Reasoning de chaque itération d’agent. C’est normal — cela n’affecte pas la fonctionnalité, et vous pouvez voir le processus de réflexion du modèle.

Détails du fournisseur

OpenAI

L’option la plus éprouvée. Les modèles OpenAI offrent le meilleur support natif des appels de fonction (tool-calling), ce qui impacte directement la fiabilité de l’agent. La famille GPT-5 (août 2025+) représente un saut générationnel majeur par rapport à GPT-4. Modèles recommandés :

Principal : gpt-5.4 (dernier modèle phare, mars 2026 — contexte 1M+, utilisation informatique) ou o3 (meilleure précision de raisonnement)
Rapide : gpt-5.4-mini ( $0.75/$ 4.50 par MTok) ou gpt-5.4-nano (le moins cher à $0.20/$ 1.25 par MTok)
Budget Rapide : gpt-5-mini ( $0.25/$ 2.00) et gpt-5-nano ( $0.05/$ 0.40) restent disponibles à des prix plus bas
Héritage : gpt-4.1 (toujours dans l’API, contexte 1M, bon pour le codage)

Raisonnement : Définissez LLM_REASONING_EFFORT=medium — fonctionne nativement avec les modèles o-series et GPT-5.x. GPT-5.4 supporte reasoning_effort avec les niveaux none, low, medium, high, xhigh. La série o-series nécessite max_completion_tokens au lieu de max_tokens, que LiteLLM gère automatiquement. Remarque : GPT-5.x supprime toujours reasoning_effort lorsque des outils sont présents dans /v1/chat/completions — FIM One le supprime silencieusement lors des étapes d’utilisation d’outils d’agent afin que les workflows s’exécutent sans interruption. GPT-5.4 nécessite temperature=1 — FIM One gère cela automatiquement via le filtrage des paramètres de LiteLLM (drop_params).

Modèle	Entrée $/MTok	Sortie $/MTok	Contexte
`gpt-5.4`	$2.50	$15.00	1,050K (surcharge >272K)
`gpt-5.4-mini`	$0.75	$4.50	400K
`gpt-5.4-nano`	$0.20	$1.25	400K
`o3`	$2.00	$8.00	200K
`o4-mini`	$1.10	$4.40	200K
`gpt-5-mini`	$0.25	$2.00	400K
`gpt-5-nano`	$0.05	$0.40	400K

# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

Anthropic (Claude)

Claude excelle dans le raisonnement nuancé et les tâches complexes multi-étapes. FIM One se connecte via LiteLLM, qui achemine les modèles Anthropic via leur API native automatiquement. La génération actuelle est Claude 4.6 (février 2026). Modèles recommandés :

Principal : claude-sonnet-4-6 (meilleur équilibre entre capacité et coût — $3/$ 15 par MTok)
Rapide : claude-haiku-4-5 (rapide et bon marché — $1/$ 5 par MTok)
Premium : claude-opus-4-6 (le plus capable, sortie max 128K — $5/$ 25 par MTok)

URL de base : https://api.anthropic.com/v1/ Opus 4.6 et Sonnet 4.6 disposent d’une fenêtre de contexte de 1M (GA depuis le 13 mars 2026 — aucun en-tête bêta nécessaire). Haiku 4.5 a une fenêtre de contexte de 200K. Raisonnement : Définissez LLM_REASONING_EFFORT=medium — LiteLLM achemine les modèles Anthropic via l’API native, donc reasoning_content (réflexion étendue) est entièrement retourné et visible dans l’étape « thinking » de l’interface utilisateur. Les modèles Claude 4.6 supportent la réflexion adaptative (thinking: {type: "adaptive"}) qui remplace les budget_tokens manuels — LiteLLM gère la traduction automatiquement. Lorsque la réflexion étendue est activée, Anthropic requiert temperature=1 — définissez LLM_TEMPERATURE=1 dans votre .env ou configuration de modèle. Voir Extended Thinking pour plus de détails.

# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium

Google Gemini

Les modèles Gemini offrent des performances solides à des prix compétitifs via le point de terminaison compatible OpenAI de Google. La génération 3.x (fin 2025+) est un grand bond en avant — Gemini 3 Flash surpasse 2.5 Pro tout en étant 3 fois plus rapide. Remarque : gemini-3-pro-preview a été arrêté le 9 mars 2026 — utilisez gemini-3.1-pro-preview à la place. Modèles recommandés :

Stable (GA) : gemini-2.5-pro (principal) + gemini-2.5-flash (rapide) — prêt pour la production
Dernier (Aperçu) : gemini-3.1-pro-preview (principal) + gemini-3-flash-preview (rapide) + gemini-3.1-flash-lite-preview (rapide économique) — meilleures performances, mais en statut d’aperçu

URL de base : https://generativelanguage.googleapis.com/v1beta/openai/ Raisonnement : reasoning_effort est pris en charge sur le point de terminaison de compatibilité — définissez LLM_REASONING_EFFORT=medium et cela fonctionne immédiatement.

Modèle	Entrée $/MTok	Sortie $/MTok	Statut
`gemini-3.1-pro-preview`	$2.00	$12.00	Aperçu
`gemini-3-flash-preview`	$0.50	$3.00	Aperçu
`gemini-3.1-flash-lite-preview`	$0.25	$1.50	Aperçu (mar 2026)
`gemini-2.5-pro`	$1.25	$10.00	GA Stable
`gemini-2.5-flash`	$0.30	$2.50	GA Stable
`gemini-2.5-flash-lite`	$0.10	$0.40	GA Stable

# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium

# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium

DeepSeek

DeepSeek offre le meilleur rapport coût/performance du marché. V3.2 (décembre 2025) a unifié les lignées de chat et de raisonnement en un seul modèle, avec une tarification incroyablement basse. ID de modèles (tous deux soutenus par V3.2) :

deepseek-chat — usage général (mode non-thinking)
deepseek-reasoner — mode de raisonnement chaîne de pensée, retourne reasoning_content

URL de base : https://api.deepseek.com Tarification :

0.28/

0.42 par MTok (cache hit : $0.028) — de loin l’API frontier-class la moins chère. Limites de sortie : la sortie maximale de deepseek-chat est de 8K tokens (doit être défini explicitement via max_tokens). La sortie maximale de deepseek-reasoner est de 64K tokens (inclut la chaîne de pensée).

V4 attendue avril 2026 : modèle multimodal avec paramètres en trillions et fenêtre de contexte de 1M. Attendez-vous à de nouveaux ID de modèles lors de son lancement.

# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat

# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat

Modèles nationaux chinois

Tous les principaux fournisseurs de modèles chinois exposent des points de terminaison compatibles avec OpenAI. Ceux-ci sont particulièrement performants pour les tâches en langue chinoise et offrent des tarifs locaux compétitifs.

Qwen / 通义千问 (Alibaba Cloud)

Qwen 3.5 (février 2026) est la dernière génération — le flagship MoE 397B surpasse GPT-5.2 sur MMLU-Pro. Support de la langue chinoise le plus fort et tarification de classe frontière la moins chère (~$0.11/MTok en entrée).

URL de base (Chine) : https://dashscope.aliyuncs.com/compatible-mode/v1
URL de base (Global) : https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Principal : qwen3.5-plus (flagship, contexte 1M, $0.11/$ 0.66 par MTok) ou qwen3-max (256K, le plus puissant)
Rapide : qwen3.5-flash ( $0.055/$ 0.22 par MTok) ou qwen-turbo ( $0.04/$ 0.08 par MTok)
Raisonnement : qwen3-max avec paramètre enable_thinking: true (il n’y a pas d’ID de modèle qwen3-max-thinking séparé)

# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

ChatGLM / 智谱

GLM-4.7 et GLM-5 (2026) sont les derniers modèles. GLM-5 est le flagship MoE 745B approchant le niveau Claude Opus sur les tâches de codage/agent.

URL de base (Domestique) : https://open.bigmodel.cn/api/paas/v4
URL de base (Z.AI International) : https://api.z.ai/api/paas/v4
Principal : glm-4.7 (codage puissant, $0.60/$ 2.20 sur Z.AI)
Rapide : glm-4.7-flash (niveau gratuit !) ou glm-4.7-flashx ( $0.07/$ 0.40, débit plus élevé)
Raisonnement : glm-5 (flagship MoE 745B, $1.00/$ 3.20)

Le tool_choice forcé n’est pas supporté — seul "auto" fonctionne.

Certains clients HTTP ajoutent automatiquement /v1 aux URL de base. Zhipu utilise /v4 — assurez-vous que votre client ne force pas un suffixe de chemin de style OpenAI ou vous obtiendrez des erreurs 404.

# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

MiniMax

MiniMax M2.7 (18 mars 2026) est le dernier modèle, open-weight et obtient 80,2% sur SWE-Bench. M2.5 reste disponible comme option rapide/économique. MiniMax fournit deux points de terminaison API distincts pour différentes régions :

URL de base (Global/海外版) : https://api.minimax.io/v1 — pour les utilisateurs en dehors de la Chine continentale
URL de base (China/国内版) : https://api.minimaxi.com/v1 — pour les utilisateurs en Chine continentale (notez le i supplémentaire dans minimaxi)
Principal : MiniMax-M2.7
Rapide : MiniMax-M2.5
Vitesse : MiniMax-M2.7-highspeed (coût 2x, latence inférieure)

Modèle	Entrée $/MTok	Sortie $/MTok
`MiniMax-M2.7`	$0.30	$1.20
`MiniMax-M2.7-highspeed`	$0.60	$2.40
`MiniMax-M2.5`	$0.30	$1.20
`MiniMax-M2.5-highspeed`	$0.60	$2.40

# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

Kimi / 月之暗面 (Moonshot)

Kimi K2.5 (janvier 2026) dispose d’un contexte de 256K et de performances de codage solides (76,8% SWE-Bench parmi les modèles open-source).

URL de base (Global) : https://api.moonshot.ai/v1
URL de base (Chine) : https://api.moonshot.cn/v1
Principal : kimi-k2.5
Rapide : kimi-k2 (sans réflexion, l’appel de fonction fonctionne)
Raisonnement : kimi-k2-thinking ( $0.47/$ 2.00 par MTok)

Le forçage de tool_choice ne fonctionne que lorsque le mode de réflexion est désactivé. Lorsque la réflexion est activée, seul "auto" est supporté.

# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

Modèles locaux (Ollama)

Exécutez des modèles entièrement sur votre propre matériel — aucune clé API nécessaire, entièrement hors ligne. Ollama expose un point de terminaison compatible OpenAI prêt à l’emploi. Le paysage open-source a changé de manière spectaculaire — Qwen 3.5, Llama 4 et GPT-OSS (les premiers modèles à poids ouvert d’OpenAI) sont tous disponibles. URL de base : http://localhost:11434/v1 Modèles recommandés par VRAM :

VRAM	LLM principal	LLM rapide	Notes
8 GB	`qwen3.5:9b` / `gemma3:4b`	`qwen3.5:4b`	Qwen 3.5 9B est le meilleur à ce niveau
16 GB	`gpt-oss:20b` / `deepseek-r1:14b`	`qwen3.5:9b`	GPT-OSS 20B est optimisé pour les agents
24 GB	`qwen3:32b` / `deepseek-r1:32b`	`qwen3.5:9b`	Qwen 3 32B est le meilleur pour l’appel d’outils
48 GB+	`llama3.3:70b` / `gpt-oss:120b`	`qwen3.5:14b`	Qualité proche de la frontière

Meilleur pour l’appel d’outils : Qwen 3/3.5 (32B+), GLM-4.7, GPT-OSS, Mistral — ces modèles ont un entraînement explicite pour l’appel de fonctions. Les modèles avec 14B+ paramètres sont le minimum pour un appel d’outils fiable ; 32B+ est fortement recommandé.

La qualité de l’appel d’outils varie considérablement selon les modèles locaux. Tous les modèles ne génèrent pas de manière fiable des appels de fonction valides. Testez votre modèle choisi avec des flux de travail d’agents avant d’utiliser en production. La règle générale : 14B minimum, 32B+ recommandé pour les tâches d’agents.

# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

Plateformes de relais tiers

De nombreux utilisateurs accèdent à plusieurs fournisseurs de modèles via un seul service de relais (proxy). FIM One détecte automatiquement le protocole API correct en fonction des modèles de chemin d’URL — il suffit de remplir LLM_BASE_URL et cela fonctionne.

Fonctionnement

Lorsque votre URL de base pointe vers un relais tiers, FIM One inspecte le chemin d’accès de l’URL pour déterminer le protocole à utiliser :

Le chemin d’accès URL contient	Protocole détecté	En-tête d’authentification	Avantage clé
`/v1` (ou aucune correspondance)	Compatible OpenAI	`Authorization: Bearer`	Secours universel, fonctionne avec la plupart des relais
`/claude` ou `/anthropic`	Anthropic natif	`x-api-key`	Support complet de `reasoning_content` (extended thinking)
`/gemini`	Google natif	`x-goog-api-key`	Traduction native des paramètres Gemini

Ordre de résolution : Champ de fournisseur DB explicite > correspondance de domaine (API officielles) > indice de chemin d’accès URL (plateformes de relais) > secours compatible OpenAI.

Exemple : Un relais, trois protocoles

Avec un seul compte relais, vous pouvez accéder à différents fournisseurs en changeant simplement le chemin d’URL de base :

# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6

# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro

# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4

Aucune configuration supplémentaire nécessaire — les en-têtes d’authentification, les formats de paramètres et l’analyse des réponses changent automatiquement.

Étape par étape : Comment fonctionne la détection de chemin

Voici un exemple concret montrant ce qui se passe en interne lorsque vous configurez un relais :

# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium

FIM One détecte /claude dans le chemin URL → détecte le protocole natif Anthropic
Le modèle est préfixé comme anthropic/claude-sonnet-4-6 pour le routage LiteLLM
Les requêtes utilisent le format /v1/messages d’Anthropic avec l’en-tête d’authentification x-api-key
reasoning_effort=medium est traduit en paramètre natif Anthropic thinking (pas le reasoning_effort d’OpenAI)

Si l’URL du relais était https://my-relay.example.com/v1 à la place, l’indice /claude serait manquant — FIM One reviendrait au protocole compatible OpenAI, envoyant des requêtes /v1/chat/completions à un point de terminaison natif Claude, ce qui échouerait. Le chemin URL est important.

Pourquoi c’est important

Point de terminaison natif Anthropic vous donne un support approprié de reasoning_content (la réflexion étendue visible dans l’interface utilisateur), le format correct d’appel d’outils, et l’authentification x-api-key — des fonctionnalités perdues lors de l’utilisation de la traduction compatible OpenAI.
Point de terminaison natif Google vous donne les paramètres Gemini natifs et l’authentification x-goog-api-key.
Compatible OpenAI est le repli universel et fonctionne avec n’importe quel relais, mais les fonctionnalités spécifiques au fournisseur (comme la sortie de réflexion étendue) peuvent ne pas être disponibles.

Si votre plateforme de relais utilise des conventions de chemin non standard (par exemple, pas de /claude ou /anthropic dans l’URL), FIM One revient au protocole compatible OpenAI — qui fonctionne pour la plupart des cas d’usage. Pour un support complet du protocole natif, vous pouvez définir le champ provider explicitement via l’interface utilisateur de configuration du modèle administrateur.

Stratégie de Configuration

Principal vs Rapide : Quand diviser

Diviser quand votre modèle principal est coûteux ou lent (par exemple, gpt-5.4 + gpt-5.4-nano). Le mode DAG exécute de nombreuses étapes en parallèle — utiliser un modèle rapide moins cher permet d’économiser des coûts significatifs.
Même modèle quand votre modèle est déjà bon marché (par exemple, deepseek-chat pour les deux). La surcharge de gestion de deux modèles n’en vaut pas la peine.

Quand activer le raisonnement

Activer pour les tâches analytiques complexes, la planification multi-étapes et les tâches nécessitant un jugement prudent
Désactiver (par défaut) pour les tâches de routine, les Q&R simples et les déploiements sensibles aux coûts
Le raisonnement augmente généralement le coût de 2 à 5 fois par requête — l’effort medium est un bon point de départ

Dimensionnement de la fenêtre de contexte

Définissez LLM_CONTEXT_SIZE pour correspondre à la fenêtre réelle de votre modèle :

Modèle	Fenêtre de contexte
GPT-5.4	1,050K (surcharge >272K)
o3 / o4-mini	200K
Claude Opus 4.6	1M
Claude Sonnet 4.6	1M
Claude Haiku 4.5	200K
Gemini 2.5 Pro	1M
Gemini 3.1 Pro	1M
DeepSeek V3.2	128K
Qwen 3.5 Plus	1M
Local (Ollama)	4K–128K (varie)

Pour les modèles locaux, définissez explicitement LLM_CONTEXT_SIZE et LLM_MAX_OUTPUT_TOKENS — les valeurs par défaut supposent des fenêtres de contexte à l’échelle du cloud que les modèles locaux ne peuvent pas supporter.

Pourquoi FIM One

Démarrage rapide

Configuration

Intégrations

Fonctionnalités

Extension de FIM One

Modèles recommandés

Comment FIM One utilise les modèles

Matrice de sélection rapide

Compatibilité de la sortie structurée

Compatibilité de la réflexion / du raisonnement

Concepts clés

Matrice de Compatibilité

Comment FIM One gère chaque cas

Détails du fournisseur

OpenAI

Anthropic (Claude)

Google Gemini

DeepSeek

Modèles nationaux chinois

Qwen / 通义千问 (Alibaba Cloud)

ChatGLM / 智谱

MiniMax

Kimi / 月之暗面 (Moonshot)

Modèles locaux (Ollama)

Plateformes de relais tiers

Fonctionnement

Exemple : Un relais, trois protocoles

Étape par étape : Comment fonctionne la détection de chemin

Pourquoi c’est important

Stratégie de Configuration

Principal vs Rapide : Quand diviser

Quand activer le raisonnement

Dimensionnement de la fenêtre de contexte

Pourquoi FIM One

Démarrage rapide

Configuration

Intégrations

Fonctionnalités

Extension de FIM One

Documentation Index

​Comment FIM One utilise les modèles

​Matrice de sélection rapide

​Compatibilité de la sortie structurée

​Compatibilité de la réflexion / du raisonnement

​Concepts clés

​Matrice de Compatibilité

​Comment FIM One gère chaque cas

​Détails du fournisseur

​OpenAI

​Anthropic (Claude)

​Google Gemini

​DeepSeek

​Modèles nationaux chinois

​Qwen / 通义千问 (Alibaba Cloud)

​ChatGLM / 智谱

​MiniMax

​Kimi / 月之暗面 (Moonshot)

​Modèles locaux (Ollama)

​Plateformes de relais tiers

​Fonctionnement

​Exemple : Un relais, trois protocoles

​Étape par étape : Comment fonctionne la détection de chemin

​Pourquoi c’est important

​Stratégie de Configuration

​Principal vs Rapide : Quand diviser

​Quand activer le raisonnement

​Dimensionnement de la fenêtre de contexte

Comment FIM One utilise les modèles

Matrice de sélection rapide

Compatibilité de la sortie structurée

Compatibilité de la réflexion / du raisonnement

Concepts clés

Matrice de Compatibilité

Comment FIM One gère chaque cas

Détails du fournisseur

OpenAI

Anthropic (Claude)

Google Gemini

DeepSeek

Modèles nationaux chinois

Qwen / 通义千问 (Alibaba Cloud)

ChatGLM / 智谱

MiniMax

Kimi / 月之暗面 (Moonshot)

Modèles locaux (Ollama)

Plateformes de relais tiers

Fonctionnement

Exemple : Un relais, trois protocoles

Étape par étape : Comment fonctionne la détection de chemin

Pourquoi c’est important

Stratégie de Configuration

Principal vs Rapide : Quand diviser

Quand activer le raisonnement

Dimensionnement de la fenêtre de contexte