Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.fim.ai/llms.txt

Use this file to discover all available pages before exploring further.

FIM One est agnostique du fournisseur — tout point de terminaison compatible OpenAI fonctionne. Cette page vous aide à choisir la meilleure combinaison de modèles pour votre cas d’usage. Pour les détails de configuration, consultez Variables d’environnement.

Comment FIM One utilise les modèles

FIM One a trois rôles de modèle :
RôleVariable d’environnementUtilisé pour
GeneralLLM_MODELPlanification, analyse, agent ReAct, raisonnement complexe
FastFAST_LLM_MODELExécution des étapes DAG, compaction de contexte (moins cher, plus rapide)
ReasoningREASONING_LLM_MODELAnalyse approfondie, planification complexe, preuves mathématiques
Fast et Reasoning reviennent à General s’ils ne sont pas configurés. Pour les déploiements en production, la division en au moins deux modèles (General + Fast) offre le meilleur équilibre coût/qualité. Ces rôles peuvent être configurés via des variables d’environnement ou via la fonctionnalité Model Groups de l’interface d’administration, qui permet de basculer en un clic entre des ensembles de modèles. Consultez Gestion des modèles pour le guide complet de l’interface d’administration.

Matrice de sélection rapide

FournisseurLLM principalLLM rapideRaisonnementVisionNotes
OpenAIgpt-5.4gpt-5.4-mini / gpt-5.4-nanoreasoning_effort✅ TousMeilleur appel d’outils natif ; GPT-5.4 est le dernier modèle phare (mar 2026)
Anthropicclaude-sonnet-4-6claude-haiku-4-5✅ via LiteLLM✅ TousRoutage API natif ; support complet de reasoning_content ; contexte 1M GA
Google Geminigemini-2.5-pro / gemini-3.1-pro-previewgemini-2.5-flash / gemini-3-flash-previewreasoning_effort✅ Tous2.5 est GA stable ; 3.x est en aperçu ; gemini-3-pro-preview arrêté le 9 mar
DeepSeekdeepseek-chat (V3.2)deepseek-chatdeepseek-reasonerTexte uniquement ; V4 (avr 2026) ajoutera la vision
Qwen (Alibaba)qwen3.5-plus / qwen3-maxqwen3.5-flash / qwen-turboenable_thinking sur qwen3-max⚠️ qwen3.5 uniquementLangage chinois le plus fort ; qwq/raisonnement texte uniquement
ChatGLM (Zhipu)glm-4.7glm-4.7-flashglm-5⚠️ GLM-4.6VAppel de fonction forcé non supporté ; la vision nécessite un modèle VLM séparé
MiniMaxMiniMax-M2.7MiniMax-M2.5Texte uniquement ; M2.7 dernier (mar 2026) ; 80,2% SWE-Bench
Kimi (Moonshot)kimi-k2.5kimi-k2kimi-k2-thinking⚠️ K2.5 uniquementK2-thinking texte uniquement ; appel de fonction forcé non supporté avec raisonnement
Ollama (local)qwen3.5 / llama4qwen3.5:9bVarieEntièrement hors ligne, pas de clé API ; Llama 4 supporte la vision
Vision indique si le modèle accepte l’entrée d’image. Ceci est requis pour le Traitement intelligent des documents (IDP) — si votre modèle ne supporte pas la vision, IDP reviendra à l’extraction texte uniquement. Les fournisseurs marqués ⚠️ ont la vision sur certains modèles mais pas d’autres ; vérifiez le modèle spécifique que vous utilisez.

Compatibilité de la sortie structurée

Le planificateur DAG de FIM One nécessite que le modèle retourne un JSON structuré valide. En interne, il essaie trois niveaux d’extraction dans l’ordre :
  1. Appel de fonction natif — force le modèle à produire un JSON correspondant à un schéma via l’API d’appel d’outil. Le plus fiable.
  2. Mode JSON — demande response_format: json_object. Garantit un JSON valide, mais n’impose pas la conformité au schéma.
  3. Extraction de texte brut — analyse le JSON à partir de texte libre en dernier recours.
Les modèles qui supportent le niveau 1 (appel de fonction natif avec tool_choice forcé) offrent la meilleure fiabilité de planification. Si un modèle n’atteint que le niveau 2, la qualité de sa sortie dépend de la qualité de son suivi des instructions du prompt — les modèles plus faibles peuvent produire un JSON valide qui ne correspond pas à la structure attendue.
FournisseurAppel de fonction forcéMode JSONFiabilité de planification
OpenAI (GPT-5.x, o3)✅ Support complet⭐⭐⭐ Excellent
Anthropic (Claude 4.x)⚠️ Conflits avec le mode réflexion⭐⭐⭐ Excellent (le suivi d’instructions fort compense)
Google Gemini (2.5/3.x)✅ Support complet⭐⭐⭐ Excellent
Mistral✅ Support complet⭐⭐ Bon
DeepSeek (V3.2)⚠️ Instable (tool_choice="required" fonctionne, "auto" peu fiable)⭐⭐ Bon
Qwen (3.x)⚠️ Partiel⭐⭐ Bon
Kimi (K2.5)⚠️ Partiel — auto uniquement quand la réflexion est activée⭐ Acceptable — peut produire des plans malformés
ChatGLM (GLM-4.7/5)❌ Non supporté (auto uniquement)⭐ Acceptable
MiniMax (M2.5/M2.7)✅ Support complet⭐⭐ Bon
Local (Ollama)Varie selon le modèleVarie⭐ Acceptable — 32B+ recommandé
Si vous voyez l’erreur « failed to generate a valid task plan », la capacité de sortie structurée du modèle est insuffisante pour la planification DAG. Changez votre LLM principal vers un modèle noté ⭐⭐⭐ ou ⭐⭐ ou plus, ou désactivez le mode DAG et utilisez plutôt l’agent ReAct plus simple.

Compatibilité de la réflexion / du raisonnement

Les différents fournisseurs implémentent la « réflexion » (raisonnement en chaîne de pensée) de manières fondamentalement différentes. Cela importe car le mode de réflexion peut entrer en conflit avec l’appel d’outils, et la sortie apparaît à différents endroits selon le fournisseur. FIM One gère tout cela de manière transparente — ce tableau vous aide à comprendre ce qui se passe sous le capot.

Concepts clés

  • Opt-in — la réflexion est désactivée par défaut ; vous l’activez via un paramètre API (par exemple, reasoning_effort). Peut être désactivée sélectivement par appel.
  • Always-on — le modèle réfléchit toujours ; aucun paramètre API pour le désactiver. Vous devriez basculer vers une variante de modèle sans réflexion pour l’éviter.
  • Au niveau du modèle — la réflexion est déterminée par l’ID de modèle que vous choisissez (par exemple, deepseek-reasoner vs deepseek-chat), et non par un paramètre.

Matrice de Compatibilité

FournisseurComment ActiverPeut Désactiver ?Sortie de RéflexionConflit FC Forcé ?
OpenAI (GPT-5.x)paramètre reasoning_effort✅ Opt-inInterne (non visible à l’utilisateur)⚠️ L’API supprime reasoning_effort quand des outils sont présents
OpenAI (série o)Toujours activéInterne (jetons comptabilisés, non retournés)✅ Pas de conflit
Anthropic (Claude 4.x)reasoning_effortthinking✅ Opt-inChamp API reasoning_content → Panneau de Réflexion❌ FC forcé + réflexion = erreur 400
Google Gemini (2.5/3.x)paramètre reasoning_effort✅ Opt-inInterne✅ Pas de conflit
DeepSeekVariante de modèle (deepseek-reasoner)Niveau du modèleChamp API reasoning_content → Panneau de Réflexion⚠️ FC forcé peu fiable
Qwen (3.x)paramètre enable_thinking✅ Opt-inBalises <think> dans le contenu⚠️ Support FC partiel
MiniMax (M2.7)Toujours activéBalises <think> dans le contenu✅ Pas de conflit
ChatGLM (GLM-5)Variante de modèleNiveau du modèleNon externaliséeN/A — FC forcé non supporté
Kimi (K2-thinking)Variante de modèleNiveau du modèleChamp API❌ FC forcé + réflexion = conflit

Comment FIM One gère chaque cas

reasoning_content au niveau de l’API (Claude, DeepSeek) : Le champ reasoning est lu directement à partir de la réponse de l’API et affiché dans le panneau Reasoning de l’interface utilisateur. Aucun post-traitement nécessaire. Balises <think> dans le contenu (MiniMax, Qwen, QwQ et autres dérivés open-source) : FIM One supprime automatiquement les balises <think>...</think> du champ content et réachemine le texte de réflexion vers le panneau Reasoning. Cela fonctionne pour les réponses en streaming et non-streaming. Conflits FC forcé + thinking (Claude, Kimi) : Lorsque FIM One a besoin d’un appel de fonction forcé (par exemple, lors de l’extraction de sortie structurée pendant la planification DAG), il désactive temporairement la réflexion pour cet appel spécifique en passant reasoning_effort=None. Cela fonctionne parce que la réflexion de Claude est opt-in — ne pas envoyer le paramètre signifie pas de réflexion, ce qui évite l’erreur 400. Pour les fournisseurs où la réflexion ne peut pas être désactivée (MiniMax), le FC forcé fonctionne bien puisque ces fournisseurs ne rejettent pas la combinaison. Chaîne de secours : Si l’appel de fonction forcé échoue pour une raison quelconque, FIM One bascule automatiquement : FC natif → mode JSON → extraction de texte brut. Cette approche à trois niveaux garantit que la planification fonctionne même avec les fournisseurs qui ont un support d’appel d’outil partiel.
Si vous utilisez un modèle qui réfléchit toujours (MiniMax M2.7, DeepSeek R1) comme votre LLM principal, la sortie de réflexion apparaîtra dans le panneau Reasoning de chaque itération d’agent. C’est normal — cela n’affecte pas la fonctionnalité, et vous pouvez voir le processus de réflexion du modèle.

Détails du fournisseur

OpenAI

L’option la plus éprouvée. Les modèles OpenAI offrent le meilleur support natif des appels de fonction (tool-calling), ce qui impacte directement la fiabilité de l’agent. La famille GPT-5 (août 2025+) représente un saut générationnel majeur par rapport à GPT-4. Modèles recommandés :
  • Principal : gpt-5.4 (dernier modèle phare, mars 2026 — contexte 1M+, utilisation informatique) ou o3 (meilleure précision de raisonnement)
  • Rapide : gpt-5.4-mini (0.75/0.75/4.50 par MTok) ou gpt-5.4-nano (le moins cher à 0.20/0.20/1.25 par MTok)
  • Budget Rapide : gpt-5-mini (0.25/0.25/2.00) et gpt-5-nano (0.05/0.05/0.40) restent disponibles à des prix plus bas
  • Héritage : gpt-4.1 (toujours dans l’API, contexte 1M, bon pour le codage)
Raisonnement : Définissez LLM_REASONING_EFFORT=medium — fonctionne nativement avec les modèles o-series et GPT-5.x. GPT-5.4 supporte reasoning_effort avec les niveaux none, low, medium, high, xhigh. La série o-series nécessite max_completion_tokens au lieu de max_tokens, que LiteLLM gère automatiquement. Remarque : GPT-5.x supprime toujours reasoning_effort lorsque des outils sont présents dans /v1/chat/completions — FIM One le supprime silencieusement lors des étapes d’utilisation d’outils d’agent afin que les workflows s’exécutent sans interruption. GPT-5.4 nécessite temperature=1 — FIM One gère cela automatiquement via le filtrage des paramètres de LiteLLM (drop_params).
ModèleEntrée $/MTokSortie $/MTokContexte
gpt-5.4$2.50$15.001,050K (surcharge >272K)
gpt-5.4-mini$0.75$4.50400K
gpt-5.4-nano$0.20$1.25400K
o3$2.00$8.00200K
o4-mini$1.10$4.40200K
gpt-5-mini$0.25$2.00400K
gpt-5-nano$0.05$0.40400K
# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

Anthropic (Claude)

Claude excelle dans le raisonnement nuancé et les tâches complexes multi-étapes. FIM One se connecte via LiteLLM, qui achemine les modèles Anthropic via leur API native automatiquement. La génération actuelle est Claude 4.6 (février 2026). Modèles recommandés :
  • Principal : claude-sonnet-4-6 (meilleur équilibre entre capacité et coût — 3/3/15 par MTok)
  • Rapide : claude-haiku-4-5 (rapide et bon marché — 1/1/5 par MTok)
  • Premium : claude-opus-4-6 (le plus capable, sortie max 128K — 5/5/25 par MTok)
URL de base : https://api.anthropic.com/v1/ Opus 4.6 et Sonnet 4.6 disposent d’une fenêtre de contexte de 1M (GA depuis le 13 mars 2026 — aucun en-tête bêta nécessaire). Haiku 4.5 a une fenêtre de contexte de 200K. Raisonnement : Définissez LLM_REASONING_EFFORT=medium — LiteLLM achemine les modèles Anthropic via l’API native, donc reasoning_content (réflexion étendue) est entièrement retourné et visible dans l’étape « thinking » de l’interface utilisateur. Les modèles Claude 4.6 supportent la réflexion adaptative (thinking: {type: "adaptive"}) qui remplace les budget_tokens manuels — LiteLLM gère la traduction automatiquement. Lorsque la réflexion étendue est activée, Anthropic requiert temperature=1 — définissez LLM_TEMPERATURE=1 dans votre .env ou configuration de modèle. Voir Extended Thinking pour plus de détails.
# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium

Google Gemini

Les modèles Gemini offrent des performances solides à des prix compétitifs via le point de terminaison compatible OpenAI de Google. La génération 3.x (fin 2025+) est un grand bond en avant — Gemini 3 Flash surpasse 2.5 Pro tout en étant 3 fois plus rapide. Remarque : gemini-3-pro-preview a été arrêté le 9 mars 2026 — utilisez gemini-3.1-pro-preview à la place. Modèles recommandés :
  • Stable (GA) : gemini-2.5-pro (principal) + gemini-2.5-flash (rapide) — prêt pour la production
  • Dernier (Aperçu) : gemini-3.1-pro-preview (principal) + gemini-3-flash-preview (rapide) + gemini-3.1-flash-lite-preview (rapide économique) — meilleures performances, mais en statut d’aperçu
URL de base : https://generativelanguage.googleapis.com/v1beta/openai/ Raisonnement : reasoning_effort est pris en charge sur le point de terminaison de compatibilité — définissez LLM_REASONING_EFFORT=medium et cela fonctionne immédiatement.
ModèleEntrée $/MTokSortie $/MTokStatut
gemini-3.1-pro-preview$2.00$12.00Aperçu
gemini-3-flash-preview$0.50$3.00Aperçu
gemini-3.1-flash-lite-preview$0.25$1.50Aperçu (mar 2026)
gemini-2.5-pro$1.25$10.00GA Stable
gemini-2.5-flash$0.30$2.50GA Stable
gemini-2.5-flash-lite$0.10$0.40GA Stable
# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium

DeepSeek

DeepSeek offre le meilleur rapport coût/performance du marché. V3.2 (décembre 2025) a unifié les lignées de chat et de raisonnement en un seul modèle, avec une tarification incroyablement basse. ID de modèles (tous deux soutenus par V3.2) :
  • deepseek-chat — usage général (mode non-thinking)
  • deepseek-reasoner — mode de raisonnement chaîne de pensée, retourne reasoning_content
URL de base : https://api.deepseek.com Tarification : 0.28/0.28/0.42 par MTok (cache hit : $0.028) — de loin l’API frontier-class la moins chère. Limites de sortie : la sortie maximale de deepseek-chat est de 8K tokens (doit être défini explicitement via max_tokens). La sortie maximale de deepseek-reasoner est de 64K tokens (inclut la chaîne de pensée).
V4 attendue avril 2026 : modèle multimodal avec paramètres en trillions et fenêtre de contexte de 1M. Attendez-vous à de nouveaux ID de modèles lors de son lancement.
# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat

Modèles nationaux chinois

Tous les principaux fournisseurs de modèles chinois exposent des points de terminaison compatibles avec OpenAI. Ceux-ci sont particulièrement performants pour les tâches en langue chinoise et offrent des tarifs locaux compétitifs.

Qwen / 通义千问 (Alibaba Cloud)

Qwen 3.5 (février 2026) est la dernière génération — le flagship MoE 397B surpasse GPT-5.2 sur MMLU-Pro. Support de la langue chinoise le plus fort et tarification de classe frontière la moins chère (~$0.11/MTok en entrée).
  • URL de base (Chine) : https://dashscope.aliyuncs.com/compatible-mode/v1
  • URL de base (Global) : https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Principal : qwen3.5-plus (flagship, contexte 1M, 0.11/0.11/0.66 par MTok) ou qwen3-max (256K, le plus puissant)
  • Rapide : qwen3.5-flash (0.055/0.055/0.22 par MTok) ou qwen-turbo (0.04/0.04/0.08 par MTok)
  • Raisonnement : qwen3-max avec paramètre enable_thinking: true (il n’y a pas d’ID de modèle qwen3-max-thinking séparé)
# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

ChatGLM / 智谱

GLM-4.7 et GLM-5 (2026) sont les derniers modèles. GLM-5 est le flagship MoE 745B approchant le niveau Claude Opus sur les tâches de codage/agent.
  • URL de base (Domestique) : https://open.bigmodel.cn/api/paas/v4
  • URL de base (Z.AI International) : https://api.z.ai/api/paas/v4
  • Principal : glm-4.7 (codage puissant, 0.60/0.60/2.20 sur Z.AI)
  • Rapide : glm-4.7-flash (niveau gratuit !) ou glm-4.7-flashx (0.07/0.07/0.40, débit plus élevé)
  • Raisonnement : glm-5 (flagship MoE 745B, 1.00/1.00/3.20)
Le tool_choice forcé n’est pas supporté — seul "auto" fonctionne.
Certains clients HTTP ajoutent automatiquement /v1 aux URL de base. Zhipu utilise /v4 — assurez-vous que votre client ne force pas un suffixe de chemin de style OpenAI ou vous obtiendrez des erreurs 404.
# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

MiniMax

MiniMax M2.7 (18 mars 2026) est le dernier modèle, open-weight et obtient 80,2% sur SWE-Bench. M2.5 reste disponible comme option rapide/économique. MiniMax fournit deux points de terminaison API distincts pour différentes régions :
  • URL de base (Global/海外版) : https://api.minimax.io/v1 — pour les utilisateurs en dehors de la Chine continentale
  • URL de base (China/国内版) : https://api.minimaxi.com/v1 — pour les utilisateurs en Chine continentale (notez le i supplémentaire dans minimaxi)
  • Principal : MiniMax-M2.7
  • Rapide : MiniMax-M2.5
  • Vitesse : MiniMax-M2.7-highspeed (coût 2x, latence inférieure)
ModèleEntrée $/MTokSortie $/MTok
MiniMax-M2.7$0.30$1.20
MiniMax-M2.7-highspeed$0.60$2.40
MiniMax-M2.5$0.30$1.20
MiniMax-M2.5-highspeed$0.60$2.40
# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

Kimi / 月之暗面 (Moonshot)

Kimi K2.5 (janvier 2026) dispose d’un contexte de 256K et de performances de codage solides (76,8% SWE-Bench parmi les modèles open-source).
  • URL de base (Global) : https://api.moonshot.ai/v1
  • URL de base (Chine) : https://api.moonshot.cn/v1
  • Principal : kimi-k2.5
  • Rapide : kimi-k2 (sans réflexion, l’appel de fonction fonctionne)
  • Raisonnement : kimi-k2-thinking (0.47/0.47/2.00 par MTok)
Le forçage de tool_choice ne fonctionne que lorsque le mode de réflexion est désactivé. Lorsque la réflexion est activée, seul "auto" est supporté.
# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

Modèles locaux (Ollama)

Exécutez des modèles entièrement sur votre propre matériel — aucune clé API nécessaire, entièrement hors ligne. Ollama expose un point de terminaison compatible OpenAI prêt à l’emploi. Le paysage open-source a changé de manière spectaculaire — Qwen 3.5, Llama 4 et GPT-OSS (les premiers modèles à poids ouvert d’OpenAI) sont tous disponibles. URL de base : http://localhost:11434/v1 Modèles recommandés par VRAM :
VRAMLLM principalLLM rapideNotes
8 GBqwen3.5:9b / gemma3:4bqwen3.5:4bQwen 3.5 9B est le meilleur à ce niveau
16 GBgpt-oss:20b / deepseek-r1:14bqwen3.5:9bGPT-OSS 20B est optimisé pour les agents
24 GBqwen3:32b / deepseek-r1:32bqwen3.5:9bQwen 3 32B est le meilleur pour l’appel d’outils
48 GB+llama3.3:70b / gpt-oss:120bqwen3.5:14bQualité proche de la frontière
Meilleur pour l’appel d’outils : Qwen 3/3.5 (32B+), GLM-4.7, GPT-OSS, Mistral — ces modèles ont un entraînement explicite pour l’appel de fonctions. Les modèles avec 14B+ paramètres sont le minimum pour un appel d’outils fiable ; 32B+ est fortement recommandé.
La qualité de l’appel d’outils varie considérablement selon les modèles locaux. Tous les modèles ne génèrent pas de manière fiable des appels de fonction valides. Testez votre modèle choisi avec des flux de travail d’agents avant d’utiliser en production. La règle générale : 14B minimum, 32B+ recommandé pour les tâches d’agents.
# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

Plateformes de relais tiers

De nombreux utilisateurs accèdent à plusieurs fournisseurs de modèles via un seul service de relais (proxy). FIM One détecte automatiquement le protocole API correct en fonction des modèles de chemin d’URL — il suffit de remplir LLM_BASE_URL et cela fonctionne.

Fonctionnement

Lorsque votre URL de base pointe vers un relais tiers, FIM One inspecte le chemin d’accès de l’URL pour déterminer le protocole à utiliser :
Le chemin d’accès URL contientProtocole détectéEn-tête d’authentificationAvantage clé
/v1 (ou aucune correspondance)Compatible OpenAIAuthorization: BearerSecours universel, fonctionne avec la plupart des relais
/claude ou /anthropicAnthropic natifx-api-keySupport complet de reasoning_content (extended thinking)
/geminiGoogle natifx-goog-api-keyTraduction native des paramètres Gemini
Ordre de résolution : Champ de fournisseur DB explicite > correspondance de domaine (API officielles) > indice de chemin d’accès URL (plateformes de relais) > secours compatible OpenAI.

Exemple : Un relais, trois protocoles

Avec un seul compte relais, vous pouvez accéder à différents fournisseurs en changeant simplement le chemin d’URL de base :
# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
Aucune configuration supplémentaire nécessaire — les en-têtes d’authentification, les formats de paramètres et l’analyse des réponses changent automatiquement.

Étape par étape : Comment fonctionne la détection de chemin

Voici un exemple concret montrant ce qui se passe en interne lorsque vous configurez un relais :
# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
  1. FIM One détecte /claude dans le chemin URL → détecte le protocole natif Anthropic
  2. Le modèle est préfixé comme anthropic/claude-sonnet-4-6 pour le routage LiteLLM
  3. Les requêtes utilisent le format /v1/messages d’Anthropic avec l’en-tête d’authentification x-api-key
  4. reasoning_effort=medium est traduit en paramètre natif Anthropic thinking (pas le reasoning_effort d’OpenAI)
Si l’URL du relais était https://my-relay.example.com/v1 à la place, l’indice /claude serait manquant — FIM One reviendrait au protocole compatible OpenAI, envoyant des requêtes /v1/chat/completions à un point de terminaison natif Claude, ce qui échouerait. Le chemin URL est important.

Pourquoi c’est important

  • Point de terminaison natif Anthropic vous donne un support approprié de reasoning_content (la réflexion étendue visible dans l’interface utilisateur), le format correct d’appel d’outils, et l’authentification x-api-key — des fonctionnalités perdues lors de l’utilisation de la traduction compatible OpenAI.
  • Point de terminaison natif Google vous donne les paramètres Gemini natifs et l’authentification x-goog-api-key.
  • Compatible OpenAI est le repli universel et fonctionne avec n’importe quel relais, mais les fonctionnalités spécifiques au fournisseur (comme la sortie de réflexion étendue) peuvent ne pas être disponibles.
Si votre plateforme de relais utilise des conventions de chemin non standard (par exemple, pas de /claude ou /anthropic dans l’URL), FIM One revient au protocole compatible OpenAI — qui fonctionne pour la plupart des cas d’usage. Pour un support complet du protocole natif, vous pouvez définir le champ provider explicitement via l’interface utilisateur de configuration du modèle administrateur.

Stratégie de Configuration

Principal vs Rapide : Quand diviser

  • Diviser quand votre modèle principal est coûteux ou lent (par exemple, gpt-5.4 + gpt-5.4-nano). Le mode DAG exécute de nombreuses étapes en parallèle — utiliser un modèle rapide moins cher permet d’économiser des coûts significatifs.
  • Même modèle quand votre modèle est déjà bon marché (par exemple, deepseek-chat pour les deux). La surcharge de gestion de deux modèles n’en vaut pas la peine.

Quand activer le raisonnement

  • Activer pour les tâches analytiques complexes, la planification multi-étapes et les tâches nécessitant un jugement prudent
  • Désactiver (par défaut) pour les tâches de routine, les Q&R simples et les déploiements sensibles aux coûts
  • Le raisonnement augmente généralement le coût de 2 à 5 fois par requête — l’effort medium est un bon point de départ

Dimensionnement de la fenêtre de contexte

Définissez LLM_CONTEXT_SIZE pour correspondre à la fenêtre réelle de votre modèle :
ModèleFenêtre de contexte
GPT-5.41,050K (surcharge >272K)
o3 / o4-mini200K
Claude Opus 4.61M
Claude Sonnet 4.61M
Claude Haiku 4.5200K
Gemini 2.5 Pro1M
Gemini 3.1 Pro1M
DeepSeek V3.2128K
Qwen 3.5 Plus1M
Local (Ollama)4K–128K (varie)
Pour les modèles locaux, définissez explicitement LLM_CONTEXT_SIZE et LLM_MAX_OUTPUT_TOKENS — les valeurs par défaut supposent des fenêtres de contexte à l’échelle du cloud que les modèles locaux ne peuvent pas supporter.