FIM One fournit une interface d’administration complète pour gérer les fournisseurs LLM et les modèles. Ce guide couvre comment ajouter des fournisseurs, configurer des modèles individuels, affiner les paramètres avancés de sortie structurée et organiser les modèles en groupes pour un changement en un clic. Pour la configuration basée sur les variables d’environnement (sans interface d’administration), consultez Variables d’environnement. Pour les recommandations de sélection de modèles, consultez Modèles recommandés.Documentation Index
Fetch the complete documentation index at: https://docs.fim.ai/llms.txt
Use this file to discover all available pages before exploring further.
Architecture : Fournisseur, Modèle, Groupe
FIM One organise la configuration des LLM en trois niveaux :| Niveau | Ce qu’il représente | Exemple |
|---|---|---|
| Fournisseur | Un ensemble d’identifiants partagés (clé API + URL de base). Un fournisseur peut héberger de nombreux modèles. | « Mon compte OpenAI », « Relais Bedrock d’entreprise » |
| Modèle | Un modèle individuel sous un fournisseur. Possède son propre nom d’affichage, identifiant de modèle API et paramètres avancés. | « GPT-4o », « Claude Sonnet 4.6 » |
| Groupe de modèles | Un préréglage nommé qui assigne des modèles à des rôles (Général / Rapide / Raisonnement). L’activation d’un groupe bascule tous les rôles à la fois. | « Production (OpenAI) », « Budget (DeepSeek) » |
Ajouter un fournisseur
Cliquer sur Ajouter un fournisseur
Cliquez sur le bouton Ajouter un fournisseur dans la zone supérieure droite de la section Fournisseurs.
Sélectionner un préréglage ou utiliser un point de terminaison personnalisé
La boîte de dialogue affiche des boutons de préréglage pour les fournisseurs courants : OpenAI, Anthropic (Claude), Google Gemini, DeepSeek, Mistral AI et OpenAI Compatible (point de terminaison personnalisé). Cliquer sur un préréglage remplit automatiquement le nom du fournisseur et l’URL de base.Choisissez OpenAI Compatible si votre fournisseur n’est pas répertorié (par exemple, un relais tiers, Ollama ou tout autre point de terminaison compatible OpenAI).
Entrer les identifiants
Remplissez les champs obligatoires :
- Nom du fournisseur — Un libellé convivial (par exemple, « Mon compte OpenAI »). Ceci est uniquement pour votre référence.
- URL de base — Le point de terminaison API. Les préréglages remplissent ceci automatiquement. Pour les points de terminaison personnalisés, entrez l’URL complète (par exemple,
http://localhost:11434/v1pour Ollama). - Clé API — La clé API de votre fournisseur. Pour les modèles locaux (Ollama), entrez une chaîne non vide (par exemple,
ollama).
Ajouter un modèle
Développer un fournisseur
Sur la page Modèles, cliquez sur le chevron à côté d’un fournisseur existant pour le développer et voir ses modèles.
Cliquer sur Ajouter un modèle
Cliquez sur le bouton Ajouter un modèle qui apparaît sous le fournisseur développé.
Entrer les détails du modèle
Remplissez les deux champs obligatoires :
- Nom d’affichage — Un nom lisible affiché dans l’interface utilisateur (par exemple, « GPT-4o », « Claude Sonnet »). Peut être n’importe quoi.
- Nom du modèle (API) — L’identifiant exact du modèle envoyé à l’API (par exemple,
gpt-4o,claude-sonnet-4-6,deepseek-chat). Doit correspondre à ce que votre fournisseur attend.
Configurer les paramètres avancés (facultatif)
Cliquez sur le bouton bascule Avancé pour révéler les paramètres supplémentaires : Jetons de sortie maximaux, Taille du contexte, Température, Appel de fonction natif et Mode JSON. Consultez la section Paramètres avancés ci-dessous pour plus de détails sur chacun.
Paramètres avancés
Chaque modèle dispose de paramètres avancés qui contrôlent la façon dont FIM One interagit avec l’API du fournisseur pour l’extraction de sortie structurée. Ces paramètres se trouvent sous le bouton bascule Avancé dans la boîte de dialogue de création/modification du modèle.Appel de fonction natif
Nom du paramètre : Native Function Calling (stocké soustool_choice_enabled)
Par défaut : ACTIVÉ
Contrôle si FIM One utilise tool_choice forcé pour l’extraction de sortie structurée. C’est le niveau 1 dans la chaîne de dégradation de sortie structurée — la méthode la plus fiable quand le modèle la supporte.
Quand désactiver :
- Votre modèle retourne des erreurs comme
"tool_choice 'specified' is incompatible with thinking enabled"— courant avec les modèles à réflexion toujours activée (DeepSeek R1, Kimi K2.5) - Les demandes de sortie structurée sont régulièrement lentes avec une pénalité d’environ 10 secondes par appel, suivie d’une retombée à JSON Mode de toute façon
tool_choice="auto", qui fonctionne avec tous les modèles indépendamment de ce paramètre.
Ce paramètre affecte uniquement la sélection d’outil forcée utilisée pour l’extraction de sortie structurée (planification DAG, annotation de schéma). Il n’affecte pas l’agent ReAct, qui décide librement quand appeler des outils en utilisant
tool_choice="auto".Mode JSON
Nom du paramètre : JSON Mode (stocké sousjson_mode_enabled)
Valeur par défaut : ACTIVÉ
Contrôle si FIM One utilise response_format=json_object pour la sortie structurée. Ceci est le Niveau 2 dans la chaîne de dégradation.
Quand désactiver :
- Votre fournisseur rejette le préfixage de message assistant — principalement les relais AWS Bedrock, qui génèrent l’erreur
"This model does not support assistant message prefill"
Température
Par défaut : 0.7 (hérité du paramètre global s’il n’est pas défini) Contrôle le caractère aléatoire de la sortie du modèle. Plage : 0 (déterministe) à 2 (très créatif).Lorsque le raisonnement/la réflexion étendue est activé pour les modèles Anthropic, la température est automatiquement forcée à 1.0 par le système. Vous n’avez pas besoin de la définir manuellement.
Tokens de sortie maximum
Le nombre maximum de tokens que le modèle peut générer dans une seule réponse. Laissez vide pour utiliser la valeur par défaut du système (64 000). Pour les modèles locaux avec une VRAM limitée, définissez explicitement une valeur inférieure (par exemple, 8192).Taille du contexte
La taille de la fenêtre de contexte du modèle en tokens. Laissez vide pour utiliser la valeur par défaut du système (128 000). Définissez cette valeur pour correspondre à la capacité réelle de votre modèle — pour les modèles locaux, cela est souvent 4K-32K selon le modèle et la mémoire disponible.Configuration recommandée
La plupart des modèles fonctionnent correctement avec les paramètres par défaut (les deux bascules activées). Ajustez uniquement si vous rencontrez des erreurs ou une latence inutile. Le tableau ci-dessous couvre les fournisseurs et modèles courants. Les données proviennent des balises de capacité UniAPI et ont été vérifiées par rapport au comportement à l’exécution en date du 2026-03-22. Les capacités des modèles changent fréquemment — si vous rencontrez des erreurs, consultez la dernière documentation de votre fournisseur.Règles rapides
- FC natif ACTIVÉ pour les modèles avec support d’appel de fonction (la plupart des modèles modernes)
- FC natif DÉSACTIVÉ pour les modèles avec réflexion toujours activée qui rejettent
tool_choiceforcé - Mode JSON ACTIVÉ pour la plupart des modèles (paramètre par défaut sûr)
- Mode JSON DÉSACTIVÉ uniquement pour les relais AWS Bedrock (rejet de préfixe)
Matrice de Configuration par Fournisseur
OpenAI| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
gpt-5.4 | Général | 1,050K | 128K | ON | ON | Appels de fonction + sortie structurée + raisonnement |
gpt-5.4-mini | Rapide | 400K | 128K | ON | ON | Appels de fonction + sortie structurée + raisonnement |
o3-pro | Raisonnement | 200K | 100K | ON | ON | Modèle de raisonnement ; FC fonctionne avec pensée auto-désactivée |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
claude-sonnet-4-6 | Général | 1,000K | 64K | ON | ON | Appels de fonction + raisonnement ; pensée auto-désactivée pour FC |
claude-haiku-4-5 | Rapide | 200K | 64K | ON | ON | Appels de fonction supportés |
claude-opus-4-6 | Raisonnement | 1,000K | 128K | ON | ON | Appels de fonction + raisonnement ; pensée auto-désactivée pour FC |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
gemini-3.1-pro-preview | Général | 1,048K | 65K | ON | ON | Aperçu le plus récent ; successeur de gemini-3-pro-preview déprécié |
gemini-2.5-pro | Rapide | 1,048K | 65K | ON | ON | GA stable ; prêt pour la production |
gemini-3.1-pro-preview | Raisonnement | 1,048K | 65K | ON | ON | Support de la pensée avec thinking_level configurable |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
deepseek-chat | Général | 128K | 8K | ON | ON | Mode V3.2 sans pensée ; FC + mode JSON supportés |
deepseek-chat | Rapide | 128K | 8K | ON | ON | Même modèle que Général ; seulement deux ID de modèle API officiels existent |
deepseek-reasoner | Raisonnement | 128K | 64K | OFF | ON | Pensée toujours activée ; tool_choice forcé rejeté ; 64K inclut CoT |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
grok-4-1-fast-non-reasoning | Général | 2,000K | 30K | ON | ON | Appels de fonction + sortie structurée |
grok-3-mini-fast | Rapide | 131K | 131K | ON | ON | Appels de fonction + sortie structurée + raisonnement ; 131K est un budget de contexte partagé |
grok-4-1-fast-reasoning | Raisonnement | 2,000K | 30K | ON | ON | Appels de fonction + sortie structurée + raisonnement |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
qwen3.5-plus | Général | 1,000K | 64K | ON | ON | Appels de fonction + sortie structurée |
qwen-turbo-latest | Rapide | 1,000K | 16K | ON | ON | FC probablement supporté (tags UniAPI incomplets) |
qwq-plus | Raisonnement | 131K | 16K | ON | ON | Raisonnement + appels de fonction ; pensée basculable via enable_thinking |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
glm-4.7 | Général | 200K | 65K | OFF | ON | tool_choice forcé non supporté (auto uniquement) ; codage fort |
glm-4.7-flashx | Rapide | 200K | 65K | OFF | ON | Variante débit supérieur ; glm-4.7-flash gratuit également disponible |
glm-5 | Raisonnement | 200K | 65K | OFF | ON | Flagship MoE 745B ; raisonnement intégré (pas de basculement API) |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
kimi-k2.5 | Général | 262K | 65K | OFF | ON | FC fonctionne mais tool_choice forcé rejeté quand la pensée est activée (par défaut) |
kimi-k2 | Rapide | 131K | 32K | ON | ON | Sans pensée ; FC natif fonctionne (vérifié en production) |
kimi-k2-thinking | Raisonnement | 131K | — | OFF | ON | Pensée toujours activée ; tool_choice forcé rejeté |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
MiniMax-M2.7 | Général | 205K | 131K | ON | ON | Dernier (Mar 2026) ; appels de fonction + sortie structurée |
MiniMax-M2.5 | Rapide | 197K | 65K | ON | ON | Appels de fonction + sortie structurée ; lecture de cache moins chère ($0.03/MTok) |
MiniMax-M2.7-highspeed | Rapide (vitesse) | 205K | 131K | ON | ON | Débit 2x (~100 tok/s), coût 2x |
MiniMax-M2.5-highspeed | Rapide (vitesse) | 197K | 65K | ON | ON | Débit 2x (~100 tok/s), coût 2x |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
doubao-seed-2-0-pro | Général | 256K | 128K | ON | ON | Appels de fonction + sortie structurée + raisonnement |
doubao-seed-1-6 | Rapide | 256K | 16K | ON | ON | Appels de fonction + sortie structurée + raisonnement |
doubao-seed-1-6 | Raisonnement | 256K | 16K | ON | ON | Supporte reasoning_effort (minimal/low/medium/high) |
| Modèle | Rôle | Contexte | Sortie Max | FC Natif | Mode JSON | Notes |
|---|---|---|---|---|---|---|
llama-3.3-70b | Général | 131K | 16K | ON | ON | FC + mode JSON dépendent du fournisseur d’hébergement ; sortie max varie (2K–16K) |
”—” en Sortie Max signifie que le fournisseur n’a pas signalé de limite. En pratique, ces modèles supportent généralement 4K-16K jetons de sortie. Définissez Max Output Tokens explicitement dans les paramètres Avancés du modèle si vous avez besoin d’une valeur spécifique.
Groupes de modèles
Les groupes de modèles vous permettent d’assigner des modèles à des rôles spécifiques et de basculer entre les configurations en un seul clic.Rôles
FIM One utilise trois rôles de modèle. Chaque rôle sert un objectif différent dans le pipeline d’exécution :| Rôle | Utilisé pour | Recommandation |
|---|---|---|
| General | Planification, analyse, agent ReAct, exécution des étapes DAG (par défaut) | Votre modèle le plus capable (par ex., gpt-4o, claude-sonnet-4-6) |
| Fast | Étapes DAG avec model_hint="fast", compaction de contexte, résumé d’historique | Optimisé pour la vitesse et le coût (par ex., gpt-5-nano, deepseek-chat). Bascule vers General s’il n’est pas assigné. |
| Reasoning | Étapes DAG avec model_hint="reasoning", ReAct avec escalade de domaine (juridique/médical/financier) | Un modèle de raisonnement robuste (par ex., o3, deepseek-reasoner). Bascule vers General s’il n’est pas assigné. |
Création d’un groupe de modèles
Ouvrir la section Groupes
Sur la page Admin > Modèles, faites défiler jusqu’à la section Groupes de modèles.
Nommer le groupe
Entrez un nom descriptif (par exemple, « Production (OpenAI) », « Budget (DeepSeek) », « Local Dev »).
Assigner des modèles aux rôles
Pour chaque rôle (Général, Rapide, Raisonnement), sélectionnez un modèle dans la liste déroulante. La liste déroulante affiche tous les modèles actifs des fournisseurs actifs, groupés par nom de fournisseur. Vous pouvez laisser un rôle non assigné — il reviendra au modèle Général (ou aux modèles configurés par ENV si Général n’est pas assigné non plus).
Activation d’un groupe
Pour activer un groupe de modèles, utilisez le menu déroulant ou la commande d’activation sur la page Modèles. Un seul groupe peut être actif à la fois. L’activation d’un groupe applique immédiatement ses attributions de modèles à toutes les nouvelles conversations. Pour désactiver le groupe actuel (revenir aux modèles configurés par ENV), sélectionnez l’option de désactivation.Escalade de modèle consciente du domaine
Lorsque l’auto-routeur détecte un domaine spécialisé — juridique, médical ou financier — le système escalade automatiquement la sélection du modèle au-delà des attributions de rôle normales :- Mode ReAct : Le modèle général est remplacé par le modèle de raisonnement (
registry.get_by_role("reasoning")). Cela signifie que l’emplacement Raisonnement dans votre Groupe de modèles n’est pas seulement utilisé pour les étapes DAGmodel_hint="reasoning"— il sert également de cible d’escalade pour les tâches ReAct spécifiques au domaine. - Mode DAG : Le contexte du domaine est injecté dans l’invite du planificateur, le guidant pour assigner
model_hint="reasoning"aux étapes nécessitant une précision spécialisée.
REASONING_LLM_MODEL).
Variables d’environnement associées :
| Variable | Défaut | Description |
|---|---|---|
DAG_CITATION_VERIFICATION | true | Activer la vérification des citations post-étape pour le contenu juridique/médical/financier. Extrait les citations via regex et vérifie la précision via jugement LLM. |
DAG_STRUCTURED_CONTEXT_MULTIPLIER | 3.0 | Multiplicateur du budget de troncature pour le contenu structuré (citations, tableaux, blocs de code) dans le contexte de dépendance DAG. Les valeurs plus élevées préservent plus de données structurées entre les étapes. |
Secours ENV
Lorsqu’aucun groupe de modèles configuré par l’administrateur n’est actif, FIM One se replie sur la configuration basée sur ENV :| Rôle | Variable ENV |
|---|---|
| Général | LLM_MODEL |
| Rapide | FAST_LLM_MODEL (se replie sur LLM_MODEL) |
| Raisonnement | REASONING_LLM_MODEL (se replie sur LLM_MODEL) |
Exportation et importation
La page Modèles prend en charge l’exportation de l’intégralité de votre configuration de fournisseur et de modèle (fournisseurs, modèles et groupes) sous forme de fichier JSON, et son importation sur une autre instance. Ceci est utile pour :- Migrer la configuration entre les environnements de développement, de staging et de production
- Partager une configuration de modèle éprouvée avec les membres de l’équipe
- Sauvegarder votre configuration avant d’apporter des modifications