Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.fim.ai/llms.txt

Use this file to discover all available pages before exploring further.

FIM One fournit une interface d’administration complète pour gérer les fournisseurs LLM et les modèles. Ce guide couvre comment ajouter des fournisseurs, configurer des modèles individuels, affiner les paramètres avancés de sortie structurée et organiser les modèles en groupes pour un changement en un clic. Pour la configuration basée sur les variables d’environnement (sans interface d’administration), consultez Variables d’environnement. Pour les recommandations de sélection de modèles, consultez Modèles recommandés.

Architecture : Fournisseur, Modèle, Groupe

FIM One organise la configuration des LLM en trois niveaux :
NiveauCe qu’il représenteExemple
FournisseurUn ensemble d’identifiants partagés (clé API + URL de base). Un fournisseur peut héberger de nombreux modèles.« Mon compte OpenAI », « Relais Bedrock d’entreprise »
ModèleUn modèle individuel sous un fournisseur. Possède son propre nom d’affichage, identifiant de modèle API et paramètres avancés.« GPT-4o », « Claude Sonnet 4.6 »
Groupe de modèlesUn préréglage nommé qui assigne des modèles à des rôles (Général / Rapide / Raisonnement). L’activation d’un groupe bascule tous les rôles à la fois.« Production (OpenAI) », « Budget (DeepSeek) »
Provider: "My OpenAI Account"
  ├── Model: "GPT-4o"         (model_name: gpt-4o)
  ├── Model: "GPT-5 Nano"     (model_name: gpt-5-nano)
  └── Model: "o3"             (model_name: o3)

Provider: "Anthropic Direct"
  ├── Model: "Claude Sonnet"   (model_name: claude-sonnet-4-6)
  └── Model: "Claude Haiku"    (model_name: claude-haiku-4-5)

Group: "Production"
  ├── General → GPT-4o
  ├── Fast    → GPT-5 Nano
  └── Reasoning → o3

Ajouter un fournisseur

1

Ouvrir la page Modèles

Accédez à Admin (barre latérale) et sélectionnez l’onglet Modèles.
2

Cliquer sur Ajouter un fournisseur

Cliquez sur le bouton Ajouter un fournisseur dans la zone supérieure droite de la section Fournisseurs.
3

Sélectionner un préréglage ou utiliser un point de terminaison personnalisé

La boîte de dialogue affiche des boutons de préréglage pour les fournisseurs courants : OpenAI, Anthropic (Claude), Google Gemini, DeepSeek, Mistral AI et OpenAI Compatible (point de terminaison personnalisé). Cliquer sur un préréglage remplit automatiquement le nom du fournisseur et l’URL de base.Choisissez OpenAI Compatible si votre fournisseur n’est pas répertorié (par exemple, un relais tiers, Ollama ou tout autre point de terminaison compatible OpenAI).
4

Entrer les identifiants

Remplissez les champs obligatoires :
  • Nom du fournisseur — Un libellé convivial (par exemple, « Mon compte OpenAI »). Ceci est uniquement pour votre référence.
  • URL de base — Le point de terminaison API. Les préréglages remplissent ceci automatiquement. Pour les points de terminaison personnalisés, entrez l’URL complète (par exemple, http://localhost:11434/v1 pour Ollama).
  • Clé API — La clé API de votre fournisseur. Pour les modèles locaux (Ollama), entrez une chaîne non vide (par exemple, ollama).
5

Enregistrer

Cliquez sur Créer. Le fournisseur apparaît dans la liste, prêt pour que vous y ajoutiez des modèles.
Vous pouvez créer plusieurs fournisseurs pour le même service. Par exemple, deux fournisseurs « OpenAI » avec des clés API différentes pour des comptes de facturation distincts, ou « Anthropic (Direct) » et « Anthropic (via Bedrock) » avec des URL de base différentes.

Ajouter un modèle

1

Développer un fournisseur

Sur la page Modèles, cliquez sur le chevron à côté d’un fournisseur existant pour le développer et voir ses modèles.
2

Cliquer sur Ajouter un modèle

Cliquez sur le bouton Ajouter un modèle qui apparaît sous le fournisseur développé.
3

Entrer les détails du modèle

Remplissez les deux champs obligatoires :
  • Nom d’affichage — Un nom lisible affiché dans l’interface utilisateur (par exemple, « GPT-4o », « Claude Sonnet »). Peut être n’importe quoi.
  • Nom du modèle (API) — L’identifiant exact du modèle envoyé à l’API (par exemple, gpt-4o, claude-sonnet-4-6, deepseek-chat). Doit correspondre à ce que votre fournisseur attend.
4

Configurer les paramètres avancés (facultatif)

Cliquez sur le bouton bascule Avancé pour révéler les paramètres supplémentaires : Jetons de sortie maximaux, Taille du contexte, Température, Appel de fonction natif et Mode JSON. Consultez la section Paramètres avancés ci-dessous pour plus de détails sur chacun.
5

Enregistrer

Cliquez sur Créer. Le modèle apparaît sous son fournisseur et est maintenant disponible pour l’attribution aux groupes de modèles.

Paramètres avancés

Chaque modèle dispose de paramètres avancés qui contrôlent la façon dont FIM One interagit avec l’API du fournisseur pour l’extraction de sortie structurée. Ces paramètres se trouvent sous le bouton bascule Avancé dans la boîte de dialogue de création/modification du modèle.

Appel de fonction natif

Nom du paramètre : Native Function Calling (stocké sous tool_choice_enabled) Par défaut : ACTIVÉ Contrôle si FIM One utilise tool_choice forcé pour l’extraction de sortie structurée. C’est le niveau 1 dans la chaîne de dégradation de sortie structurée — la méthode la plus fiable quand le modèle la supporte. Quand désactiver :
  • Votre modèle retourne des erreurs comme "tool_choice 'specified' is incompatible with thinking enabled" — courant avec les modèles à réflexion toujours activée (DeepSeek R1, Kimi K2.5)
  • Les demandes de sortie structurée sont régulièrement lentes avec une pénalité d’environ 10 secondes par appel, suivie d’une retombée à JSON Mode de toute façon
Effet quand désactivé : FIM One ignore le niveau 1 (appel de fonction natif) et commence au niveau 2 (JSON Mode) pour la sortie structurée. L’appel d’outil de l’agent ReAct n’est complètement pas affecté — il utilise tool_choice="auto", qui fonctionne avec tous les modèles indépendamment de ce paramètre.
Ce paramètre affecte uniquement la sélection d’outil forcée utilisée pour l’extraction de sortie structurée (planification DAG, annotation de schéma). Il n’affecte pas l’agent ReAct, qui décide librement quand appeler des outils en utilisant tool_choice="auto".
Pour les détails techniques, voir Compatibilité des fournisseurs LLM — tool_choice_enabled.

Mode JSON

Nom du paramètre : JSON Mode (stocké sous json_mode_enabled) Valeur par défaut : ACTIVÉ Contrôle si FIM One utilise response_format=json_object pour la sortie structurée. Ceci est le Niveau 2 dans la chaîne de dégradation. Quand désactiver :
  • Votre fournisseur rejette le préfixage de message assistant — principalement les relais AWS Bedrock, qui génèrent l’erreur "This model does not support assistant message prefill"
Effet quand désactivé : FIM One ignore le Niveau 2 (Mode JSON) et bascule au Niveau 3 (extraction de texte brut). Les modèles modernes produisent du JSON valide à partir des instructions de prompt seules, il n’y a donc généralement aucune perte de qualité. Pour les détails techniques, consultez Compatibilité des fournisseurs LLM — json_mode_enabled.

Température

Par défaut : 0.7 (hérité du paramètre global s’il n’est pas défini) Contrôle le caractère aléatoire de la sortie du modèle. Plage : 0 (déterministe) à 2 (très créatif).
Lorsque le raisonnement/la réflexion étendue est activé pour les modèles Anthropic, la température est automatiquement forcée à 1.0 par le système. Vous n’avez pas besoin de la définir manuellement.

Tokens de sortie maximum

Le nombre maximum de tokens que le modèle peut générer dans une seule réponse. Laissez vide pour utiliser la valeur par défaut du système (64 000). Pour les modèles locaux avec une VRAM limitée, définissez explicitement une valeur inférieure (par exemple, 8192).

Taille du contexte

La taille de la fenêtre de contexte du modèle en tokens. Laissez vide pour utiliser la valeur par défaut du système (128 000). Définissez cette valeur pour correspondre à la capacité réelle de votre modèle — pour les modèles locaux, cela est souvent 4K-32K selon le modèle et la mémoire disponible.

Configuration recommandée

La plupart des modèles fonctionnent correctement avec les paramètres par défaut (les deux bascules activées). Ajustez uniquement si vous rencontrez des erreurs ou une latence inutile. Le tableau ci-dessous couvre les fournisseurs et modèles courants. Les données proviennent des balises de capacité UniAPI et ont été vérifiées par rapport au comportement à l’exécution en date du 2026-03-22. Les capacités des modèles changent fréquemment — si vous rencontrez des erreurs, consultez la dernière documentation de votre fournisseur.

Règles rapides

  • FC natif ACTIVÉ pour les modèles avec support d’appel de fonction (la plupart des modèles modernes)
  • FC natif DÉSACTIVÉ pour les modèles avec réflexion toujours activée qui rejettent tool_choice forcé
  • Mode JSON ACTIVÉ pour la plupart des modèles (paramètre par défaut sûr)
  • Mode JSON DÉSACTIVÉ uniquement pour les relais AWS Bedrock (rejet de préfixe)

Matrice de Configuration par Fournisseur

OpenAI
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
gpt-5.4Général1,050K128KONONAppels de fonction + sortie structurée + raisonnement
gpt-5.4-miniRapide400K128KONONAppels de fonction + sortie structurée + raisonnement
o3-proRaisonnement200K100KONONModèle de raisonnement ; FC fonctionne avec pensée auto-désactivée
Anthropic (Claude)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
claude-sonnet-4-6Général1,000K64KONONAppels de fonction + raisonnement ; pensée auto-désactivée pour FC
claude-haiku-4-5Rapide200K64KONONAppels de fonction supportés
claude-opus-4-6Raisonnement1,000K128KONONAppels de fonction + raisonnement ; pensée auto-désactivée pour FC
Google Gemini
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
gemini-3.1-pro-previewGénéral1,048K65KONONAperçu le plus récent ; successeur de gemini-3-pro-preview déprécié
gemini-2.5-proRapide1,048K65KONONGA stable ; prêt pour la production
gemini-3.1-pro-previewRaisonnement1,048K65KONONSupport de la pensée avec thinking_level configurable
DeepSeek
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
deepseek-chatGénéral128K8KONONMode V3.2 sans pensée ; FC + mode JSON supportés
deepseek-chatRapide128K8KONONMême modèle que Général ; seulement deux ID de modèle API officiels existent
deepseek-reasonerRaisonnement128K64KOFFONPensée toujours activée ; tool_choice forcé rejeté ; 64K inclut CoT
xAI (Grok)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
grok-4-1-fast-non-reasoningGénéral2,000K30KONONAppels de fonction + sortie structurée
grok-3-mini-fastRapide131K131KONONAppels de fonction + sortie structurée + raisonnement ; 131K est un budget de contexte partagé
grok-4-1-fast-reasoningRaisonnement2,000K30KONONAppels de fonction + sortie structurée + raisonnement
Qwen (Alibaba Cloud)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
qwen3.5-plusGénéral1,000K64KONONAppels de fonction + sortie structurée
qwen-turbo-latestRapide1,000K16KONONFC probablement supporté (tags UniAPI incomplets)
qwq-plusRaisonnement131K16KONONRaisonnement + appels de fonction ; pensée basculable via enable_thinking
Zhipu (GLM)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
glm-4.7Général200K65KOFFONtool_choice forcé non supporté (auto uniquement) ; codage fort
glm-4.7-flashxRapide200K65KOFFONVariante débit supérieur ; glm-4.7-flash gratuit également disponible
glm-5Raisonnement200K65KOFFONFlagship MoE 745B ; raisonnement intégré (pas de basculement API)
Moonshot (Kimi)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
kimi-k2.5Général262K65KOFFONFC fonctionne mais tool_choice forcé rejeté quand la pensée est activée (par défaut)
kimi-k2Rapide131K32KONONSans pensée ; FC natif fonctionne (vérifié en production)
kimi-k2-thinkingRaisonnement131KOFFONPensée toujours activée ; tool_choice forcé rejeté
MiniMax
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
MiniMax-M2.7Général205K131KONONDernier (Mar 2026) ; appels de fonction + sortie structurée
MiniMax-M2.5Rapide197K65KONONAppels de fonction + sortie structurée ; lecture de cache moins chère ($0.03/MTok)
MiniMax-M2.7-highspeedRapide (vitesse)205K131KONONDébit 2x (~100 tok/s), coût 2x
MiniMax-M2.5-highspeedRapide (vitesse)197K65KONONDébit 2x (~100 tok/s), coût 2x
ByteDance (Doubao)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
doubao-seed-2-0-proGénéral256K128KONONAppels de fonction + sortie structurée + raisonnement
doubao-seed-1-6Rapide256K16KONONAppels de fonction + sortie structurée + raisonnement
doubao-seed-1-6Raisonnement256K16KONONSupporte reasoning_effort (minimal/low/medium/high)
Meta (Llama)
ModèleRôleContexteSortie MaxFC NatifMode JSONNotes
llama-3.3-70bGénéral131K16KONONFC + mode JSON dépendent du fournisseur d’hébergement ; sortie max varie (2K–16K)
”—” en Sortie Max signifie que le fournisseur n’a pas signalé de limite. En pratique, ces modèles supportent généralement 4K-16K jetons de sortie. Définissez Max Output Tokens explicitement dans les paramètres Avancés du modèle si vous avez besoin d’une valeur spécifique.
Comment diagnostiquer : Vérifiez les journaux de votre application pour les avertissements structured_llm_call: native_fc call raised. Si vous voyez ces avertissements suivis d’une extraction Mode JSON réussie, le modèle ne bénéficie pas des appels de fonction natifs. Désactivez Native Function Calling pour ce modèle pour éliminer l’appel API gaspillé et la pénalité de latence d’environ 10 secondes par demande de sortie structurée.
Les capacités des modèles changent fréquemment à mesure que les fournisseurs mettent à jour leurs API. Les recommandations ci-dessus sont basées sur les données du 2026-03-26 (tags de capacité UniAPI + vérification d’exécution en production). Si un modèle qui fonctionnait précédemment commence à retourner des erreurs, vérifiez le journal des modifications du fournisseur pour les changements cassants.

Groupes de modèles

Les groupes de modèles vous permettent d’assigner des modèles à des rôles spécifiques et de basculer entre les configurations en un seul clic.

Rôles

FIM One utilise trois rôles de modèle. Chaque rôle sert un objectif différent dans le pipeline d’exécution :
RôleUtilisé pourRecommandation
GeneralPlanification, analyse, agent ReAct, exécution des étapes DAG (par défaut)Votre modèle le plus capable (par ex., gpt-4o, claude-sonnet-4-6)
FastÉtapes DAG avec model_hint="fast", compaction de contexte, résumé d’historiqueOptimisé pour la vitesse et le coût (par ex., gpt-5-nano, deepseek-chat). Bascule vers General s’il n’est pas assigné.
ReasoningÉtapes DAG avec model_hint="reasoning", ReAct avec escalade de domaine (juridique/médical/financier)Un modèle de raisonnement robuste (par ex., o3, deepseek-reasoner). Bascule vers General s’il n’est pas assigné.

Création d’un groupe de modèles

1

Ouvrir la section Groupes

Sur la page Admin > Modèles, faites défiler jusqu’à la section Groupes de modèles.
2

Cliquer sur Ajouter un groupe

Cliquez sur le bouton Ajouter un groupe.
3

Nommer le groupe

Entrez un nom descriptif (par exemple, « Production (OpenAI) », « Budget (DeepSeek) », « Local Dev »).
4

Assigner des modèles aux rôles

Pour chaque rôle (Général, Rapide, Raisonnement), sélectionnez un modèle dans la liste déroulante. La liste déroulante affiche tous les modèles actifs des fournisseurs actifs, groupés par nom de fournisseur. Vous pouvez laisser un rôle non assigné — il reviendra au modèle Général (ou aux modèles configurés par ENV si Général n’est pas assigné non plus).
5

Enregistrer

Cliquez sur Créer. Le groupe est maintenant disponible pour activation.

Activation d’un groupe

Pour activer un groupe de modèles, utilisez le menu déroulant ou la commande d’activation sur la page Modèles. Un seul groupe peut être actif à la fois. L’activation d’un groupe applique immédiatement ses attributions de modèles à toutes les nouvelles conversations. Pour désactiver le groupe actuel (revenir aux modèles configurés par ENV), sélectionnez l’option de désactivation.
Le changement du groupe de modèles actif affecte toutes les nouvelles conversations à l’échelle du système. Les conversations en cours existantes continuent d’utiliser le modèle qui était actif au moment de leur démarrage.

Escalade de modèle consciente du domaine

Lorsque l’auto-routeur détecte un domaine spécialisé — juridique, médical ou financier — le système escalade automatiquement la sélection du modèle au-delà des attributions de rôle normales :
  • Mode ReAct : Le modèle général est remplacé par le modèle de raisonnement (registry.get_by_role("reasoning")). Cela signifie que l’emplacement Raisonnement dans votre Groupe de modèles n’est pas seulement utilisé pour les étapes DAG model_hint="reasoning" — il sert également de cible d’escalade pour les tâches ReAct spécifiques au domaine.
  • Mode DAG : Le contexte du domaine est injecté dans l’invite du planificateur, le guidant pour assigner model_hint="reasoning" aux étapes nécessitant une précision spécialisée.
Cette escalade est automatique et ne nécessite aucune configuration au-delà de l’attribution d’un modèle de Raisonnement dans votre Groupe de modèles actif (ou via la variable d’environnement REASONING_LLM_MODEL). Variables d’environnement associées :
VariableDéfautDescription
DAG_CITATION_VERIFICATIONtrueActiver la vérification des citations post-étape pour le contenu juridique/médical/financier. Extrait les citations via regex et vérifie la précision via jugement LLM.
DAG_STRUCTURED_CONTEXT_MULTIPLIER3.0Multiplicateur du budget de troncature pour le contenu structuré (citations, tableaux, blocs de code) dans le contexte de dépendance DAG. Les valeurs plus élevées préservent plus de données structurées entre les étapes.
Si votre charge de travail implique des requêtes juridiques, médicales ou financières, assurez-vous que votre modèle de Raisonnement est un bon raisonneur (par exemple, o3, claude-opus-4-6, deepseek-reasoner). L’escalade automatique dépend de cet emplacement étant rempli avec un modèle capable de gérer les exigences de précision critiques au domaine.

Secours ENV

Lorsqu’aucun groupe de modèles configuré par l’administrateur n’est actif, FIM One se replie sur la configuration basée sur ENV :
RôleVariable ENV
GénéralLLM_MODEL
RapideFAST_LLM_MODEL (se replie sur LLM_MODEL)
RaisonnementREASONING_LLM_MODEL (se replie sur LLM_MODEL)
Les modèles configurés par l’administrateur ont toujours la priorité sur les variables ENV. La vérification de l’état du système considère les deux sources — tant qu’un groupe de modèles actif ou des variables ENV valides sont configurés, le sous-système LLM signale un état sain. Pour la référence ENV complète, consultez Variables d’environnement.

Exportation et importation

La page Modèles prend en charge l’exportation de l’intégralité de votre configuration de fournisseur et de modèle (fournisseurs, modèles et groupes) sous forme de fichier JSON, et son importation sur une autre instance. Ceci est utile pour :
  • Migrer la configuration entre les environnements de développement, de staging et de production
  • Partager une configuration de modèle éprouvée avec les membres de l’équipe
  • Sauvegarder votre configuration avant d’apporter des modifications
La configuration exportée n’inclut pas les clés API. Après l’importation, vous devez modifier chaque fournisseur pour entrer la clé API appropriée.