Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.fim.ai/llms.txt

Use this file to discover all available pages before exploring further.

FIM One ist anbieteragnostisch — jeder OpenAI-kompatible Endpunkt funktioniert. Diese Seite hilft Ihnen, die beste Modellkombination für Ihren Anwendungsfall auszuwählen. Konfigurationsdetails finden Sie unter Umgebungsvariablen.

Wie FIM One Modelle nutzt

FIM One hat drei Modellrollen:
RolleUmgebungsvariableVerwendet für
GeneralLLM_MODELPlanung, Analyse, ReAct-Agent, komplexes Reasoning
FastFAST_LLM_MODELDAG-Schrittausführung, Kontextkomprimierung (günstiger, schneller)
ReasoningREASONING_LLM_MODELTiefe Analyse, komplexe Planung, mathematische Beweise
Fast und Reasoning fallen auf General zurück, falls nicht konfiguriert. Für Produktionsbereitstellungen bietet die Aufteilung in mindestens zwei Modelle (General + Fast) das beste Kosten-/Qualitätsverhältnis. Diese Rollen können über Umgebungsvariablen oder über die Funktion Model Groups der Admin-Benutzeroberfläche konfiguriert werden, die Ein-Klick-Umschaltung zwischen Modellsätzen ermöglicht. Siehe Model Management für das vollständige Admin-UI-Handbuch.

Schnellauswahlmatrix

AnbieterHaupt-LLMSchnelles LLMReasoningVisionHinweise
OpenAIgpt-5.4gpt-5.4-mini / gpt-5.4-nanoreasoning_effort✅ AlleBeste native Tool-Aufrufe; GPT-5.4 ist neuestes Flaggschiff (März 2026)
Anthropicclaude-sonnet-4-6claude-haiku-4-5✅ via LiteLLM✅ AlleNative API-Weiterleitung; vollständige reasoning_content-Unterstützung; 1M Kontext GA
Google Geminigemini-2.5-pro / gemini-3.1-pro-previewgemini-2.5-flash / gemini-3-flash-previewreasoning_effort✅ Alle2.5 ist stabiles GA; 3.x ist Vorschau; gemini-3-pro-preview am 9. März abgeschaltet
DeepSeekdeepseek-chat (V3.2)deepseek-chatdeepseek-reasonerNur Text; V4 (Apr 2026) wird Vision hinzufügen
Qwen (Alibaba)qwen3.5-plus / qwen3-maxqwen3.5-flash / qwen-turboenable_thinking auf qwen3-max⚠️ nur qwen3.5Stärkste chinesische Sprache; qwq/Reasoning nur Text
ChatGLM (Zhipu)glm-4.7glm-4.7-flashglm-5⚠️ GLM-4.6VErzwungene FC nicht unterstützt; Vision erfordert separates VLM-Modell
MiniMaxMiniMax-M2.7MiniMax-M2.5Nur Text; M2.7 neueste (März 2026); 80,2% SWE-Bench
Kimi (Moonshot)kimi-k2.5kimi-k2kimi-k2-thinking⚠️ nur K2.5K2-thinking nur Text; erzwungene FC nicht unterstützt mit Thinking
Ollama (lokal)qwen3.5 / llama4qwen3.5:9bVariiertVollständig offline, kein API-Schlüssel; Llama 4 unterstützt Vision
Vision gibt an, ob das Modell Bildeingaben akzeptiert. Dies ist erforderlich für Intelligente Dokumentenverarbeitung (IDP) – wenn Ihr Modell Vision nicht unterstützt, greift IDP auf reine Textextraktion zurück. Anbieter mit ⚠️ haben Vision auf einigen Modellen, aber nicht auf anderen; überprüfen Sie das spezifische Modell, das Sie verwenden.

Strukturierte Ausgabekompatibilität

Der DAG-Planer von FIM One benötigt, dass das Modell gültiges strukturiertes JSON zurückgibt. Intern versucht es drei Extraktionsebenen der Reihe nach:
  1. Native Function Calling — zwingt das Modell, JSON auszugeben, das einem Schema über die Tool-Call-API entspricht. Am zuverlässigsten.
  2. JSON Mode — fordert response_format: json_object an. Garantiert gültiges JSON, erzwingt aber keine Schemakonformität.
  3. Plain Text Extraction — analysiert JSON aus Freitext als letzter Ausweg.
Modelle, die Level 1 (native FC mit erzwungenem tool_choice) unterstützen, bieten die beste Planungszuverlässigkeit. Wenn ein Modell nur Level 2 erreicht, hängt die Ausgabequalität davon ab, wie gut es Anweisungen befolgt — schwächere Modelle können gültiges JSON produzieren, das nicht der erwarteten Struktur entspricht.
AnbieterErzwungene Function CallingJSON ModePlanungszuverlässigkeit
OpenAI (GPT-5.x, o3)✅ Vollständige Unterstützung⭐⭐⭐ Ausgezeichnet
Anthropic (Claude 4.x)⚠️ Konflikte mit Thinking-Modus⭐⭐⭐ Ausgezeichnet (starke Anweisungsbefolgung kompensiert)
Google Gemini (2.5/3.x)✅ Vollständige Unterstützung⭐⭐⭐ Ausgezeichnet
Mistral✅ Vollständige Unterstützung⭐⭐ Gut
DeepSeek (V3.2)⚠️ Instabil (tool_choice="required" funktioniert, "auto" unzuverlässig)⭐⭐ Gut
Qwen (3.x)⚠️ Teilweise⭐⭐ Gut
Kimi (K2.5)⚠️ Teilweise — auto nur wenn Thinking aktiviert⭐ Befriedigend — kann fehlerhafte Pläne produzieren
ChatGLM (GLM-4.7/5)❌ Nicht unterstützt (auto nur)⭐ Befriedigend
MiniMax (M2.5/M2.7)✅ Vollständige Unterstützung⭐⭐ Gut
Lokal (Ollama)Variiert je nach ModellVariiert⭐ Befriedigend — 32B+ empfohlen
Wenn Sie die Fehlermeldung „failed to generate a valid task plan” sehen, ist die strukturierte Ausgabefähigkeit des Modells für DAG-Planung unzureichend. Wechseln Sie Ihr Main LLM zu einem Modell mit einer Bewertung von ⭐⭐⭐ oder ⭐⭐ oder höher, oder deaktivieren Sie den DAG-Modus und verwenden Sie stattdessen den einfacheren ReAct-Agenten.

Thinking / Reasoning Kompatibilität

Verschiedene Anbieter implementieren “Thinking” (Chain-of-Thought-Reasoning) auf grundlegend unterschiedliche Weise. Dies ist wichtig, da der Thinking-Modus mit Tool-Aufrufen in Konflikt geraten kann und die Ausgabe je nach Anbieter an verschiedenen Stellen erscheint. FIM One handhabt all dies transparent — diese Tabelle hilft dir zu verstehen, was unter der Haube passiert.

Schlüsselkonzepte

  • Opt-in — Denken ist standardmäßig deaktiviert; Sie aktivieren es über einen API-Parameter (z. B. reasoning_effort). Kann selektiv pro Aufruf deaktiviert werden.
  • Always-on — das Modell denkt immer; es gibt keinen API-Parameter, um es auszuschalten. Sie müssten zu einer Modellvariante ohne Denken wechseln, um es zu vermeiden.
  • Modell-Ebene — Denken wird durch die Modell-ID bestimmt, die Sie wählen (z. B. deepseek-reasoner vs deepseek-chat), nicht durch einen Parameter.

Kompatibilitätsmatrix

AnbieterAktivierungsmethodeDeaktivierbar?Thinking-AusgabeErzwungener FC-Konflikt?
OpenAI (GPT-5.x)reasoning_effort Parameter✅ Opt-inIntern (für Benutzer nicht sichtbar)⚠️ API verwirft reasoning_effort bei vorhandenen Tools
OpenAI (o-series)Immer aktiviertIntern (Tokens gezählt, nicht zurückgegeben)✅ Kein Konflikt
Anthropic (Claude 4.x)reasoning_effortthinking✅ Opt-inAPI reasoning_content Feld → Reasoning-Panel❌ Erzwungener FC + Thinking = 400 Fehler
Google Gemini (2.5/3.x)reasoning_effort Parameter✅ Opt-inIntern✅ Kein Konflikt
DeepSeekModellvariante (deepseek-reasoner)Modell-EbeneAPI reasoning_content Feld → Reasoning-Panel⚠️ Erzwungener FC unzuverlässig
Qwen (3.x)enable_thinking Parameter✅ Opt-in<think> Tags im Inhalt⚠️ Teilweise FC-Unterstützung
MiniMax (M2.7)Immer aktiviert<think> Tags im Inhalt✅ Kein Konflikt
ChatGLM (GLM-5)ModellvarianteModell-EbeneNicht externalisiertN/A — erzwungener FC nicht unterstützt
Kimi (K2-thinking)ModellvarianteModell-EbeneAPI-Feld❌ Erzwungener FC + Thinking = Konflikt

Wie FIM One jeden Fall handhabt

API-Level reasoning_content (Claude, DeepSeek): Das Reasoning-Feld wird direkt aus der API-Antwort gelesen und im UI-Reasoning-Panel angezeigt. Keine Nachbearbeitung erforderlich. <think> Tags im Inhalt (MiniMax, Qwen, QwQ und andere Open-Source-Derivate): FIM One entfernt automatisch <think>...</think> Tags aus dem Inhaltsfeld und leitet den Thinking-Text zum Reasoning-Panel um. Dies funktioniert sowohl für Streaming- als auch für Non-Streaming-Antworten. Erzwungene FC + Thinking-Konflikte (Claude, Kimi): Wenn FIM One erzwungenes Function Calling benötigt (z. B. während der strukturierten Ausgabeextraktion der DAG-Planung), deaktiviert es vorübergehend das Thinking für diesen spezifischen Aufruf, indem es reasoning_effort=None übergibt. Dies funktioniert, weil Claudes Thinking opt-in ist — das Nichtversenden des Parameters bedeutet kein Thinking, was den 400-Fehler vermeidet. Für Anbieter, bei denen Thinking nicht deaktiviert werden kann (MiniMax), funktioniert erzwungenes FC einwandfrei, da diese Anbieter die Kombination nicht ablehnen. Fallback-Kette: Wenn erzwungenes Function Calling aus irgendeinem Grund fehlschlägt, führt FIM One automatisch einen Fallback durch: natives FC → JSON-Modus → Klartext-Extraktion. Dieser dreistufige Ansatz stellt sicher, dass die Planung auch bei Anbietern mit teilweiser Tool-Calling-Unterstützung funktioniert.
Wenn Sie ein Modell verwenden, das immer denkt (MiniMax M2.7, DeepSeek R1) als Ihr Haupt-LLM, wird die Thinking-Ausgabe im Reasoning-Panel jeder Agent-Iteration angezeigt. Dies ist normal — es beeinträchtigt die Funktionalität nicht, und Sie können den Reasoning-Prozess des Modells sehen.

Anbieterdetails

OpenAI

Die am meisten bewährte Option. OpenAI-Modelle haben die beste native Unterstützung für Funktionsaufrufe (Tool-Calling), was sich direkt auf die Zuverlässigkeit von Agenten auswirkt. Die GPT-5-Familie (August 2025+) stellt einen großen generationalen Sprung gegenüber GPT-4 dar. Empfohlene Modelle:
  • Main: gpt-5.4 (neuestes Flaggschiff, März 2026 — 1M+ Kontext, Computer-Nutzung) oder o3 (beste Reasoning-Genauigkeit)
  • Fast: gpt-5.4-mini (0,75/0,75/4,50 pro MTok) oder gpt-5.4-nano (günstigste bei 0,20/0,20/1,25 pro MTok)
  • Budget Fast: gpt-5-mini (0,25/0,25/2,00) und gpt-5-nano (0,05/0,05/0,40) bleiben zu niedrigeren Preisen verfügbar
  • Legacy: gpt-4.1 (noch in API, 1M Kontext, gut für Coding)
Reasoning: Setzen Sie LLM_REASONING_EFFORT=medium — funktioniert nativ mit o-Series und GPT-5.x Modellen. GPT-5.4 unterstützt reasoning_effort mit Stufen none, low, medium, high, xhigh. Die o-Series erfordert max_completion_tokens statt max_tokens, was LiteLLM automatisch handhabt. Hinweis: GPT-5.x lässt reasoning_effort immer noch fallen, wenn Tools in /v1/chat/completions vorhanden sind — FIM One lässt es während Agent-Tool-Use-Schritte stillschweigend fallen, damit Workflows ungestört ablaufen. GPT-5.4 erfordert temperature=1 — FIM One handhabt dies automatisch über LiteLLMs Parameterfilterung (drop_params).
ModellInput $/MTokOutput $/MTokKontext
gpt-5.4$2,50$15,001.050K (Aufschlag >272K)
gpt-5.4-mini$0,75$4,50400K
gpt-5.4-nano$0,20$1,25400K
o3$2,00$8,00200K
o4-mini$1,10$4,40200K
gpt-5-mini$0,25$2,00400K
gpt-5-nano$0,05$0,40400K
# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium
# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

Anthropic (Claude)

Claude zeichnet sich durch differenziertes Denken und komplexe mehrstufige Aufgaben aus. FIM One verbindet sich über LiteLLM, das Anthropic-Modelle automatisch über ihre native API leitet. Die aktuelle Generation ist Claude 4.6 (Februar 2026). Empfohlene Modelle:
  • Main: claude-sonnet-4-6 (beste Balance zwischen Leistung und Kosten — 3/3/15 pro MTok)
  • Fast: claude-haiku-4-5 (schnell und günstig — 1/1/5 pro MTok)
  • Premium: claude-opus-4-6 (am leistungsfähigsten, 128K maximale Ausgabe — 5/5/25 pro MTok)
Basis-URL: https://api.anthropic.com/v1/ Opus 4.6 und Sonnet 4.6 haben ein Kontextfenster von 1M (GA seit 13. März 2026 — kein Beta-Header erforderlich). Haiku 4.5 hat ein Kontextfenster von 200K. Reasoning: Setzen Sie LLM_REASONING_EFFORT=medium — LiteLLM leitet Anthropic-Modelle über die native API, daher wird reasoning_content (erweitertes Denken) vollständig zurückgegeben und ist im UI-Schritt „thinking” sichtbar. Claude 4.6-Modelle unterstützen Adaptive Thinking (thinking: {type: "adaptive"}), das manuelles budget_tokens ersetzt — LiteLLM handhabt die Übersetzung automatisch. Wenn erweitertes Denken aktiviert ist, erfordert Anthropic temperature=1 — setzen Sie LLM_TEMPERATURE=1 in Ihrer .env oder Modellkonfiguration. Siehe Extended Thinking für Details.
# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium

Google Gemini

Gemini-Modelle bieten starke Leistung zu wettbewerbsfähigen Preisen über Googles OpenAI-kompatiblen Endpunkt. Die 3.x-Generation (Ende 2025+) ist ein großer Sprung — Gemini 3 Flash übertrifft 2.5 Pro und ist dabei 3x schneller. Hinweis: gemini-3-pro-preview wurde am 9. März 2026 abgeschaltet — verwenden Sie stattdessen gemini-3.1-pro-preview. Empfohlene Modelle:
  • Stabil (GA): gemini-2.5-pro (Hauptmodell) + gemini-2.5-flash (schnell) — produktionsreif
  • Neueste (Vorschau): gemini-3.1-pro-preview (Hauptmodell) + gemini-3-flash-preview (schnell) + gemini-3.1-flash-lite-preview (Budget schnell) — beste Leistung, aber Vorschaustatus
Basis-URL: https://generativelanguage.googleapis.com/v1beta/openai/ Reasoning: reasoning_effort wird auf dem Kompatibilitäts-Endpunkt unterstützt — setzen Sie LLM_REASONING_EFFORT=medium und es funktioniert sofort.
ModellInput $/MTokOutput $/MTokStatus
gemini-3.1-pro-preview$2.00$12.00Vorschau
gemini-3-flash-preview$0.50$3.00Vorschau
gemini-3.1-flash-lite-preview$0.25$1.50Vorschau (März 2026)
gemini-2.5-pro$1.25$10.00Stabil GA
gemini-2.5-flash$0.30$2.50Stabil GA
gemini-2.5-flash-lite$0.10$0.40Stabil GA
# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium
# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium

DeepSeek

DeepSeek bietet das beste Kosten-Leistungs-Verhältnis auf dem Markt. V3.2 (Dezember 2025) vereinigte die Chat- und Reasoning-Linien in einem einzigen Modell mit unglaublich niedrigen Preisen. Modell-IDs (beide unterstützt durch V3.2):
  • deepseek-chat — Allzweck (Non-Thinking-Modus)
  • deepseek-reasoner — Chain-of-Thought-Reasoning-Modus, gibt reasoning_content zurück
Basis-URL: https://api.deepseek.com Preise: 0,28/0,28/0,42 pro MTok (Cache-Hit: $0,028) — bei weitem die günstigste Frontier-Klasse-API. Ausgabelimits: deepseek-chat maximale Ausgabe beträgt 8K Token (muss explizit über max_tokens gesetzt werden). deepseek-reasoner maximale Ausgabe beträgt 64K Token (einschließlich Chain-of-Thought).
V4 erwartet April 2026: Billionen-Parameter-Multimodal-Modell mit 1M-Kontextfenster. Erwarten Sie neue Modell-IDs bei der Veröffentlichung.
# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat
# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat

Chinesische Inlandsmodelle

Alle großen chinesischen Modellanbieter stellen OpenAI-kompatible Endpunkte bereit. Diese sind besonders stark für chinesischsprachige Aufgaben und bieten wettbewerbsfähige lokale Preise.

Qwen / 通义千问 (Alibaba Cloud)

Qwen 3.5 (Februar 2026) ist die neueste Generation — das 397B MoE Flaggschiff übertrifft GPT-5.2 bei MMLU-Pro. Stärkste Unterstützung für chinesische Sprache und günstigste Frontier-Class-Preisgestaltung (~$0,11/MTok Input).
  • Base URL (China): https://dashscope.aliyuncs.com/compatible-mode/v1
  • Base URL (Global): https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Main: qwen3.5-plus (Flaggschiff, 1M Kontext, 0,11/0,11/0,66 pro MTok) oder qwen3-max (256K, stärkste)
  • Fast: qwen3.5-flash (0,055/0,055/0,22 pro MTok) oder qwen-turbo (0,04/0,04/0,08 pro MTok)
  • Reasoning: qwen3-max mit enable_thinking: true Parameter (es gibt keine separate qwen3-max-thinking Modell-ID)
# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash
# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

ChatGLM / 智谱

GLM-4.7 und GLM-5 (2026) sind die neuesten Modelle. GLM-5 ist das 745B MoE Flaggschiff, das sich Claude Opus-Niveau bei Coding-/Agent-Aufgaben nähert.
  • Basis-URL (Inland): https://open.bigmodel.cn/api/paas/v4
  • Basis-URL (Z.AI International): https://api.z.ai/api/paas/v4
  • Hauptmodell: glm-4.7 (starkes Coding, 0.60/0.60/2.20 auf Z.AI)
  • Schnell: glm-4.7-flash (kostenlos!) oder glm-4.7-flashx (0.07/0.07/0.40, höherer Durchsatz)
  • Reasoning: glm-5 (745B MoE Flaggschiff, 1.00/1.00/3.20)
Erzwungenes tool_choice wird nicht unterstützt — nur "auto" funktioniert.
Einige HTTP-Clients hängen automatisch /v1 an Basis-URLs an. Zhipu verwendet /v4 — stellen Sie sicher, dass Ihr Client keinen OpenAI-ähnlichen Pfad-Suffix erzwingt, sonst erhalten Sie 404-Fehler.
# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash
# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

MiniMax

MiniMax M2.7 (18. März 2026) ist das neueste Modell mit offenen Gewichten und erreicht 80,2% auf SWE-Bench. M2.5 bleibt als schnelle/Budget-Option verfügbar. MiniMax bietet zwei separate API-Endpunkte für verschiedene Regionen:
  • Basis-URL (Global/海外版): https://api.minimax.io/v1 — für Benutzer außerhalb des chinesischen Festlands
  • Basis-URL (China/国内版): https://api.minimaxi.com/v1 — für Benutzer im chinesischen Festland (beachten Sie das zusätzliche i in minimaxi)
  • Main: MiniMax-M2.7
  • Fast: MiniMax-M2.5
  • Speed: MiniMax-M2.7-highspeed (2x Kosten, niedrigere Latenz)
ModellInput $/MTokOutput $/MTok
MiniMax-M2.7$0.30$1.20
MiniMax-M2.7-highspeed$0.60$2.40
MiniMax-M2.5$0.30$1.20
MiniMax-M2.5-highspeed$0.60$2.40
# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5
# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

Kimi / 月之暗面 (Moonshot)

Kimi K2.5 (Januar 2026) hat 256K Kontext und starke Codierungsleistung (76,8% SWE-Bench unter Open-Source-Modellen).
  • Basis-URL (Global): https://api.moonshot.ai/v1
  • Basis-URL (China): https://api.moonshot.cn/v1
  • Hauptmodell: kimi-k2.5
  • Schnell: kimi-k2 (kein Denken, Funktionsaufrufe funktionieren)
  • Reasoning: kimi-k2-thinking (0,47/0,47/2,00 pro MTok)
Erzwungene tool_choice funktioniert nur, wenn der Thinking-Modus ausgeschaltet ist. Wenn Thinking aktiviert ist, wird nur "auto" unterstützt.
# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2
# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

Lokale Modelle (Ollama)

Führen Sie Modelle vollständig auf Ihrer eigenen Hardware aus — kein API-Schlüssel erforderlich, vollständig offline. Ollama stellt standardmäßig einen OpenAI-kompatiblen Endpunkt bereit. Die Open-Source-Landschaft hat sich dramatisch verändert — Qwen 3.5, Llama 4 und GPT-OSS (OpenAIs erste Open-Weight-Modelle) sind alle verfügbar. Basis-URL: http://localhost:11434/v1 Empfohlene Modelle nach VRAM:
VRAMHaupt-LLMSchnelles LLMAnmerkungen
8 GBqwen3.5:9b / gemma3:4bqwen3.5:4bQwen 3.5 9B ist das Highlight in dieser Kategorie
16 GBgpt-oss:20b / deepseek-r1:14bqwen3.5:9bGPT-OSS 20B ist Agent-optimiert
24 GBqwen3:32b / deepseek-r1:32bqwen3.5:9bQwen 3 32B ist am besten für Tool-Aufrufe
48 GB+llama3.3:70b / gpt-oss:120bqwen3.5:14bQualität nahe der Frontier
Am besten für Tool-Aufrufe: Qwen 3/3.5 (32B+), GLM-4.7, GPT-OSS, Mistral — diese haben explizites Funktionsaufrufe-Training. Modelle mit 14B+ Parametern sind das Minimum für zuverlässige Tool-Aufrufe; 32B+ wird dringend empfohlen.
Die Qualität von Tool-Aufrufen variiert erheblich zwischen lokalen Modellen. Nicht alle Modelle generieren zuverlässig gültige Funktionsaufrufe. Testen Sie Ihr gewähltes Modell mit Agent-Workflows, bevor Sie es in der Produktion einsetzen. Die allgemeine Regel: 14B Minimum, 32B+ empfohlen für Agent-Aufgaben.
# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192
# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

Drittanbieter-Relay-Plattformen

Viele Benutzer greifen auf mehrere Modellanbieter über einen einzigen Relay-(Proxy-)Dienst zu. FIM One erkennt automatisch das richtige API-Protokoll basierend auf URL-Pfadmustern – füllen Sie einfach LLM_BASE_URL aus und es funktioniert.

Funktionsweise

Wenn Ihre Basis-URL auf ein Drittanbieter-Relay verweist, inspiziert FIM One den URL-Pfad, um das zu verwendende Protokoll zu bestimmen:
URL-Pfad enthältErkanntes ProtokollAuth-HeaderHauptvorteil
/v1 (oder kein Match)OpenAI-kompatibelAuthorization: BearerUniverseller Fallback, funktioniert mit den meisten Relays
/claude oder /anthropicAnthropic nativx-api-keyVollständige reasoning_content (erweitertes Denken) Unterstützung
/geminiGoogle nativx-goog-api-keyNative Gemini-Parameterübersetzung
Auflösungsreihenfolge: Explizites DB-Anbieterfeld > Domain-Match (offizielle APIs) > URL-Pfad-Hinweis (Relay-Plattformen) > OpenAI-kompatibler Fallback.

Beispiel: Ein Relay, drei Protokolle

Mit einem einzelnen Relay-Konto können Sie auf verschiedene Anbieter zugreifen, indem Sie einfach den Basis-URL-Pfad ändern:
# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6
# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro
# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4
Keine zusätzliche Konfiguration erforderlich — Authentifizierungsheader, Parameterformate und Response-Parsing werden automatisch umgeschaltet.

Schritt für Schritt: Wie die Pfaderkennung funktioniert

Hier ist ein konkretes Beispiel, das zeigt, was intern geschieht, wenn Sie ein Relay konfigurieren:
# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium
  1. FIM One erkennt /claude im URL-Pfad → erkennt Anthropic natives Protokoll
  2. Modell wird als anthropic/claude-sonnet-4-6 für LiteLLM-Routing präfixiert
  3. Anfragen verwenden das Anthropic-Format /v1/messages mit x-api-key Auth-Header
  4. reasoning_effort=medium wird in Anthropics nativen thinking-Parameter übersetzt (nicht OpenAIs reasoning_effort)
Wenn die gleiche Relay-URL stattdessen https://my-relay.example.com/v1 wäre, würde der /claude-Hinweis fehlen — FIM One würde auf das OpenAI-kompatible Protokoll zurückfallen und /v1/chat/completions-Anfragen an einen Claude-nativen Endpunkt senden, was fehlschlagen würde. Der URL-Pfad ist wichtig.

Warum das wichtig ist

  • Anthropic nativer Endpunkt bietet dir ordnungsgemäße reasoning_content-Unterstützung (erweitertes Denken sichtbar in der UI), korrektes Tool-Calling-Format und x-api-key-Authentifizierung — Funktionen, die bei der Verwendung von OpenAI-kompatibler Übersetzung verloren gehen.
  • Google nativer Endpunkt bietet dir native Gemini-Parameter und x-goog-api-key-Authentifizierung.
  • OpenAI kompatibel ist der universelle Fallback und funktioniert mit jedem Relay, aber anbietersspezifische Funktionen (wie erweiterte Thinking-Ausgabe) sind möglicherweise nicht verfügbar.
Wenn deine Relay-Plattform nicht standardisierte Pfadkonventionen verwendet (z. B. kein /claude oder /anthropic in der URL), greift FIM One auf das OpenAI-kompatible Protokoll zurück — was für die meisten Anwendungsfälle funktioniert. Für vollständige native Protokollunterstützung kannst du das Feld provider explizit über die Admin-Modellkonfiguration-UI setzen.

Konfigurationsstrategie

Main vs Fast: Wann sollte man aufteilen

  • Aufteilen wenn dein Hauptmodell teuer oder langsam ist (z. B. gpt-5.4 + gpt-5.4-nano). DAG-Modus führt viele parallele Schritte aus — die Verwendung eines günstigeren schnellen Modells spart erhebliche Kosten.
  • Gleiches Modell wenn dein Modell bereits günstig ist (z. B. deepseek-chat für beide). Der Overhead der Verwaltung von zwei Modellen lohnt sich nicht.

Wann sollte man Reasoning aktivieren

  • Aktivieren für komplexe analytische Aufgaben, mehrstufige Planung und Aufgaben, die sorgfältige Beurteilung erfordern
  • Deaktivieren (Standard) für Routineaufgaben, einfache Fragen und Antworten sowie kostensensitive Bereitstellungen
  • Reasoning erhöht typischerweise die Kosten um das 2-5-fache pro Anfrage — medium Aufwand ist ein guter Ausgangspunkt

Context-Fenster-Größe

Setzen Sie LLM_CONTEXT_SIZE auf die tatsächliche Fenster-Größe Ihres Modells:
ModellContext Window
GPT-5.41.050K (Aufschlag >272K)
o3 / o4-mini200K
Claude Opus 4.61M
Claude Sonnet 4.61M
Claude Haiku 4.5200K
Gemini 2.5 Pro1M
Gemini 3.1 Pro1M
DeepSeek V3.2128K
Qwen 3.5 Plus1M
Local (Ollama)4K–128K (variiert)
Für lokale Modelle setzen Sie sowohl LLM_CONTEXT_SIZE als auch LLM_MAX_OUTPUT_TOKENS explizit — die Standardwerte gehen von Cloud-Scale-Context-Fenstern aus, die lokale Modelle nicht unterstützen können.