Empfohlene Modelle

FIM One ist anbieteragnostisch — jeder OpenAI-kompatible Endpunkt funktioniert. Diese Seite hilft Ihnen, die beste Modellkombination für Ihren Anwendungsfall auszuwählen. Konfigurationsdetails finden Sie unter Umgebungsvariablen.

Wie FIM One Modelle nutzt

FIM One hat drei Modellrollen:

Rolle	Umgebungsvariable	Verwendet für
General	`LLM_MODEL`	Planung, Analyse, ReAct-Agent, komplexes Reasoning
Fast	`FAST_LLM_MODEL`	DAG-Schrittausführung, Kontextkomprimierung (günstiger, schneller)
Reasoning	`REASONING_LLM_MODEL`	Tiefe Analyse, komplexe Planung, mathematische Beweise

Fast und Reasoning fallen auf General zurück, falls nicht konfiguriert. Für Produktionsbereitstellungen bietet die Aufteilung in mindestens zwei Modelle (General + Fast) das beste Kosten-/Qualitätsverhältnis. Diese Rollen können über Umgebungsvariablen oder über die Funktion Model Groups der Admin-Benutzeroberfläche konfiguriert werden, die Ein-Klick-Umschaltung zwischen Modellsätzen ermöglicht. Siehe Model Management für das vollständige Admin-UI-Handbuch.

Schnellauswahlmatrix

Anbieter	Haupt-LLM	Schnelles LLM	Reasoning	Vision	Hinweise
OpenAI	`gpt-5.4`	`gpt-5.4-mini` / `gpt-5.4-nano`	✅ `reasoning_effort`	✅ Alle	Beste native Tool-Aufrufe; GPT-5.4 ist neuestes Flaggschiff (März 2026)
Anthropic	`claude-sonnet-4-6`	`claude-haiku-4-5`	✅ via LiteLLM	✅ Alle	Native API-Weiterleitung; vollständige `reasoning_content`-Unterstützung; 1M Kontext GA
Google Gemini	`gemini-2.5-pro` / `gemini-3.1-pro-preview`	`gemini-2.5-flash` / `gemini-3-flash-preview`	✅ `reasoning_effort`	✅ Alle	2.5 ist stabiles GA; 3.x ist Vorschau; `gemini-3-pro-preview` am 9. März abgeschaltet
DeepSeek	`deepseek-chat` (V3.2)	`deepseek-chat`	✅ `deepseek-reasoner`	❌	Nur Text; V4 (Apr 2026) wird Vision hinzufügen
Qwen (Alibaba)	`qwen3.5-plus` / `qwen3-max`	`qwen3.5-flash` / `qwen-turbo`	✅ `enable_thinking` auf `qwen3-max`	⚠️ nur qwen3.5	Stärkste chinesische Sprache; qwq/Reasoning nur Text
ChatGLM (Zhipu)	`glm-4.7`	`glm-4.7-flash`	`glm-5`	⚠️ GLM-4.6V	Erzwungene FC nicht unterstützt; Vision erfordert separates VLM-Modell
MiniMax	`MiniMax-M2.7`	`MiniMax-M2.5`	❌	❌	Nur Text; M2.7 neueste (März 2026); 80,2% SWE-Bench
Kimi (Moonshot)	`kimi-k2.5`	`kimi-k2`	✅ `kimi-k2-thinking`	⚠️ nur K2.5	K2-thinking nur Text; erzwungene FC nicht unterstützt mit Thinking
Ollama (lokal)	`qwen3.5` / `llama4`	`qwen3.5:9b`	❌	Variiert	Vollständig offline, kein API-Schlüssel; Llama 4 unterstützt Vision

Vision gibt an, ob das Modell Bildeingaben akzeptiert. Dies ist erforderlich für Intelligente Dokumentenverarbeitung (IDP) – wenn Ihr Modell Vision nicht unterstützt, greift IDP auf reine Textextraktion zurück. Anbieter mit ⚠️ haben Vision auf einigen Modellen, aber nicht auf anderen; überprüfen Sie das spezifische Modell, das Sie verwenden.

Strukturierte Ausgabekompatibilität

Der DAG-Planer von FIM One benötigt, dass das Modell gültiges strukturiertes JSON zurückgibt. Intern versucht es drei Extraktionsebenen der Reihe nach:

Native Function Calling — zwingt das Modell, JSON auszugeben, das einem Schema über die Tool-Call-API entspricht. Am zuverlässigsten.
JSON Mode — fordert response_format: json_object an. Garantiert gültiges JSON, erzwingt aber keine Schemakonformität.
Plain Text Extraction — analysiert JSON aus Freitext als letzter Ausweg.

Modelle, die Level 1 (native FC mit erzwungenem tool_choice) unterstützen, bieten die beste Planungszuverlässigkeit. Wenn ein Modell nur Level 2 erreicht, hängt die Ausgabequalität davon ab, wie gut es Anweisungen befolgt — schwächere Modelle können gültiges JSON produzieren, das nicht der erwarteten Struktur entspricht.

Anbieter	Erzwungene Function Calling	JSON Mode	Planungszuverlässigkeit
OpenAI (GPT-5.x, o3)	✅ Vollständige Unterstützung	✅	⭐⭐⭐ Ausgezeichnet
Anthropic (Claude 4.x)	⚠️ Konflikte mit Thinking-Modus	✅	⭐⭐⭐ Ausgezeichnet (starke Anweisungsbefolgung kompensiert)
Google Gemini (2.5/3.x)	✅ Vollständige Unterstützung	✅	⭐⭐⭐ Ausgezeichnet
Mistral	✅ Vollständige Unterstützung	✅	⭐⭐ Gut
DeepSeek (V3.2)	⚠️ Instabil (`tool_choice="required"` funktioniert, `"auto"` unzuverlässig)	✅	⭐⭐ Gut
Qwen (3.x)	⚠️ Teilweise	✅	⭐⭐ Gut
Kimi (K2.5)	⚠️ Teilweise — `auto` nur wenn Thinking aktiviert	✅	⭐ Befriedigend — kann fehlerhafte Pläne produzieren
ChatGLM (GLM-4.7/5)	❌ Nicht unterstützt (`auto` nur)	✅	⭐ Befriedigend
MiniMax (M2.5/M2.7)	✅ Vollständige Unterstützung	✅	⭐⭐ Gut
Lokal (Ollama)	Variiert je nach Modell	Variiert	⭐ Befriedigend — 32B+ empfohlen

Wenn Sie die Fehlermeldung „failed to generate a valid task plan” sehen, ist die strukturierte Ausgabefähigkeit des Modells für DAG-Planung unzureichend. Wechseln Sie Ihr Main LLM zu einem Modell mit einer Bewertung von ⭐⭐⭐ oder ⭐⭐ oder höher, oder deaktivieren Sie den DAG-Modus und verwenden Sie stattdessen den einfacheren ReAct-Agenten.

Thinking / Reasoning Kompatibilität

Verschiedene Anbieter implementieren “Thinking” (Chain-of-Thought-Reasoning) auf grundlegend unterschiedliche Weise. Dies ist wichtig, da der Thinking-Modus mit Tool-Aufrufen in Konflikt geraten kann und die Ausgabe je nach Anbieter an verschiedenen Stellen erscheint. FIM One handhabt all dies transparent — diese Tabelle hilft dir zu verstehen, was unter der Haube passiert.

Schlüsselkonzepte

Opt-in — Denken ist standardmäßig deaktiviert; Sie aktivieren es über einen API-Parameter (z. B. reasoning_effort). Kann selektiv pro Aufruf deaktiviert werden.
Always-on — das Modell denkt immer; es gibt keinen API-Parameter, um es auszuschalten. Sie müssten zu einer Modellvariante ohne Denken wechseln, um es zu vermeiden.
Modell-Ebene — Denken wird durch die Modell-ID bestimmt, die Sie wählen (z. B. deepseek-reasoner vs deepseek-chat), nicht durch einen Parameter.

Kompatibilitätsmatrix

Anbieter	Aktivierungsmethode	Deaktivierbar?	Thinking-Ausgabe	Erzwungener FC-Konflikt?
OpenAI (GPT-5.x)	`reasoning_effort` Parameter	✅ Opt-in	Intern (für Benutzer nicht sichtbar)	⚠️ API verwirft `reasoning_effort` bei vorhandenen Tools
OpenAI (o-series)	Immer aktiviert	❌	Intern (Tokens gezählt, nicht zurückgegeben)	✅ Kein Konflikt
Anthropic (Claude 4.x)	`reasoning_effort` → `thinking`	✅ Opt-in	API `reasoning_content` Feld → Reasoning-Panel	❌ Erzwungener FC + Thinking = 400 Fehler
Google Gemini (2.5/3.x)	`reasoning_effort` Parameter	✅ Opt-in	Intern	✅ Kein Konflikt
DeepSeek	Modellvariante (`deepseek-reasoner`)	Modell-Ebene	API `reasoning_content` Feld → Reasoning-Panel	⚠️ Erzwungener FC unzuverlässig
Qwen (3.x)	`enable_thinking` Parameter	✅ Opt-in	`<think>` Tags im Inhalt	⚠️ Teilweise FC-Unterstützung
MiniMax (M2.7)	Immer aktiviert	❌	`<think>` Tags im Inhalt	✅ Kein Konflikt
ChatGLM (GLM-5)	Modellvariante	Modell-Ebene	Nicht externalisiert	N/A — erzwungener FC nicht unterstützt
Kimi (K2-thinking)	Modellvariante	Modell-Ebene	API-Feld	❌ Erzwungener FC + Thinking = Konflikt

Wie FIM One jeden Fall handhabt

API-Level reasoning_content (Claude, DeepSeek): Das Reasoning-Feld wird direkt aus der API-Antwort gelesen und im UI-Reasoning-Panel angezeigt. Keine Nachbearbeitung erforderlich. <think> Tags im Inhalt (MiniMax, Qwen, QwQ und andere Open-Source-Derivate): FIM One entfernt automatisch <think>...</think> Tags aus dem Inhaltsfeld und leitet den Thinking-Text zum Reasoning-Panel um. Dies funktioniert sowohl für Streaming- als auch für Non-Streaming-Antworten. Erzwungene FC + Thinking-Konflikte (Claude, Kimi): Wenn FIM One erzwungenes Function Calling benötigt (z. B. während der strukturierten Ausgabeextraktion der DAG-Planung), deaktiviert es vorübergehend das Thinking für diesen spezifischen Aufruf, indem es reasoning_effort=None übergibt. Dies funktioniert, weil Claudes Thinking opt-in ist — das Nichtversenden des Parameters bedeutet kein Thinking, was den 400-Fehler vermeidet. Für Anbieter, bei denen Thinking nicht deaktiviert werden kann (MiniMax), funktioniert erzwungenes FC einwandfrei, da diese Anbieter die Kombination nicht ablehnen. Fallback-Kette: Wenn erzwungenes Function Calling aus irgendeinem Grund fehlschlägt, führt FIM One automatisch einen Fallback durch: natives FC → JSON-Modus → Klartext-Extraktion. Dieser dreistufige Ansatz stellt sicher, dass die Planung auch bei Anbietern mit teilweiser Tool-Calling-Unterstützung funktioniert.

Wenn Sie ein Modell verwenden, das immer denkt (MiniMax M2.7, DeepSeek R1) als Ihr Haupt-LLM, wird die Thinking-Ausgabe im Reasoning-Panel jeder Agent-Iteration angezeigt. Dies ist normal — es beeinträchtigt die Funktionalität nicht, und Sie können den Reasoning-Prozess des Modells sehen.

Anbieterdetails

OpenAI

Die am meisten bewährte Option. OpenAI-Modelle haben die beste native Unterstützung für Funktionsaufrufe (Tool-Calling), was sich direkt auf die Zuverlässigkeit von Agenten auswirkt. Die GPT-5-Familie (August 2025+) stellt einen großen generationalen Sprung gegenüber GPT-4 dar. Empfohlene Modelle:

Main: gpt-5.4 (neuestes Flaggschiff, März 2026 — 1M+ Kontext, Computer-Nutzung) oder o3 (beste Reasoning-Genauigkeit)
Fast: gpt-5.4-mini ( $0,75/$ 4,50 pro MTok) oder gpt-5.4-nano (günstigste bei $0,20/$ 1,25 pro MTok)
Budget Fast: gpt-5-mini ( $0,25/$ 2,00) und gpt-5-nano ( $0,05/$ 0,40) bleiben zu niedrigeren Preisen verfügbar
Legacy: gpt-4.1 (noch in API, 1M Kontext, gut für Coding)

Reasoning: Setzen Sie LLM_REASONING_EFFORT=medium — funktioniert nativ mit o-Series und GPT-5.x Modellen. GPT-5.4 unterstützt reasoning_effort mit Stufen none, low, medium, high, xhigh. Die o-Series erfordert max_completion_tokens statt max_tokens, was LiteLLM automatisch handhabt. Hinweis: GPT-5.x lässt reasoning_effort immer noch fallen, wenn Tools in /v1/chat/completions vorhanden sind — FIM One lässt es während Agent-Tool-Use-Schritte stillschweigend fallen, damit Workflows ungestört ablaufen. GPT-5.4 erfordert temperature=1 — FIM One handhabt dies automatisch über LiteLLMs Parameterfilterung (drop_params).

Modell	Input $/MTok	Output $/MTok	Kontext
`gpt-5.4`	$2,50	$15,00	1.050K (Aufschlag >272K)
`gpt-5.4-mini`	$0,75	$4,50	400K
`gpt-5.4-nano`	$0,20	$1,25	400K
`o3`	$2,00	$8,00	200K
`o4-mini`	$1,10	$4,40	200K
`gpt-5-mini`	$0,25	$2,00	400K
`gpt-5-nano`	$0,05	$0,40	400K

# .env — OpenAI (production with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=gpt-5.4
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

# .env — OpenAI (budget reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.openai.com/v1
LLM_MODEL=o3
FAST_LLM_MODEL=gpt-5.4-nano
LLM_REASONING_EFFORT=medium

Anthropic (Claude)

Claude zeichnet sich durch differenziertes Denken und komplexe mehrstufige Aufgaben aus. FIM One verbindet sich über LiteLLM, das Anthropic-Modelle automatisch über ihre native API leitet. Die aktuelle Generation ist Claude 4.6 (Februar 2026). Empfohlene Modelle:

Main: claude-sonnet-4-6 (beste Balance zwischen Leistung und Kosten — $3/$ 15 pro MTok)
Fast: claude-haiku-4-5 (schnell und günstig — $1/$ 5 pro MTok)
Premium: claude-opus-4-6 (am leistungsfähigsten, 128K maximale Ausgabe — $5/$ 25 pro MTok)

Basis-URL: https://api.anthropic.com/v1/ Opus 4.6 und Sonnet 4.6 haben ein Kontextfenster von 1M (GA seit 13. März 2026 — kein Beta-Header erforderlich). Haiku 4.5 hat ein Kontextfenster von 200K. Reasoning: Setzen Sie LLM_REASONING_EFFORT=medium — LiteLLM leitet Anthropic-Modelle über die native API, daher wird reasoning_content (erweitertes Denken) vollständig zurückgegeben und ist im UI-Schritt „thinking” sichtbar. Claude 4.6-Modelle unterstützen Adaptive Thinking (thinking: {type: "adaptive"}), das manuelles budget_tokens ersetzt — LiteLLM handhabt die Übersetzung automatisch. Wenn erweitertes Denken aktiviert ist, erfordert Anthropic temperature=1 — setzen Sie LLM_TEMPERATURE=1 in Ihrer .env oder Modellkonfiguration. Siehe Extended Thinking für Details.

# .env — Anthropic Claude
LLM_API_KEY=sk-ant-...
LLM_BASE_URL=https://api.anthropic.com/v1/
LLM_MODEL=claude-sonnet-4-6
FAST_LLM_MODEL=claude-haiku-4-5
LLM_REASONING_EFFORT=medium

Google Gemini

Gemini-Modelle bieten starke Leistung zu wettbewerbsfähigen Preisen über Googles OpenAI-kompatiblen Endpunkt. Die 3.x-Generation (Ende 2025+) ist ein großer Sprung — Gemini 3 Flash übertrifft 2.5 Pro und ist dabei 3x schneller. Hinweis: gemini-3-pro-preview wurde am 9. März 2026 abgeschaltet — verwenden Sie stattdessen gemini-3.1-pro-preview. Empfohlene Modelle:

Stabil (GA): gemini-2.5-pro (Hauptmodell) + gemini-2.5-flash (schnell) — produktionsreif
Neueste (Vorschau): gemini-3.1-pro-preview (Hauptmodell) + gemini-3-flash-preview (schnell) + gemini-3.1-flash-lite-preview (Budget schnell) — beste Leistung, aber Vorschaustatus

Basis-URL: https://generativelanguage.googleapis.com/v1beta/openai/ Reasoning: reasoning_effort wird auf dem Kompatibilitäts-Endpunkt unterstützt — setzen Sie LLM_REASONING_EFFORT=medium und es funktioniert sofort.

Modell	Input $/MTok	Output $/MTok	Status
`gemini-3.1-pro-preview`	$2.00	$12.00	Vorschau
`gemini-3-flash-preview`	$0.50	$3.00	Vorschau
`gemini-3.1-flash-lite-preview`	$0.25	$1.50	Vorschau (März 2026)
`gemini-2.5-pro`	$1.25	$10.00	Stabil GA
`gemini-2.5-flash`	$0.30	$2.50	Stabil GA
`gemini-2.5-flash-lite`	$0.10	$0.40	Stabil GA

# .env — Gemini (stable)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-2.5-pro
FAST_LLM_MODEL=gemini-2.5-flash
LLM_REASONING_EFFORT=medium

# .env — Gemini (latest preview)
LLM_API_KEY=AIza...
LLM_BASE_URL=https://generativelanguage.googleapis.com/v1beta/openai/
LLM_MODEL=gemini-3.1-pro-preview
FAST_LLM_MODEL=gemini-3-flash-preview
LLM_REASONING_EFFORT=medium

DeepSeek

DeepSeek bietet das beste Kosten-Leistungs-Verhältnis auf dem Markt. V3.2 (Dezember 2025) vereinigte die Chat- und Reasoning-Linien in einem einzigen Modell mit unglaublich niedrigen Preisen. Modell-IDs (beide unterstützt durch V3.2):

deepseek-chat — Allzweck (Non-Thinking-Modus)
deepseek-reasoner — Chain-of-Thought-Reasoning-Modus, gibt reasoning_content zurück

Basis-URL: https://api.deepseek.com Preise:

0,28/

0,42 pro MTok (Cache-Hit: $0,028) — bei weitem die günstigste Frontier-Klasse-API. Ausgabelimits: deepseek-chat maximale Ausgabe beträgt 8K Token (muss explizit über max_tokens gesetzt werden). deepseek-reasoner maximale Ausgabe beträgt 64K Token (einschließlich Chain-of-Thought).

V4 erwartet April 2026: Billionen-Parameter-Multimodal-Modell mit 1M-Kontextfenster. Erwarten Sie neue Modell-IDs bei der Veröffentlichung.

# .env — DeepSeek (budget-friendly)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-chat
FAST_LLM_MODEL=deepseek-chat

# .env — DeepSeek (with reasoning)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://api.deepseek.com
LLM_MODEL=deepseek-reasoner
FAST_LLM_MODEL=deepseek-chat

Chinesische Inlandsmodelle

Alle großen chinesischen Modellanbieter stellen OpenAI-kompatible Endpunkte bereit. Diese sind besonders stark für chinesischsprachige Aufgaben und bieten wettbewerbsfähige lokale Preise.

Qwen / 通义千问 (Alibaba Cloud)

Qwen 3.5 (Februar 2026) ist die neueste Generation — das 397B MoE Flaggschiff übertrifft GPT-5.2 bei MMLU-Pro. Stärkste Unterstützung für chinesische Sprache und günstigste Frontier-Class-Preisgestaltung (~$0,11/MTok Input).

Base URL (China): https://dashscope.aliyuncs.com/compatible-mode/v1
Base URL (Global): https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Main: qwen3.5-plus (Flaggschiff, 1M Kontext, $0,11/$ 0,66 pro MTok) oder qwen3-max (256K, stärkste)
Fast: qwen3.5-flash ( $0,055/$ 0,22 pro MTok) oder qwen-turbo ( $0,04/$ 0,08 pro MTok)
Reasoning: qwen3-max mit enable_thinking: true Parameter (es gibt keine separate qwen3-max-thinking Modell-ID)

# .env — Qwen (China)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

# .env — Qwen (Global)
LLM_API_KEY=sk-...
LLM_BASE_URL=https://dashscope-intl.aliyuncs.com/compatible-mode/v1
LLM_MODEL=qwen3.5-plus
FAST_LLM_MODEL=qwen3.5-flash

ChatGLM / 智谱

GLM-4.7 und GLM-5 (2026) sind die neuesten Modelle. GLM-5 ist das 745B MoE Flaggschiff, das sich Claude Opus-Niveau bei Coding-/Agent-Aufgaben nähert.

Basis-URL (Inland): https://open.bigmodel.cn/api/paas/v4
Basis-URL (Z.AI International): https://api.z.ai/api/paas/v4
Hauptmodell: glm-4.7 (starkes Coding, $0.60/$ 2.20 auf Z.AI)
Schnell: glm-4.7-flash (kostenlos!) oder glm-4.7-flashx ( $0.07/$ 0.40, höherer Durchsatz)
Reasoning: glm-5 (745B MoE Flaggschiff, $1.00/$ 3.20)

Erzwungenes tool_choice wird nicht unterstützt — nur "auto" funktioniert.

Einige HTTP-Clients hängen automatisch /v1 an Basis-URLs an. Zhipu verwendet /v4 — stellen Sie sicher, dass Ihr Client keinen OpenAI-ähnlichen Pfad-Suffix erzwingt, sonst erhalten Sie 404-Fehler.

# .env — ChatGLM (domestic)
LLM_API_KEY=...
LLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

# .env — ChatGLM (Z.AI international)
LLM_API_KEY=...
LLM_BASE_URL=https://api.z.ai/api/paas/v4
LLM_MODEL=glm-4.7
FAST_LLM_MODEL=glm-4.7-flash

MiniMax

MiniMax M2.7 (18. März 2026) ist das neueste Modell mit offenen Gewichten und erreicht 80,2% auf SWE-Bench. M2.5 bleibt als schnelle/Budget-Option verfügbar. MiniMax bietet zwei separate API-Endpunkte für verschiedene Regionen:

Basis-URL (Global/海外版): https://api.minimax.io/v1 — für Benutzer außerhalb des chinesischen Festlands
Basis-URL (China/国内版): https://api.minimaxi.com/v1 — für Benutzer im chinesischen Festland (beachten Sie das zusätzliche i in minimaxi)
Main: MiniMax-M2.7
Fast: MiniMax-M2.5
Speed: MiniMax-M2.7-highspeed (2x Kosten, niedrigere Latenz)

Modell	Input $/MTok	Output $/MTok
`MiniMax-M2.7`	$0.30	$1.20
`MiniMax-M2.7-highspeed`	$0.60	$2.40
`MiniMax-M2.5`	$0.30	$1.20
`MiniMax-M2.5-highspeed`	$0.60	$2.40

# .env — MiniMax (global endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimax.io/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

# .env — MiniMax (China mainland endpoint)
LLM_API_KEY=...
LLM_BASE_URL=https://api.minimaxi.com/v1
LLM_MODEL=MiniMax-M2.7
FAST_LLM_MODEL=MiniMax-M2.5

Kimi / 月之暗面 (Moonshot)

Kimi K2.5 (Januar 2026) hat 256K Kontext und starke Codierungsleistung (76,8% SWE-Bench unter Open-Source-Modellen).

Basis-URL (Global): https://api.moonshot.ai/v1
Basis-URL (China): https://api.moonshot.cn/v1
Hauptmodell: kimi-k2.5
Schnell: kimi-k2 (kein Denken, Funktionsaufrufe funktionieren)
Reasoning: kimi-k2-thinking ( $0,47/$ 2,00 pro MTok)

Erzwungene tool_choice funktioniert nur, wenn der Thinking-Modus ausgeschaltet ist. Wenn Thinking aktiviert ist, wird nur "auto" unterstützt.

# .env — Kimi (Global)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.ai/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

# .env — Kimi (China)
LLM_API_KEY=...
LLM_BASE_URL=https://api.moonshot.cn/v1
LLM_MODEL=kimi-k2.5
FAST_LLM_MODEL=kimi-k2

Lokale Modelle (Ollama)

Führen Sie Modelle vollständig auf Ihrer eigenen Hardware aus — kein API-Schlüssel erforderlich, vollständig offline. Ollama stellt standardmäßig einen OpenAI-kompatiblen Endpunkt bereit. Die Open-Source-Landschaft hat sich dramatisch verändert — Qwen 3.5, Llama 4 und GPT-OSS (OpenAIs erste Open-Weight-Modelle) sind alle verfügbar. Basis-URL: http://localhost:11434/v1 Empfohlene Modelle nach VRAM:

VRAM	Haupt-LLM	Schnelles LLM	Anmerkungen
8 GB	`qwen3.5:9b` / `gemma3:4b`	`qwen3.5:4b`	Qwen 3.5 9B ist das Highlight in dieser Kategorie
16 GB	`gpt-oss:20b` / `deepseek-r1:14b`	`qwen3.5:9b`	GPT-OSS 20B ist Agent-optimiert
24 GB	`qwen3:32b` / `deepseek-r1:32b`	`qwen3.5:9b`	Qwen 3 32B ist am besten für Tool-Aufrufe
48 GB+	`llama3.3:70b` / `gpt-oss:120b`	`qwen3.5:14b`	Qualität nahe der Frontier

Am besten für Tool-Aufrufe: Qwen 3/3.5 (32B+), GLM-4.7, GPT-OSS, Mistral — diese haben explizites Funktionsaufrufe-Training. Modelle mit 14B+ Parametern sind das Minimum für zuverlässige Tool-Aufrufe; 32B+ wird dringend empfohlen.

Die Qualität von Tool-Aufrufen variiert erheblich zwischen lokalen Modellen. Nicht alle Modelle generieren zuverlässig gültige Funktionsaufrufe. Testen Sie Ihr gewähltes Modell mit Agent-Workflows, bevor Sie es in der Produktion einsetzen. Die allgemeine Regel: 14B Minimum, 32B+ empfohlen für Agent-Aufgaben.

# .env — Ollama (balanced, 16GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gpt-oss:20b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

# .env — Ollama (agent-optimized, 24GB VRAM)
LLM_API_KEY=ollama
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=qwen3:32b
FAST_LLM_MODEL=qwen3.5:9b
LLM_CONTEXT_SIZE=32768
LLM_MAX_OUTPUT_TOKENS=8192

Drittanbieter-Relay-Plattformen

Viele Benutzer greifen auf mehrere Modellanbieter über einen einzigen Relay-(Proxy-)Dienst zu. FIM One erkennt automatisch das richtige API-Protokoll basierend auf URL-Pfadmustern – füllen Sie einfach LLM_BASE_URL aus und es funktioniert.

Funktionsweise

Wenn Ihre Basis-URL auf ein Drittanbieter-Relay verweist, inspiziert FIM One den URL-Pfad, um das zu verwendende Protokoll zu bestimmen:

URL-Pfad enthält	Erkanntes Protokoll	Auth-Header	Hauptvorteil
`/v1` (oder kein Match)	OpenAI-kompatibel	`Authorization: Bearer`	Universeller Fallback, funktioniert mit den meisten Relays
`/claude` oder `/anthropic`	Anthropic nativ	`x-api-key`	Vollständige `reasoning_content` (erweitertes Denken) Unterstützung
`/gemini`	Google nativ	`x-goog-api-key`	Native Gemini-Parameterübersetzung

Auflösungsreihenfolge: Explizites DB-Anbieterfeld > Domain-Match (offizielle APIs) > URL-Pfad-Hinweis (Relay-Plattformen) > OpenAI-kompatibler Fallback.

Beispiel: Ein Relay, drei Protokolle

Mit einem einzelnen Relay-Konto können Sie auf verschiedene Anbieter zugreifen, indem Sie einfach den Basis-URL-Pfad ändern:

# .env — Claude via relay (Anthropic native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/anthropic
LLM_MODEL=claude-sonnet-4-6

# .env — Gemini via relay (Google native protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/gemini
LLM_MODEL=gemini-2.5-pro

# .env — GPT via relay (OpenAI compatible protocol)
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://relay.example.com/v1
LLM_MODEL=gpt-5.4

Keine zusätzliche Konfiguration erforderlich — Authentifizierungsheader, Parameterformate und Response-Parsing werden automatisch umgeschaltet.

Schritt für Schritt: Wie die Pfaderkennung funktioniert

Hier ist ein konkretes Beispiel, das zeigt, was intern geschieht, wenn Sie ein Relay konfigurieren:

# .env — Claude via a relay platform
LLM_API_KEY=your-relay-key
LLM_BASE_URL=https://my-relay.example.com/claude
LLM_MODEL=claude-sonnet-4-6
LLM_REASONING_EFFORT=medium

FIM One erkennt /claude im URL-Pfad → erkennt Anthropic natives Protokoll
Modell wird als anthropic/claude-sonnet-4-6 für LiteLLM-Routing präfixiert
Anfragen verwenden das Anthropic-Format /v1/messages mit x-api-key Auth-Header
reasoning_effort=medium wird in Anthropics nativen thinking-Parameter übersetzt (nicht OpenAIs reasoning_effort)

Wenn die gleiche Relay-URL stattdessen https://my-relay.example.com/v1 wäre, würde der /claude-Hinweis fehlen — FIM One würde auf das OpenAI-kompatible Protokoll zurückfallen und /v1/chat/completions-Anfragen an einen Claude-nativen Endpunkt senden, was fehlschlagen würde. Der URL-Pfad ist wichtig.

Warum das wichtig ist

Anthropic nativer Endpunkt bietet dir ordnungsgemäße reasoning_content-Unterstützung (erweitertes Denken sichtbar in der UI), korrektes Tool-Calling-Format und x-api-key-Authentifizierung — Funktionen, die bei der Verwendung von OpenAI-kompatibler Übersetzung verloren gehen.
Google nativer Endpunkt bietet dir native Gemini-Parameter und x-goog-api-key-Authentifizierung.
OpenAI kompatibel ist der universelle Fallback und funktioniert mit jedem Relay, aber anbietersspezifische Funktionen (wie erweiterte Thinking-Ausgabe) sind möglicherweise nicht verfügbar.

Wenn deine Relay-Plattform nicht standardisierte Pfadkonventionen verwendet (z. B. kein /claude oder /anthropic in der URL), greift FIM One auf das OpenAI-kompatible Protokoll zurück — was für die meisten Anwendungsfälle funktioniert. Für vollständige native Protokollunterstützung kannst du das Feld provider explizit über die Admin-Modellkonfiguration-UI setzen.

Konfigurationsstrategie

Main vs Fast: Wann sollte man aufteilen

Aufteilen wenn dein Hauptmodell teuer oder langsam ist (z. B. gpt-5.4 + gpt-5.4-nano). DAG-Modus führt viele parallele Schritte aus — die Verwendung eines günstigeren schnellen Modells spart erhebliche Kosten.
Gleiches Modell wenn dein Modell bereits günstig ist (z. B. deepseek-chat für beide). Der Overhead der Verwaltung von zwei Modellen lohnt sich nicht.

Wann sollte man Reasoning aktivieren

Aktivieren für komplexe analytische Aufgaben, mehrstufige Planung und Aufgaben, die sorgfältige Beurteilung erfordern
Deaktivieren (Standard) für Routineaufgaben, einfache Fragen und Antworten sowie kostensensitive Bereitstellungen
Reasoning erhöht typischerweise die Kosten um das 2-5-fache pro Anfrage — medium Aufwand ist ein guter Ausgangspunkt

Context-Fenster-Größe

Setzen Sie LLM_CONTEXT_SIZE auf die tatsächliche Fenster-Größe Ihres Modells:

Modell	Context Window
GPT-5.4	1.050K (Aufschlag >272K)
o3 / o4-mini	200K
Claude Opus 4.6	1M
Claude Sonnet 4.6	1M
Claude Haiku 4.5	200K
Gemini 2.5 Pro	1M
Gemini 3.1 Pro	1M
DeepSeek V3.2	128K
Qwen 3.5 Plus	1M
Local (Ollama)	4K–128K (variiert)

Für lokale Modelle setzen Sie sowohl LLM_CONTEXT_SIZE als auch LLM_MAX_OUTPUT_TOKENS explizit — die Standardwerte gehen von Cloud-Scale-Context-Fenstern aus, die lokale Modelle nicht unterstützen können.

Warum FIM One

Erste Schritte

Konfiguration

Integrationen

Funktionen

FIM One erweitern

Empfohlene Modelle

Wie FIM One Modelle nutzt

Schnellauswahlmatrix

Strukturierte Ausgabekompatibilität

Thinking / Reasoning Kompatibilität

Schlüsselkonzepte

Kompatibilitätsmatrix

Wie FIM One jeden Fall handhabt

Anbieterdetails

OpenAI

Anthropic (Claude)

Google Gemini

DeepSeek

Chinesische Inlandsmodelle

Qwen / 通义千问 (Alibaba Cloud)

ChatGLM / 智谱

MiniMax

Kimi / 月之暗面 (Moonshot)

Lokale Modelle (Ollama)

Drittanbieter-Relay-Plattformen

Funktionsweise

Beispiel: Ein Relay, drei Protokolle

Schritt für Schritt: Wie die Pfaderkennung funktioniert

Warum das wichtig ist

Konfigurationsstrategie

Main vs Fast: Wann sollte man aufteilen

Wann sollte man Reasoning aktivieren

Context-Fenster-Größe

Warum FIM One

Erste Schritte

Konfiguration

Integrationen

Funktionen

FIM One erweitern

Documentation Index

​Wie FIM One Modelle nutzt

​Schnellauswahlmatrix

​Strukturierte Ausgabekompatibilität

​Thinking / Reasoning Kompatibilität

​Schlüsselkonzepte

​Kompatibilitätsmatrix

​Wie FIM One jeden Fall handhabt

​Anbieterdetails

​OpenAI

​Anthropic (Claude)

​Google Gemini

​DeepSeek

​Chinesische Inlandsmodelle

​Qwen / 通义千问 (Alibaba Cloud)

​ChatGLM / 智谱

​MiniMax

​Kimi / 月之暗面 (Moonshot)

​Lokale Modelle (Ollama)

​Drittanbieter-Relay-Plattformen

​Funktionsweise

​Beispiel: Ein Relay, drei Protokolle

​Schritt für Schritt: Wie die Pfaderkennung funktioniert

​Warum das wichtig ist

​Konfigurationsstrategie

​Main vs Fast: Wann sollte man aufteilen

​Wann sollte man Reasoning aktivieren

​Context-Fenster-Größe

Wie FIM One Modelle nutzt

Schnellauswahlmatrix

Strukturierte Ausgabekompatibilität

Thinking / Reasoning Kompatibilität

Schlüsselkonzepte

Kompatibilitätsmatrix

Wie FIM One jeden Fall handhabt

Anbieterdetails

OpenAI

Anthropic (Claude)

Google Gemini

DeepSeek

Chinesische Inlandsmodelle

Qwen / 通义千问 (Alibaba Cloud)

ChatGLM / 智谱

MiniMax

Kimi / 月之暗面 (Moonshot)

Lokale Modelle (Ollama)

Drittanbieter-Relay-Plattformen

Funktionsweise

Beispiel: Ein Relay, drei Protokolle

Schritt für Schritt: Wie die Pfaderkennung funktioniert

Warum das wichtig ist

Konfigurationsstrategie

Main vs Fast: Wann sollte man aufteilen

Wann sollte man Reasoning aktivieren

Context-Fenster-Größe