2 min read

Wenn KI in Echtzeit denkt

Picture of David Klemme David Klemme : Jan 5, 2026 9:36:35 AM

Letzte Woche habe ich Inception Mercury zum ersten Mal getestet. Der Prompt: eine JavaScript-Animation eines Planetensystems mit realistischen Umlaufbahnen. Die Antwort kam in unter einer Sekunde. Nicht die erste Token-Generation, sondern die vollständige, funktionierende Lösung.

Wow.

Diffusion statt Autoregression

Klassische Large Language Models, wie GPT-5, Claude, Llama, arbeiten autogressiv. Sie generieren Token für Token, sequenziell. Das nächste Wort kann erst berechnet werden, wenn das vorherige feststeht. Schneller wird das nur durch mehr Hardware.

Inception Labs geht einen anderen Weg. Ihr Mercury-Modell basiert auf Diffusion. Dieselbe Technologie, welche bei Bildgeneratoren wie Stable Diffusion zum Einsatz kommt. Der Unterschied: Diffusion kann parallel generieren. Nicht Wort für Wort, sondern ganze Sequenzen gleichzeitig.

Metrik	Mercury	Typische Autoregressive LLMs
Throughput	1.109 tokens/sec	~200 tokens/sec
Latenz	25ms	100-500ms
Preis	~1/4 von Claude Haiku

Das ist kein inkrementeller Fortschritt. Das ist eine andere Größenordnung.

Der Reasoning-Test

Beeindruckende Geschwindigkeit ist wertlos, wenn die Qualität nicht stimmt. Also schnell ein kleiner Test, mit ChatGPT und Claude als Referenz.

Test 1: Logisches Constraint-Solving

Ein Planungsproblem mit fünf Features, Abhängigkeiten und Sprint-Kapazitäten. Multi-Step-Reasoning, nicht googlebar, eindeutig verifizierbar.

ChatGPT: Korrekte Lösung beim ersten Versuch
Mercury: Korrekte Lösung beim zweiten Versuch
Claude: Korrekte Lösung beim zweiten Versuch

Test 2: Quantitatives Reasoning

SaaS Unit Economics: CAC, LTV, Churn-Berechnungen plus strategische Bewertung.

ChatGPT: Korrekt
Mercury: Korrekt
Claud: Korrekt

Der Eindruck deckt sich mit den offiziellen Benchmarks: Mercury erreicht bei Reasoning etwa 58% (deutlich unter den >80% der Frontier-Modelle). Bei Coding und faktischem Wissen liegt es gleichauf.

Trotzdem

Die naive Interpretation: Mercury ist bei komplexem Reasoning schlechter, also für anspruchsvolle Aufgaben ungeeignet.

Die architektonische Interpretation ist eine andere.

Bei 25ms Latenz und einem Viertel der Kosten verändert sich die Rechnung fundamental:

Szenario A: Ein GPT-5 Call

Latenz: ~500ms
Kosten: X
Ergebnis: Meist korrekt beim ersten Versuch

Szenario B: Mercury mit Retry-Logik

Latenz: 25ms + ggf. 25ms = 50ms
Kosten: ~X/4 + ggf. X/4 = ~X/2
Ergebnis: Korrekt nach maximal zwei Versuchen

Selbst mit Retry ist Mercury zehnmal schneller und halb so teuer. Und das ist der worst case. Bei den 80% der Anfragen, die kein komplexes Multi-Step-Reasoning erfordern, gibt es keinen Retry.

Die eigentliche Architektur-Implikation: Mercury ist kein Ersatz für Frontier-Modelle. Es macht Patterns moeglich, die bisher ökonomisch nicht sinnvoll waren.

And now?

Wenn Inference-Kosten gegen Null gehen und Latenz in Millisekunden gemessen wird, öffnen sich neue Designräume:

Continuous Validation Statt punktueller Prüfung: permanente Analyse im Hintergrund. Code-Review während des Tippens, nicht nach dem Commit.

Multi-Agent-Systeme mit hohem Call-Volumen Agentic Workflows mit 50, 100, 200 LLM-Calls pro Task. Bei GPT-4-Preisen prohibitiv, bei Mercury-Preisen Standard.

Kaskadierende Architekturen Mercury als schneller Gatekeeper: Einfache Anfragen direkt beantworten, komplexe an Frontier-Modelle eskalieren. Das Beste aus beiden Welten.

Edge Deployment Die Effizienz ermöglicht lokale Deployments, wo Cloud-Latenz inakzeptabel ist.

Inception hat Mercury bereits in mehrere Entwicklungstools integriert: ProxyAI, Buildglare, Kilo Code. Die Anwendungsfälle sind keine Spekulation mehr.

Die Verbindung

In meinem letzten Artikel habe ich argumentiert: Das Modell bestimmt die Obergrenze, das Interface bestimmt, wie nah wir drankommen. Die Absorptionsfähigkeit der Organisation - nicht die Modell-Capability - ist der limitierende Faktor.

Mercury fügt dieser These eine neue Dimension hinzu. Wenn Modelle commoditisieren, wenn Speed und Kosten keine Differenzierungsmerkmale mehr sind, dann verschiebt sich der Wert noch weiter: zur Orchestrierung.

Welche Anfrage geht an welches Modell? Wann lohnt sich ein Retry? Wie validiere ich Confidence, bevor ich eskaliere? Das sind keine Implementierungsdetails. Das sind die architektonischen Entscheidungen, die über Produktivitätsgewinne entscheiden.

Das Interface bestimmt, wie gut wir ein Modell nutzen. Die Orchestrierung bestimmt, welches Modell wir wann nutzen. Beides zusammen wird zum eigentlichen Moat, statt der Modelle selbst.

Quellen

Inception Labs: Introducing Mercury
Inception Labs: Scaling up Mercury
TechCrunch: Inception raises $50M (November 2025)
Benchable.ai: Mercury Model Benchmarks
arXiv: Mercury - Ultra-Fast Language Models Based on Diffusion

1 Min. Lesezeit

Komplyzen und RÖDL starten strategische Zusammenarbeit: Technische KI-Governance trifft auf Rechtsberatung

Tilman Mürle : Feb 12, 2026 1:12:24 PM

Die Komplyzen GmbH, Berliner Spezialist für KI-Governance, und RÖDL starten ihre strategische Zusammenarbeit. Die Kooperation schließt die Lücke...

mittelstand partner

1 Min. Lesezeit

Der Beichtstuhl mit dem Protokoll

David Klemme : Jan 8, 2026 7:00:00 AM

Microsoft hat die 40 000 000 Gespräche von Nutzern mit Copilot analysiert. Vierzig.Millionen.Unterhaltungen.Von Nutzern. Mal ganz abgesehen vom...

2 Min. Lesezeit

ISO 42001 (2/2): Ihr Schlüssel zur erfolgreichen KI-Governance

Tilman Mürle : Sep 3, 2025 11:08:41 AM

In Teil 1 haben wir die Grundlagen der ISO 42001 erläutert, den weltweit ersten Standard für governance-orientierte Steuerung von KI-Systemen. Teil 2...

iso42001

Willkommen bei den Komplyzen.

Risiko und Klarheit

Struktur & Implementierung

Wirkung & Befähigung

Governance als Enabler nutzen.

Unser Blog - der Kompass