2 min read

Wenn KI in Echtzeit denkt

Wenn KI in Echtzeit denkt

Letzte Woche habe ich Inception Mercury zum ersten Mal getestet. Der Prompt: eine JavaScript-Animation eines Planetensystems mit realistischen Umlaufbahnen. Die Antwort kam in unter einer Sekunde. Nicht die erste Token-Generation, sondern die vollständige, funktionierende Lösung.

Wow.


Diffusion statt Autoregression

Klassische Large Language Models, wie GPT-5, Claude, Llama, arbeiten autogressiv. Sie generieren Token für Token, sequenziell. Das nächste Wort kann erst berechnet werden, wenn das vorherige feststeht. Schneller wird das nur durch mehr Hardware.

Inception Labs geht einen anderen Weg. Ihr Mercury-Modell basiert auf Diffusion. Dieselbe Technologie, welche bei Bildgeneratoren wie Stable Diffusion zum Einsatz kommt. Der Unterschied: Diffusion kann parallel generieren. Nicht Wort für Wort, sondern ganze Sequenzen gleichzeitig.

 
 

Metrik

Mercury

Typische Autoregressive LLMs

Throughput

1.109 tokens/sec

~200 tokens/sec

Latenz

25ms

100-500ms

Preis

~1/4 von Claude Haiku

 

 

Das ist kein inkrementeller Fortschritt. Das ist eine andere Größenordnung.


Der Reasoning-Test

Beeindruckende Geschwindigkeit ist wertlos, wenn die Qualität nicht stimmt. Also schnell ein kleiner Test, mit ChatGPT und Claude als Referenz.

Test 1: Logisches Constraint-Solving

Ein Planungsproblem mit fünf Features, Abhängigkeiten und Sprint-Kapazitäten. Multi-Step-Reasoning, nicht googlebar, eindeutig verifizierbar.

  • ChatGPT: Korrekte Lösung beim ersten Versuch

  • Mercury: Korrekte Lösung beim zweiten Versuch

  • Claude: Korrekte Lösung beim zweiten Versuch

Test 2: Quantitatives Reasoning

SaaS Unit Economics: CAC, LTV, Churn-Berechnungen plus strategische Bewertung.

  • ChatGPT: Korrekt

  • Mercury: Korrekt

  • Claud: Korrekt

Der Eindruck deckt sich mit den offiziellen Benchmarks: Mercury erreicht bei Reasoning etwa 58% (deutlich unter den >80% der Frontier-Modelle). Bei Coding und faktischem Wissen liegt es gleichauf.


Trotzdem

Die naive Interpretation: Mercury ist bei komplexem Reasoning schlechter, also für anspruchsvolle Aufgaben ungeeignet.

Die architektonische Interpretation ist eine andere.

Bei 25ms Latenz und einem Viertel der Kosten verändert sich die Rechnung fundamental:

Szenario A: Ein GPT-5 Call

  • Latenz: ~500ms

  • Kosten: X

  • Ergebnis: Meist korrekt beim ersten Versuch

Szenario B: Mercury mit Retry-Logik

  • Latenz: 25ms + ggf. 25ms = 50ms

  • Kosten: ~X/4 + ggf. X/4 = ~X/2

  • Ergebnis: Korrekt nach maximal zwei Versuchen

Selbst mit Retry ist Mercury zehnmal schneller und halb so teuer. Und das ist der worst case. Bei den 80% der Anfragen, die kein komplexes Multi-Step-Reasoning erfordern, gibt es keinen Retry.

Die eigentliche Architektur-Implikation: Mercury ist kein Ersatz für Frontier-Modelle. Es macht Patterns moeglich, die bisher ökonomisch nicht sinnvoll waren.


And now?

Wenn Inference-Kosten gegen Null gehen und Latenz in Millisekunden gemessen wird, öffnen sich neue Designräume:

Continuous Validation Statt punktueller Prüfung: permanente Analyse im Hintergrund. Code-Review während des Tippens, nicht nach dem Commit.

Multi-Agent-Systeme mit hohem Call-Volumen Agentic Workflows mit 50, 100, 200 LLM-Calls pro Task. Bei GPT-4-Preisen prohibitiv, bei Mercury-Preisen Standard.

Kaskadierende Architekturen Mercury als schneller Gatekeeper: Einfache Anfragen direkt beantworten, komplexe an Frontier-Modelle eskalieren. Das Beste aus beiden Welten.

Edge Deployment Die Effizienz ermöglicht lokale Deployments, wo Cloud-Latenz inakzeptabel ist.

Inception hat Mercury bereits in mehrere Entwicklungstools integriert: ProxyAI, Buildglare, Kilo Code. Die Anwendungsfälle sind keine Spekulation mehr.


Die Verbindung

In meinem letzten Artikel habe ich argumentiert: Das Modell bestimmt die Obergrenze, das Interface bestimmt, wie nah wir drankommen. Die Absorptionsfähigkeit der Organisation - nicht die Modell-Capability - ist der limitierende Faktor.

Mercury fügt dieser These eine neue Dimension hinzu. Wenn Modelle commoditisieren, wenn Speed und Kosten keine Differenzierungsmerkmale mehr sind, dann verschiebt sich der Wert noch weiter: zur Orchestrierung.

Welche Anfrage geht an welches Modell? Wann lohnt sich ein Retry? Wie validiere ich Confidence, bevor ich eskaliere? Das sind keine Implementierungsdetails. Das sind die architektonischen Entscheidungen, die über Produktivitätsgewinne entscheiden.

Das Interface bestimmt, wie gut wir ein Modell nutzen. Die Orchestrierung bestimmt, welches Modell wir wann nutzen. Beides zusammen wird zum eigentlichen Moat, statt der Modelle selbst.


Quellen

  • Inception Labs: Introducing Mercury

  • Inception Labs: Scaling up Mercury

  • TechCrunch: Inception raises $50M (November 2025)

  • Benchable.ai: Mercury Model Benchmarks

  • arXiv: Mercury - Ultra-Fast Language Models Based on Diffusion

 
ISO 42001 (2/2): Ihr Schlüssel zur erfolgreichen KI-Governance

2 Min. Lesezeit

ISO 42001 (2/2): Ihr Schlüssel zur erfolgreichen KI-Governance

In Teil 1 haben wir die Grundlagen der ISO 42001 erläutert, den weltweit ersten Standard für governance-orientierte Steuerung von KI-Systemen. Teil 2...

Read More

3 Min. Lesezeit

ISO 42001 (1/2): Der strategische Schlüssel zu vertrauenswürdiger KI

Ein Praxisleitfaden für Unternehmenslenker und GRC-Verantwortliche Wie Sie mit dem weltweit ersten KI-Managementstandard Compliance sicherstellen und...

Read More
Final-Only „Human-in-the-Loop“ ist eine Haftungsfalle

3 Min. Lesezeit

Final-Only „Human-in-the-Loop“ ist eine Haftungsfalle

Wir haben Monate damit verbracht, zu verstehen, was „Human-in-the-Loop“ (HITL) in der Praxis wirklich bedeutet – in produktiven Workflows, die...

Read More