2 Min. Lesezeit
ISO 42001 (2/2): Ihr Schlüssel zur erfolgreichen KI-Governance
In Teil 1 haben wir die Grundlagen der ISO 42001 erläutert, den weltweit ersten Standard für governance-orientierte Steuerung von KI-Systemen. Teil 2...
Hier finden Sie weitere spannende Links und die Möglichkeit mit uns in Kontakt zu treten.
Beginnen Sie mit der schnellen Analyse. Diese Services liefern Ihnen die strategische Standortbestimmung und eine klare To-Do-Liste, um Risiken sofort zu managen.
Übersetzen Sie Regulierung in praktikable Prozesse. Aufbau des Governance-Fundaments, Implementierung klarer Rollen und die dauerhafte Absicherung.
Sichern Sie den Erfolg durch interne Kompetenz. Unsere Trainings befähigen Ihre Teams, Governance direkt in Code und Prozesse umzusetzen.
Dieser Bereich dient als zentrale Quelle für fundierte Analysen und praxisnahe Frameworks. Greifen Sie auf unser dokumentiertes Wissen zu, um regulatorische Komplexität zu durchdringen, strategische Risiken zu managen und Compliance-Anforderungen effizient in Ihre Organisation zu implementieren.
Letzte Woche habe ich Inception Mercury zum ersten Mal getestet. Der Prompt: eine JavaScript-Animation eines Planetensystems mit realistischen Umlaufbahnen. Die Antwort kam in unter einer Sekunde. Nicht die erste Token-Generation, sondern die vollständige, funktionierende Lösung.
Wow.
Klassische Large Language Models, wie GPT-5, Claude, Llama, arbeiten autogressiv. Sie generieren Token für Token, sequenziell. Das nächste Wort kann erst berechnet werden, wenn das vorherige feststeht. Schneller wird das nur durch mehr Hardware.
Inception Labs geht einen anderen Weg. Ihr Mercury-Modell basiert auf Diffusion. Dieselbe Technologie, welche bei Bildgeneratoren wie Stable Diffusion zum Einsatz kommt. Der Unterschied: Diffusion kann parallel generieren. Nicht Wort für Wort, sondern ganze Sequenzen gleichzeitig.
|
Metrik |
Mercury |
Typische Autoregressive LLMs |
|---|---|---|
|
Throughput |
1.109 tokens/sec |
~200 tokens/sec |
|
Latenz |
25ms |
100-500ms |
|
Preis |
~1/4 von Claude Haiku |
|
Das ist kein inkrementeller Fortschritt. Das ist eine andere Größenordnung.
Beeindruckende Geschwindigkeit ist wertlos, wenn die Qualität nicht stimmt. Also schnell ein kleiner Test, mit ChatGPT und Claude als Referenz.
Test 1: Logisches Constraint-Solving
Ein Planungsproblem mit fünf Features, Abhängigkeiten und Sprint-Kapazitäten. Multi-Step-Reasoning, nicht googlebar, eindeutig verifizierbar.
ChatGPT: Korrekte Lösung beim ersten Versuch
Mercury: Korrekte Lösung beim zweiten Versuch
Claude: Korrekte Lösung beim zweiten Versuch
Test 2: Quantitatives Reasoning
SaaS Unit Economics: CAC, LTV, Churn-Berechnungen plus strategische Bewertung.
ChatGPT: Korrekt
Mercury: Korrekt
Claud: Korrekt
Der Eindruck deckt sich mit den offiziellen Benchmarks: Mercury erreicht bei Reasoning etwa 58% (deutlich unter den >80% der Frontier-Modelle). Bei Coding und faktischem Wissen liegt es gleichauf.
Die naive Interpretation: Mercury ist bei komplexem Reasoning schlechter, also für anspruchsvolle Aufgaben ungeeignet.
Die architektonische Interpretation ist eine andere.
Bei 25ms Latenz und einem Viertel der Kosten verändert sich die Rechnung fundamental:
Szenario A: Ein GPT-5 Call
Latenz: ~500ms
Kosten: X
Ergebnis: Meist korrekt beim ersten Versuch
Szenario B: Mercury mit Retry-Logik
Latenz: 25ms + ggf. 25ms = 50ms
Kosten: ~X/4 + ggf. X/4 = ~X/2
Ergebnis: Korrekt nach maximal zwei Versuchen
Selbst mit Retry ist Mercury zehnmal schneller und halb so teuer. Und das ist der worst case. Bei den 80% der Anfragen, die kein komplexes Multi-Step-Reasoning erfordern, gibt es keinen Retry.
Die eigentliche Architektur-Implikation: Mercury ist kein Ersatz für Frontier-Modelle. Es macht Patterns moeglich, die bisher ökonomisch nicht sinnvoll waren.
Wenn Inference-Kosten gegen Null gehen und Latenz in Millisekunden gemessen wird, öffnen sich neue Designräume:
Continuous Validation Statt punktueller Prüfung: permanente Analyse im Hintergrund. Code-Review während des Tippens, nicht nach dem Commit.
Multi-Agent-Systeme mit hohem Call-Volumen Agentic Workflows mit 50, 100, 200 LLM-Calls pro Task. Bei GPT-4-Preisen prohibitiv, bei Mercury-Preisen Standard.
Kaskadierende Architekturen Mercury als schneller Gatekeeper: Einfache Anfragen direkt beantworten, komplexe an Frontier-Modelle eskalieren. Das Beste aus beiden Welten.
Edge Deployment Die Effizienz ermöglicht lokale Deployments, wo Cloud-Latenz inakzeptabel ist.
Inception hat Mercury bereits in mehrere Entwicklungstools integriert: ProxyAI, Buildglare, Kilo Code. Die Anwendungsfälle sind keine Spekulation mehr.
In meinem letzten Artikel habe ich argumentiert: Das Modell bestimmt die Obergrenze, das Interface bestimmt, wie nah wir drankommen. Die Absorptionsfähigkeit der Organisation - nicht die Modell-Capability - ist der limitierende Faktor.
Mercury fügt dieser These eine neue Dimension hinzu. Wenn Modelle commoditisieren, wenn Speed und Kosten keine Differenzierungsmerkmale mehr sind, dann verschiebt sich der Wert noch weiter: zur Orchestrierung.
Welche Anfrage geht an welches Modell? Wann lohnt sich ein Retry? Wie validiere ich Confidence, bevor ich eskaliere? Das sind keine Implementierungsdetails. Das sind die architektonischen Entscheidungen, die über Produktivitätsgewinne entscheiden.
Das Interface bestimmt, wie gut wir ein Modell nutzen. Die Orchestrierung bestimmt, welches Modell wir wann nutzen. Beides zusammen wird zum eigentlichen Moat, statt der Modelle selbst.
Inception Labs: Introducing Mercury
Inception Labs: Scaling up Mercury
TechCrunch: Inception raises $50M (November 2025)
Benchable.ai: Mercury Model Benchmarks
arXiv: Mercury - Ultra-Fast Language Models Based on Diffusion
2 Min. Lesezeit
In Teil 1 haben wir die Grundlagen der ISO 42001 erläutert, den weltweit ersten Standard für governance-orientierte Steuerung von KI-Systemen. Teil 2...
3 Min. Lesezeit
Ein Praxisleitfaden für Unternehmenslenker und GRC-Verantwortliche Wie Sie mit dem weltweit ersten KI-Managementstandard Compliance sicherstellen und...
3 Min. Lesezeit
Wir haben Monate damit verbracht, zu verstehen, was „Human-in-the-Loop“ (HITL) in der Praxis wirklich bedeutet – in produktiven Workflows, die...