Wir testen jedes Modell mit 0 praxisnahen Tests in 0 Kategorien bevor wir es einsetzen.
Keine akademischen Benchmarks - echte Aufgaben. Jeder Test wird deterministisch ausgewertet: kein LLM bewertet ein anderes LLM. Temperature 0, isolierte Conversations, deutschsprachig.
Die Test-Suite wird aktuell erweitert und die Evaluierung auf eine neue Basis gestellt. Sobald die Ergebnisse unseren Qualitätsansprüchen genügen, veröffentlichen wir sie hier - mit vollständiger Transparenz über Stärken und Schwächen jedes Modells.
Sie möchten vorab über die Ergebnisse informiert werden? Kontakt aufnehmen →
Jeder Test läuft in einer eigenen Conversation - kein Kontext aus vorherigen Tests.
Tools werden echt ausgeführt (Memory lesen, Dateien prüfen) - keine Mocks.
100% deterministisch - kein LLM bewertet die Ergebnisse. Exakte String-Vergleiche.
Maximale Reproduzierbarkeit. Gleicher Prompt → gleiches Ergebnis.
Alle Prompts auf Deutsch - wir testen wie Modelle in der Sprache unserer Nutzer arbeiten.
Coding-Tests werden tatsächlich ausgeführt - der Code muss kompilieren UND das richtige Ergebnis liefern.
Kritische Tests (Halluzination, exakte Zahlen/URLs) zählen dreifach im Score.
Leicht (explizit), Mittel (implizit), Schwer (nur Ziel beschrieben). Zeigt echte Zuverlässigkeit.
Erstellen Sie einen Account und testen Sie die Modelle im Playground.
Registrieren