Modell-Qualifikation

Wir testen jedes Modell mit 0 praxisnahen Tests in 0 Kategorien bevor wir es einsetzen.

Keine akademischen Benchmarks - echte Aufgaben. Jeder Test wird deterministisch ausgewertet: kein LLM bewertet ein anderes LLM. Temperature 0, isolierte Conversations, deutschsprachig.

0
Tests
0
Kategorien
0
Aufgaben-Gruppen

Ergebnisse in Überarbeitung

Die Test-Suite wird aktuell erweitert und die Evaluierung auf eine neue Basis gestellt. Sobald die Ergebnisse unseren Qualitätsansprüchen genügen, veröffentlichen wir sie hier - mit vollständiger Transparenz über Stärken und Schwächen jedes Modells.

Sie möchten vorab über die Ergebnisse informiert werden? Kontakt aufnehmen →

Wie wir testen

Isolierte Tests

Jeder Test läuft in einer eigenen Conversation - kein Kontext aus vorherigen Tests.

Echte Tool-Ausführung

Tools werden echt ausgeführt (Memory lesen, Dateien prüfen) - keine Mocks.

Deterministische Auswertung

100% deterministisch - kein LLM bewertet die Ergebnisse. Exakte String-Vergleiche.

Temperature 0

Maximale Reproduzierbarkeit. Gleicher Prompt → gleiches Ergebnis.

Deutschsprachig

Alle Prompts auf Deutsch - wir testen wie Modelle in der Sprache unserer Nutzer arbeiten.

Code wird ausgeführt

Coding-Tests werden tatsächlich ausgeführt - der Code muss kompilieren UND das richtige Ergebnis liefern.

Gewichtete Bewertung

Kritische Tests (Halluzination, exakte Zahlen/URLs) zählen dreifach im Score.

3 Schwierigkeitsstufen

Leicht (explizit), Mittel (implizit), Schwer (nur Ziel beschrieben). Zeigt echte Zuverlässigkeit.

Technische Details
  • System-Prompt: ~16.000 Zeichen mit 40+ Tool-Definitionen
  • Agentic Loop: bis zu 10 Tool-Call-Runden pro Test
  • Code-Execution: Python 3, isolierter Subprocess, 10s Timeout
  • Fremdzeichen-Erkennung: CJK-Unicode-Ranges (automatischer Fail)
  • 30 Sekunden Timeout pro Test
  • Eval-Modi: tool_check, code_exec, string_match

Häufig gestellte Fragen

Wie testet SmartLLM die Modelle?
Mit 56 praxisnahen Tests in 7 Kategorien. Jeder Test wird deterministisch ausgewertet - kein LLM bewertet ein anderes LLM. Temperature 0, isolierte Conversations, deutschsprachige Prompts.
Warum keine akademischen Benchmarks?
Akademische Benchmarks messen oft englischsprachige Aufgaben unter Laborbedingungen. Unsere Tests bilden reale Anforderungen ab: Tool-Calling, deutschsprachige Kommunikation, Fehlerbehandlung und Code-Ausführung.
Wie oft werden die Modelle getestet?
Jedes Modell wird vor dem Einsatz getestet und bei Updates erneut evaluiert. Die Test-Suite wird laufend erweitert um neue Anforderungen abzubilden.

Modelle selbst testen

Erstellen Sie einen Account und testen Sie die Modelle im Playground.

Registrieren