SmartLLM - Modell-Qualifikation

Ergebnisse in Überarbeitung

Die Test-Suite wird aktuell erweitert und die Evaluierung auf eine neue Basis gestellt. Sobald die Ergebnisse unseren Qualitätsansprüchen genügen, veröffentlichen wir sie hier - mit vollständiger Transparenz über Stärken und Schwächen jedes Modells.

Sie möchten vorab über die Ergebnisse informiert werden? Kontakt aufnehmen →

Wie wir testen

Isolierte Tests

Jeder Test läuft in einer eigenen Conversation - kein Kontext aus vorherigen Tests.

Echte Tool-Ausführung

Tools werden echt ausgeführt (Memory lesen, Dateien prüfen) - keine Mocks.

Deterministische Auswertung

100% deterministisch - kein LLM bewertet die Ergebnisse. Exakte String-Vergleiche.

Temperature 0

Maximale Reproduzierbarkeit. Gleicher Prompt → gleiches Ergebnis.

Deutschsprachig

Alle Prompts auf Deutsch - wir testen wie Modelle in der Sprache unserer Nutzer arbeiten.

Code wird ausgeführt

Coding-Tests werden tatsächlich ausgeführt - der Code muss kompilieren UND das richtige Ergebnis liefern.

Gewichtete Bewertung

Kritische Tests (Halluzination, exakte Zahlen/URLs) zählen dreifach im Score.

3 Schwierigkeitsstufen

Leicht (explizit), Mittel (implizit), Schwer (nur Ziel beschrieben). Zeigt echte Zuverlässigkeit.

Technische Details

System-Prompt: ~16.000 Zeichen mit 40+ Tool-Definitionen
Agentic Loop: bis zu 10 Tool-Call-Runden pro Test
Code-Execution: Python 3, isolierter Subprocess, 10s Timeout
Fremdzeichen-Erkennung: CJK-Unicode-Ranges (automatischer Fail)
30 Sekunden Timeout pro Test
Eval-Modi: tool_check, code_exec, string_match

Häufig gestellte Fragen

Wie testet SmartLLM die Modelle?

Mit 56 praxisnahen Tests in 7 Kategorien. Jeder Test wird deterministisch ausgewertet - kein LLM bewertet ein anderes LLM. Temperature 0, isolierte Conversations, deutschsprachige Prompts.

Warum keine akademischen Benchmarks?

Akademische Benchmarks messen oft englischsprachige Aufgaben unter Laborbedingungen. Unsere Tests bilden reale Anforderungen ab: Tool-Calling, deutschsprachige Kommunikation, Fehlerbehandlung und Code-Ausführung.

Wie oft werden die Modelle getestet?

Jedes Modell wird vor dem Einsatz getestet und bei Updates erneut evaluiert. Die Test-Suite wird laufend erweitert um neue Anforderungen abzubilden.

Modell-Qualifikation

Ergebnisse in Überarbeitung

Wie wir testen

Häufig gestellte Fragen

Modelle selbst testen