OpenAI-kompatibel — dein bestehendes Setup funktioniert sofort
In 3 Schritten loslegen.
Liste aller verfügbaren Modelle: GET /v1/models.
Wer lieber direkt eine konkrete Modell-ID verwendet, findet sie dort.
Stabile Rollen-Namen statt versionierter Modell-IDs.
Statt sich an Intel/Qwen3.5-397B-A17B-int4-AutoRound zu binden, setzen
Konsumenten den Alias frontier als model. Der Gateway löst
den Alias serverseitig auf das aktuell dahinterliegende Modell auf. Wenn wir die
Hardware oder das Modell tauschen, ändert sich nichts im Client-Code.
Hinweis: /v1/aliases ist nicht Teil der OpenAI-Spec —
eine SmartLLM-spezifische Erweiterung. Wenn du strikt OpenAI-kompatibel bleiben willst,
nutze konkrete Modell-IDs aus /v1/models. Die Aliase tauchen dort übrigens
auch auf (additiv), mit owned_by: "smartllm-alias" als Discriminator.
| Alias | Rolle | Trade-Off |
|---|---|---|
frontier | Stärkstes Modell, multimodal | capability-first |
coder | Beste Coding-Qualität | capability-first |
coder-fast | Schnelles Coding | latency-first |
vision | Bild-Input | capability-first |
mid | Allround-Mittelklasse | capability-first |
fast | Niedrigste Latenz, einfache Tasks | latency-first |
Welches Modell aktuell hinter einem Alias steckt, kann sich ändern — das ist der Sinn der Sache.
Live-Liste der konfigurierten Aliase. Antwort-Objekte tragen
"object": "smartllm.alias" als Discriminator.
Ersetze einfach https://api.openai.com/v1 durch https://smartllm.at/v1 in deinem bestehenden Code.
Chat mit dem Modell. Unterstützt Streaming. model akzeptiert eine konkrete Modell-ID oder einen Production-Alias.
Liste aller verfügbaren Modelle. Aliase tauchen additiv mit owned_by: "smartllm-alias" auf.
Nur die Aliase, mit Target-Modell wo erlaubt. Details in der Sektion oben.
Legacy Text-Completion Endpoint.
Embedding-Vektoren für Text. Nur Modelle mit embedding-Capability. Chat-Modelle auf diesem Endpoint → 400; unbekannte Modelle → 404.
input akzeptiert einen String oder ein Array von Strings (Batch). Verfügbare Embedding-Modelle: nomic-embed-text:latest.
Zwei Modelle akzeptieren Bilder als Input via image_url-Content-Block (OpenAI-kompatibel).
| Modell | Kategorie | Empfohlenes max_tokens | Einsatz |
|---|---|---|---|
Intel/Qwen3.5-397B-A17B-int4-AutoRound |
Flagship | 200–500 | Komplexe Bildanalyse, Detail-Extraction, Dokumentenanalyse, Rechnungsklassifikation |
gemma4-nothink:26b / gemma4-think:26b |
Allgemein | ≥ 2000 | OCR, Bildklassifikation, kurze Beschreibungen |
qwen3.6:27b |
Allgemein | 500–1000 | Bildanalyse im Tagesgeschäft, gute Balance aus Latenz und Qualität |
nemotron3:33b |
Multimodal (Omni) | 500–1500 | Bild und Audio in einem Request, gemischte Anfragen |
max_tokens zwischen 200 und 500 reicht in der Regel.max_tokens mindestens 2000 setzen, sonst kommt leerer Content zurück (Budget wird im Reasoning aufgebraucht).nemotron3:33b akzeptiert zusätzlich Audio-Inputs.
Beta-Hinweis: Pricing und API-Schema für Audio-Inputs können sich ändern. Verfügbarkeit ist nicht SLA-garantiert.
OpenAI-kompatibler Content-Block mit Typ input_audio. Daten als Base64.
| Modalität | Formate | Empfohlene Dauer | Token-Verbrauch (ca.) |
|---|---|---|---|
| Audio | WAV, MP3, M4A | bis 60 Sek. | ~32 Token/Sek. |
Einheitliches Token-Pricing. Audio wird vom Modell intern tokenisiert und in usage.prompt_tokens mitgemeldet — es gibt aktuell keine separate Audio-Gebühr. Zur Orientierung bei €10/M Tokens:
| Input | Token-Rate | Kosten/Sekunde | Kosten/Minute |
|---|---|---|---|
| Text | variabel | — | — |
| Audio | ~32 Token/Sek. | ~€0.00032 | ~€0.019 |
Token-Raten sind Orientierungswerte basierend auf vergleichbaren Omni-Modellen. Tatsächlicher Verbrauch ergibt sich aus usage.prompt_tokens der jeweiligen Antwort. Endabrechnung immer auf realen Token-Counts.
| Parameter | Typ | Default | Beschreibung |
|---|---|---|---|
model | string | required | Modell-ID (siehe GET /v1/models) |
messages | array | required | Chat-Verlauf als Array von {role, content} |
temperature | float | 0.7 | Kreativität (0.0 = deterministisch, 1.0 = kreativ) |
max_tokens | int | 1000 | Maximale Antwortlänge in Tokens |
stream | bool | false | Streaming-Antwort (Server-Sent Events) |
top_p | float | 1.0 | Nucleus Sampling |
stop | string/array | null | Stop-Sequenzen |
55+ Tools automatisch verfügbar. Checkin-Modell prüft ob Tools nötig sind. Ideal für Chat, Assistenten, Recherche.
Request geht 1:1 ans Modell. Kein Checkin, keine Tools. Für Coding-Agents, eigenes Tool-Calling, OpenCode.
Modus pro API-Key einstellbar im Portal.
| Limit | Default | Beschreibung |
|---|---|---|
RPM | 60 | Requests pro Minute |
TPD | 1.000.000 | Tokens pro Tag (Input + Output) |
Concurrent | 3 | Gleichzeitige Requests |
Limits pro API-Key konfigurierbar. Bei Überschreitung: HTTP 429.
| Code | Bedeutung | Lösung |
|---|---|---|
401 | Invalid API Key | Key prüfen, neuen Key erstellen |
429 | Rate Limit | Warten oder Limits erhöhen lassen |
502 | Backend offline | Modell wird geladen, kurz warten |
504 | Timeout | Kleineres Modell oder weniger Tokens |