OpenAI-kompatibel — dein bestehendes Setup funktioniert sofort
In 3 Schritten loslegen.
Ersetze einfach https://api.openai.com/v1 durch https://smartllm.at/v1 in deinem bestehenden Code.
Chat mit dem Modell. Unterstützt Streaming.
Liste aller verfügbaren Modelle.
Legacy Text-Completion Endpoint.
Embedding-Vektoren für Text. Nur Modelle mit embedding-Capability. Chat-Modelle auf diesem Endpoint → 400; unbekannte Modelle → 404.
input akzeptiert einen String oder ein Array von Strings (Batch). Verfügbare Embedding-Modelle: nomic-embed-text:latest.
Zwei Modelle akzeptieren Bilder als Input via image_url-Content-Block (OpenAI-kompatibel).
| Modell | Kategorie | Empfohlenes max_tokens | Einsatz |
|---|---|---|---|
Qwen/Qwen3.5-122B-A10B-FP8 |
Flagship | 200–500 | Komplexe Bildanalyse, Detail-Extraction, Dokumentenanalyse, Rechnungsklassifikation |
gemma4-nothink:26b / gemma4-think:26b |
Allgemein | ≥ 2000 | OCR, Bildklassifikation, kurze Beschreibungen |
qwen3.6:27b |
Allgemein | 500–1000 | Bildanalyse im Tagesgeschäft, gute Balance aus Latenz und Qualität |
nemotron3:33b |
Multimodal (Omni) | 500–1500 | Bild und Audio in einem Request, gemischte Anfragen |
max_tokens zwischen 200 und 500 reicht in der Regel.max_tokens mindestens 2000 setzen, sonst kommt leerer Content zurück (Budget wird im Reasoning aufgebraucht).nemotron3:33b akzeptiert zusätzlich Audio-Inputs.
Beta-Hinweis: Pricing und API-Schema für Audio-Inputs können sich ändern. Verfügbarkeit ist nicht SLA-garantiert.
OpenAI-kompatibler Content-Block mit Typ input_audio. Daten als Base64.
| Modalität | Formate | Empfohlene Dauer | Token-Verbrauch (ca.) |
|---|---|---|---|
| Audio | WAV, MP3, M4A | bis 60 Sek. | ~32 Token/Sek. |
Einheitliches Token-Pricing. Audio wird vom Modell intern tokenisiert und in usage.prompt_tokens mitgemeldet — es gibt aktuell keine separate Audio-Gebühr. Zur Orientierung bei €10/M Tokens:
| Input | Token-Rate | Kosten/Sekunde | Kosten/Minute |
|---|---|---|---|
| Text | variabel | — | — |
| Audio | ~32 Token/Sek. | ~€0.00032 | ~€0.019 |
Token-Raten sind Orientierungswerte basierend auf vergleichbaren Omni-Modellen. Tatsächlicher Verbrauch ergibt sich aus usage.prompt_tokens der jeweiligen Antwort. Endabrechnung immer auf realen Token-Counts.
| Parameter | Typ | Default | Beschreibung |
|---|---|---|---|
model | string | required | Modell-ID (siehe GET /v1/models) |
messages | array | required | Chat-Verlauf als Array von {role, content} |
temperature | float | 0.7 | Kreativität (0.0 = deterministisch, 1.0 = kreativ) |
max_tokens | int | 1000 | Maximale Antwortlänge in Tokens |
stream | bool | false | Streaming-Antwort (Server-Sent Events) |
top_p | float | 1.0 | Nucleus Sampling |
stop | string/array | null | Stop-Sequenzen |
55+ Tools automatisch verfügbar. Checkin-Modell prüft ob Tools nötig sind. Ideal für Chat, Assistenten, Recherche.
Request geht 1:1 ans Modell. Kein Checkin, keine Tools. Für Coding-Agents, eigenes Tool-Calling, OpenCode.
Modus pro API-Key einstellbar im Portal.
| Limit | Default | Beschreibung |
|---|---|---|
RPM | 60 | Requests pro Minute |
TPD | 1.000.000 | Tokens pro Tag (Input + Output) |
Concurrent | 3 | Gleichzeitige Requests |
Limits pro API-Key konfigurierbar. Bei Überschreitung: HTTP 429.
| Code | Bedeutung | Lösung |
|---|---|---|
401 | Invalid API Key | Key prüfen, neuen Key erstellen |
429 | Rate Limit | Warten oder Limits erhöhen lassen |
502 | Backend offline | Modell wird geladen, kurz warten |
504 | Timeout | Kleineres Modell oder weniger Tokens |