Vacancy Description
Was erwartet dich Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen für Kunden mit hohen Anforderungen an Datensouveränität, Sicherheit und Betriebskontrolle – on-premises, in privaten Cloud-Umgebungen oder souveränen europäischen Cloud-Setups.
Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden überführst du AI-Use-Cases in den produktiven Betrieb.
Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.
Außerdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgrößen, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.
Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging
Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarc...
Ready to Apply?
अभी आवेदन करें
Submit your application for AI Inference Engineer (all genders) at EXXETA
Apply for this Position