Question 1

Kann ich Llama 3, Mistral oder Gemma betreiben?

Accepted Answer

Ja. Unser Stack ist für alle von vLLM unterstützten Modelle optimiert, einschließlich Llama 3, Mistral, Gemma, Qwen und Ihre eigenen Fine-Tuned-Modelle.

Question 2

Wie steht es um Datenschutz und DSGVO?

Accepted Answer

Wir schließen einen AV-Vertrag (DPA) ab. Ihre Daten bleiben auf Ihren dedizierten Servern in europäischen Rechenzentren (Deutschland und Finnland). Wir nutzen Ihre Daten nicht für das Training von Modellen. 100% DSGVO-konform und immun gegen den US CLOUD Act.

Question 3

Ist die API kompatibel zu OpenAI?

Accepted Answer

Ja. Sie tauschen einfach Ihre OpenAI Base URL und den API-Key aus, und Ihre Anwendung funktioniert ohne Code-Änderungen weiter. Wir stellen eine OpenAI-kompatible REST API bereit.

Question 4

Wie sind die Kosten im Vergleich zu AWS SageMaker?

Accepted Answer

Unsere dedizierte GPU-Hardware kostet einen Bruchteil vergleichbarer Cloud-Instanzen. Ein einzelner GEX44 GPU-Server kostet ~$400/Monat im Vergleich zu 2.000+ €/Monat bei AWS für dieselbe Rechenleistung. Das ist pure OpEx-Reduktion.

Question 5

Kann ich Modelle auf Ihrer Infrastruktur fine-tunen?

Accepted Answer

Ja, mit dem AI Full Stack Tier. Wir bieten LoRA Fine-Tuning-Pipelines und "Train-by-Night, Serve-by-Day" GPU-Scheduling, um die Hardware-Auslastung und Ihren ROI zu maximieren.

Question 6

Bieten Sie Trials oder Demos an?

Accepted Answer

Wir bieten bezahlte Pilotprojekte an. Da wir physische, dedizierte Hardware bereitstellen, gibt es keine Free Tiers. Piloten starten bei $1,000 für 30 Tage.

Question 7

Welche GPU-Hardware nutzen Sie?

Accepted Answer

Hetzner GEX44 (RTX 4000 Ada) für Inference und GEX131 (RTX PRO 6000 Ada, 96 GB VRAM) für Training und große Modelle. Alles dediziert — kein Shared Tenancy, volle Isolation.

Question 8

Kann ich auf mehrere GPU-Knoten skalieren?

Accepted Answer

Ja. Beide Tiers unterstützen zusätzliche GPU-Knoten. AI Inference: +$400/Monat pro GEX44-Knoten. AI Full Stack: +$1,000/Monat pro GEX131-Knoten. Kalkulierbare Unit Economics.

Question 9

Welches Monitoring erhalte ich?

Accepted Answer

Vollständige Prometheus + Grafana Dashboards mit DCGM GPU-Metriken, vLLM Throughput-Tracking und Loki-Logging. Sie sehen Token/s, Queue Depth und GPU-Auslastung in Echtzeit – volle Transparenz.

Question 10

Was ist der Unterschied zwischen den beiden Tiers?

Accepted Answer

AI Inference dient dem Serving von 7B-13B-Modellen auf GEX44-Hardware. AI Full Stack ergänzt RAG, Fine-Tuning-Pipelines, Multi-Model Management und 96 GB VRAM GPUs für 70B+-Modelle. Mehr Kapazität nötig? Fügen Sie einfach GPU-Knoten zu jedem Tier hinzu.

Question 11

Wo befinden sich die GPU-Server?

Accepted Answer

Die gesamte GPU-Infrastruktur läuft auf dedizierten Hetzner-Servern in europäischen Rechenzentren (Deutschland und Finnland). GPU-Server sind in US-Regionen nicht verfügbar. Das garantiert vollständige EU-Datensouveränität, ISO 27001 Sicherheit und strikte Einhaltung des EU AI Act. Keine Kompromisse bei Compliance.

Service	Setup-Gebühr (CapEx)	Monatlich (OpEx)	Ideal für
AI Inference	$3,000	$1,000	KI-Agenturen & SaaS mit KI-Features
AI Full Stack	$2,000	$4,000	KI-Startups, Enterprise & Mittelstand (DSGVO-Fokus)

AI Infrastructure Suite: Souveräne KI auf dedizierten Hetzner GPUs

Warum KI auf dedizierter Hardware betreiben? (Der ROI Business Case)

Welches KI-Produkt passt zu Ihren Anforderungen?

AI Inference

Für KI-Agenturen & SaaS

AI Full Stack

Für KI-Startups, Enterprise & Mittelstand (DSGVO-Fokus)

Wie unterscheiden sich die KI-Infrastruktur Produkte im direkten Vergleich?

Wie sind die Service-Grenzen und SLAs definiert?

Fragen zur AI Infrastructure Suite?