AI

Qwen-Image-2512 Fine-Tune: Trainingskosten lokal (RTX 3090) vs. gemietet (RTX PRO 6000 Blackwell)

Ich wollte wissen, was mich ein Qwen-Image-2512 Fine-Tune (ai-toolkit, LoKR) zeitlich und finanziell kostet – einmal auf meiner lokalen RTX 3090 und einmal auf einer gemieteten RTX PRO 6000 Blackwell.

Kurzfazit: Ein 8000-Step-Run kostet bei mir in € fast gleich viel, aber die PRO 6000 läuft ~5× schneller.

Setup & Annahmen

  • Hardware: RTX 3090 (lokal) vs. RTX PRO 6000 Blackwell (gemietet)
  • Trainingsziel: 8000 Steps, Sampling aktiv (sample_every: 250, 1024×1024, sample_steps: 20)
  • Strompreis: €0,30/kWh
  • Leistung (Durchschnitt): 3090 GPU 360W, PRO 6000 GPU 600W
  • „Rest-System“ unter Last: +80W (CPU/RAM/SSD/Fans etc.)
  • Miete (VastAI): $0,722/h, umgerechnet mit 1 USD ≈ €0,861 (EZB-Referenzkurs vom 16.01.2026)
  • Hinweis: kein perfekter Benchmark – die Runs sind nicht 1:1 identisch (u. a. layer_offloading und LR).

Geschwindigkeit (inkl. Sampling)

Gemessen über Zeitabstände pro 250 Steps (inkl. Save + Sampling am Block-Ende), und auf 8000 Steps hochgerechnet:

RTX 3090 vs RTX PRO 4000 (Blackwell): Inference, Training und Stromkosten

Übersetzungen: EN

Ich wollte wissen, wie sich meine lokale RTX 3090 (gebraucht, ~700€) gegen eine oder mehrere RTX PRO 4000 Blackwell (145W, neu ~1400€) schlägt, einmal für LLM-Inference (Single User / Scripts / eigene Agents) und einmal fürs Fine-Tuning von Bildmodellen (AI-toolkit).

Mein Fazit vorweg: bei llama.cpp ist die 3090 oft schneller im Decoding, beim Training ist die RTX PRO 4000 bei mir leicht vorne, und bei den Stromkosten pro Token/Epoch ist die RTX PRO 4000 deutlich besser.