Qwen-Image-2512 Fine-Tune: Trainingskosten lokal (RTX 3090) vs. gemietet (RTX PRO 6000 Blackwell)

Ich wollte wissen, was mich ein Qwen-Image-2512 Fine-Tune (ai-toolkit, LoKR) zeitlich und finanziell kostet – einmal auf meiner lokalen RTX 3090 und einmal auf einer gemieteten RTX PRO 6000 Blackwell.

Kurzfazit: Ein 8000-Step-Run kostet bei mir in € fast gleich viel, aber die PRO 6000 läuft ~5× schneller.

Setup & Annahmen

  • Hardware: RTX 3090 (lokal) vs. RTX PRO 6000 Blackwell (gemietet)
  • Trainingsziel: 8000 Steps, Sampling aktiv (sample_every: 250, 1024×1024, sample_steps: 20)
  • Strompreis: €0,30/kWh
  • Leistung (Durchschnitt): 3090 GPU 360W, PRO 6000 GPU 600W
  • „Rest-System“ unter Last: +80W (CPU/RAM/SSD/Fans etc.)
  • Miete (VastAI): $0,722/h, umgerechnet mit 1 USD ≈ €0,861 (EZB-Referenzkurs vom 16.01.2026)
  • Hinweis: kein perfekter Benchmark – die Runs sind nicht 1:1 identisch (u. a. layer_offloading und LR).

Geschwindigkeit (inkl. Sampling)

Gemessen über Zeitabstände pro 250 Steps (inkl. Save + Sampling am Block-Ende), und auf 8000 Steps hochgerechnet:

GPU Zeit pro 250 Steps Steps/h Zeit für 8000 Steps
RTX 3090 (lokal) ~70m15s ~212 ~37h44m
RTX PRO 6000 (gemietet) ~14m03s ~1064 ~7h31m

Sampling-Zeit

Pro Sampling-Event werden 8 Bilder generiert.

GPU Sampling pro Event ~pro Bild
RTX 3090 ~16m07s ~2m01s
RTX PRO 6000 ~1m30s ~11s

Kostenrechnung für 8000 Steps (steady state, ohne Caching)

Lokal (RTX 3090)

  • Gesamtleistung: 440W (360W GPU + 80W System)
  • Energie: ~16,60 kWh
  • Stromkosten: ~€4,98

Gemietet (RTX PRO 6000)

  • Mietdauer: ~7,52 h
  • Mietkosten: $5,43 ≈ €4,67

Was nehme ich daraus mit?

  • Wenn ich Zeit sparen will, ist die gemietete PRO 6000 für diesen Run klar besser (ähnliche €-Kosten, aber deutlich schneller).
  • Sampling ist ein echter Faktor: auf der 3090 dominiert es deutlich stärker. Für reine „Throughput“-Runs lohnt sich oft: Sampling aus, und Samples nur gelegentlich separat erzeugen.
  • Wenn ich lokal sample, dann mit so wenigen Prompts wie möglich (z. B. 1–2 statt 8), damit der Trainingsdurchsatz nicht komplett vom Sampling aufgefressen wird.