1000+ Fünf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.

maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.

← Zurück zur Übersicht

Bildbearbeitung & Fotografie 17.01.2026

Mit Qwen-Image-Layered lassen sich Bilder erstmals lokal per KI in Ebenen zerlegen und flexibel neu zusammensetzen

Qwen-Image-Layered

ist ein neues Diffusionsmodell, das Bilder in mehrere semantisch getrennte RGBA‑Ebenen zerlegt und damit eine Art „Photoshop‑Layerstruktur“ direkt aus einem einzelnen RGB‑Bild erzeugt. Damit lassen sich Bilder lokal per KI in Layer aufsplitten, bearbeiten und wieder verlustarm zusammensetzen – ohne Cloud-Zwang und mit deutlich weniger Maskieraufwand.

Grundprinzip

Das Modell nimmt ein flaches RGB‑Bild und gibt mehrere zueinander passende RGBA‑Layer aus, die sich wieder exakt zum Originalbild kompositen lassen. Jeder Layer repräsentiert semantische Komponenten wie Hintergrund, Vordergrund oder einzelne Objekte.
Diese Layer können unabhängig skaliert, verschoben, eingefärbt oder inhaltlich ersetzt werden, ohne dass benachbarte Bereiche „ausbluten“ oder Geometrie zerbricht, wie es oft bei normalen Inpainting‑Workflows passiert.

Lokale Nutzung und Open Source

Qwen-Image-Layered steht unter Apache‑2.0-Lizenz und ist als Modell (Hugging Face, ModelScope) plus Code (GitHub) verfügbar, sodass vollständige lokale Inferenz auf der eigenen GPU möglich ist.
Für den schnellen Einstieg existieren fertige Pipelines (z.B. Qwen-Image-Layered in diffusers) und ComfyUI‑Nodes; empfohlen wird eine aktuelle NVIDIA‑GPU, da die Layer-Dekomposition ein vollwertiger Diffusionslauf ist.

Technische Architektur

Kern ist ein RGBA‑VAE, der RGB und transparente RGBA‑Layer in einen gemeinsamen Latent-Space bringt, plus eine VLD‑MMDiT‑Architektur, die mehrere Layer gleichzeitig mit variabler Layer-Anzahl vorhersagt.
Das Modell wird mehrstufig trainiert: zunächst Text‑zu‑Multi‑RGBA (T2L), anschließend Text‑und‑Bild‑zu‑Multi‑RGBA (I2L), sodass sowohl neue Szenen in Layern generiert als auch bestehende Bilder nachträglich zerlegt werden können.

Praxisrelevante Features

Variable Layeranzahl (z.B. 2–6+ Layer) in Abhängigkeit von der Szenenkomplexität, inklusive rekursiver Zerlegung einzelner Ebenen für feinere Kontrolle.
Funktionen wie sauberes Objektlöschen (Clean Object Deletion), Occlusion Completion (Halluzination verdeckter Bildbereiche) und konsistente Repositionierung einzelner Elemente sind im Layer-Workflow deutlich stabiler als bei klassischen SD-/Inpainting-Ansätzen.

Relevanz für deinen Workflow

Du kannst ein Foto oder Render als Input nehmen, es in logisch getrennte Ebenen zerlegen und diese direkt nach Photoshop, Affinity oder in deine ComfyUI‑Pipeline übernehmen, z.B. für Hintergrundtausch, Logo-/Produkt‑Recomposings oder komplexe Composites.
Für Schulungen zur Bildbearbeitung/AI eignet sich das Modell hervorragend, um den Übergang von „flacher“ KI‑Bildgenerierung hin zu strukturierten, editierbaren Layern demonstrieren zu können – inklusive Vergleich zu klassischen Maskierungs-Workflows in Photoshop.