1000+ FĂźnf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.
maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.
Mit Qwen-Image-Layered lassen sich Bilder erstmals lokal per KI in Ebenen zerlegen und flexibel neu zusammensetzen
Bildbearbeitung & Fotografie 17.01.2026

Mit Qwen-Image-Layered lassen sich Bilder erstmals lokal per KI in Ebenen zerlegen und flexibel neu zusammensetzen

Qwen-Image-Layered

ist ein neues Diffusionsmodell, das Bilder in mehrere semantisch getrennte RGBA‑Ebenen zerlegt und damit eine Art „Photoshop‑Layerstruktur“ direkt aus einem einzelnen RGB‑Bild erzeugt. Damit lassen sich Bilder lokal per KI in Layer aufsplitten, bearbeiten und wieder verlustarm zusammensetzen – ohne Cloud-Zwang und mit deutlich weniger Maskieraufwand.

Grundprinzip

  • Das Modell nimmt ein flaches RGB‑Bild und gibt mehrere zueinander passende RGBA‑Layer aus, die sich wieder exakt zum Originalbild kompositen lassen. Jeder Layer repräsentiert semantische Komponenten wie Hintergrund, Vordergrund oder einzelne Objekte.
  • Diese Layer kĂśnnen unabhängig skaliert, verschoben, eingefärbt oder inhaltlich ersetzt werden, ohne dass benachbarte Bereiche „ausbluten“ oder Geometrie zerbricht, wie es oft bei normalen Inpainting‑Workflows passiert.

Lokale Nutzung und Open Source

  • Qwen-Image-Layered steht unter Apache‑2.0-Lizenz und ist als Modell (Hugging Face, ModelScope) plus Code (GitHub) verfĂźgbar, sodass vollständige lokale Inferenz auf der eigenen GPU mĂśglich ist.
  • FĂźr den schnellen Einstieg existieren fertige Pipelines (z.B. Qwen-Image-Layered in diffusers) und ComfyUI‑Nodes; empfohlen wird eine aktuelle NVIDIA‑GPU, da die Layer-Dekomposition ein vollwertiger Diffusionslauf ist.

Technische Architektur

  • Kern ist ein RGBA‑VAE, der RGB und transparente RGBA‑Layer in einen gemeinsamen Latent-Space bringt, plus eine VLD‑MMDiT‑Architektur, die mehrere Layer gleichzeitig mit variabler Layer-Anzahl vorhersagt.
  • Das Modell wird mehrstufig trainiert: zunächst Text‑zu‑Multi‑RGBA (T2L), anschließend Text‑und‑Bild‑zu‑Multi‑RGBA (I2L), sodass sowohl neue Szenen in Layern generiert als auch bestehende Bilder nachträglich zerlegt werden kĂśnnen.

Praxisrelevante Features

  • Variable Layeranzahl (z.B. 2–6+ Layer) in Abhängigkeit von der Szenenkomplexität, inklusive rekursiver Zerlegung einzelner Ebenen fĂźr feinere Kontrolle.
  • Funktionen wie sauberes ObjektlĂśschen (Clean Object Deletion), Occlusion Completion (Halluzination verdeckter Bildbereiche) und konsistente Repositionierung einzelner Elemente sind im Layer-Workflow deutlich stabiler als bei klassischen SD-/Inpainting-Ansätzen.

Relevanz fĂźr deinen Workflow

  • Du kannst ein Foto oder Render als Input nehmen, es in logisch getrennte Ebenen zerlegen und diese direkt nach Photoshop, Affinity oder in deine ComfyUI‑Pipeline Ăźbernehmen, z.B. fĂźr Hintergrundtausch, Logo-/Produkt‑Recomposings oder komplexe Composites.
  • FĂźr Schulungen zur Bildbearbeitung/AI eignet sich das Modell hervorragend, um den Übergang von „flacher“ KI‑Bildgenerierung hin zu strukturierten, editierbaren Layern demonstrieren zu kĂśnnen – inklusive Vergleich zu klassischen Maskierungs-Workflows in Photoshop.

Hier findest du weiterfĂźhrende Informationen: Qwen.ai


Ähnliche Beiträge

Hol’ dir die Weiterbildung im Mail-Format
Starttermine, exklusive Rabatte und spannende Updates direkt in dein Postfach.

Kontakt
+ 4917664380939
Rick Maschke & Partner
Spezialist fßr exzellente Präsentationen Innovative Prozesse & Digitale Bildbearbeitung
rick@maschke.academy