1000+ Fünf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.

maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.

← Zurück zur Übersicht

Künstliche Intelligenz 22.07.2025

Vom Text zum Bild: So funktioniert Stable Diffusion ( Wie die grüne Katze entsteht )

Stable Diffusion

ist ein generatives KI-Modell, das aus Textbeschreibungen realistische und detailreiche Bilder erzeugt. Das zugrundeliegende Prinzip basiert auf einem sogenannten latenten Diffusionsmodell, das auf Deep Learning und künstlichen neuronalen Netzen beruht, um die Beziehung zwischen Text und Bild zu lernen.

So funktioniert Stable Diffusion im Detail

Training mit Bild-Text-Paaren:
Das Modell wurde mit großen Datensätzen trainiert, darunter der LAION-5B-Datensatz, der über fünf Milliarden Bild-Text-Paare aus dem Internet enthält. Dabei lernt die KI, den Textinhalten passende visuelle Merkmale zuzuordnen.
Diffusionsprozess – Vom Rauschen zum Bild:
Stable Diffusion arbeitet als Diffusionsmodell:
Latenter Raum für Effizienz:
Anders als herkömmliche Diffusionsmodelle arbeitet Stable Diffusion nicht direkt im Pixelraum, sondern in einem komprimierten latenten Raum, was die Berechnung effizienter macht und die Bildgenerierung beschleunigt.
Zentrale Modellbestandteile:
Bildgenerierung durch Texteingabe:
Man gibt eine präzise Textbeschreibung (Prompt) ein, etwa „eine Maus, die Fahrrad fährt“, und das Modell erzeugt dazu in Sekunden ein passendes Bild.
Open Source und Hardware:
Stable Diffusion ist Open Source, der Quellcode und die Modellgewichte sind frei verfügbar und können lokal mit einer GPU (mind. 8 GB VRAM) oder auch schwächerer Hardware genutzt werden.

Stable Diffusion ist damit ein hochmodernes Werkzeug, um aus einfacher Sprache fotorealistische oder künstlerische Bilder zu generieren, das sowohl in der kreativen Bildgestaltung als auch in der Bildbearbeitung vielfältig eingesetzt wird.

Hier findest du weiterführende Informationen: Heise.de

Aus dem Vortrag vom 21.07.2025 Midjourney funktioniert hier identisch.

Die grüne Katze

Die technologische Grundlage von Midjourney basiert auf einer proprietären Software mit maßgeschneiderten Algorithmen. Die Bilderzeugung erfolgt durch das Zusammenspiel eines großen Sprachmodells (Large Language Model, LLM) und eines Diffusionsmodells. Diese Modelle wurden mit massiven Bibliotheken von Bildern trainiert, die jeweils mit detaillierten Textbeschreibungen versehen waren. Ein signifikanter Teil dieser Trainingsdaten stammt aus dem Internet und von der deutschen Non-Profit-Organisation LAION.