Stable Diffusion
ist ein generatives KI-Modell, das aus Textbeschreibungen realistische und detailreiche Bilder erzeugt. Das zugrundeliegende Prinzip basiert auf einem sogenannten latenten Diffusionsmodell, das auf Deep Learning und kĂźnstlichen neuronalen Netzen beruht, um die Beziehung zwischen Text und Bild zu lernen.
So funktioniert Stable Diffusion im Detail
- Training mit Bild-Text-Paaren:
Das Modell wurde mit groĂen Datensätzen trainiert, darunter der LAION-5B-Datensatz, der Ăźber fĂźnf Milliarden Bild-Text-Paare aus dem Internet enthält. Dabei lernt die KI, den Textinhalten passende visuelle Merkmale zuzuordnen.
- Diffusionsprozess â Vom Rauschen zum Bild:
Stable Diffusion arbeitet als Diffusionsmodell:
- Latenter Raum fĂźr Effizienz:
Anders als herkĂśmmliche Diffusionsmodelle arbeitet Stable Diffusion nicht direkt im Pixelraum, sondern in einem komprimierten latenten Raum, was die Berechnung effizienter macht und die Bildgenerierung beschleunigt.
- Zentrale Modellbestandteile:
- Bildgenerierung durch Texteingabe:
Man gibt eine präzise Textbeschreibung (Prompt) ein, etwa âeine Maus, die Fahrrad fährtâ, und das Modell erzeugt dazu in Sekunden ein passendes Bild.
- Open Source und Hardware:
Stable Diffusion ist Open Source, der Quellcode und die Modellgewichte sind frei verfßgbar und kÜnnen lokal mit einer GPU (mind. 8 GB VRAM) oder auch schwächerer Hardware genutzt werden.
Stable Diffusion ist damit ein hochmodernes Werkzeug, um aus einfacher Sprache fotorealistische oder kßnstlerische Bilder zu generieren, das sowohl in der kreativen Bildgestaltung als auch in der Bildbearbeitung vielfältig eingesetzt wird.
Hier findest du weiterfĂźhrende Informationen: Heise.de
Aus dem Vortrag vom 21.07.2025 Midjourney funktioniert hier identisch.
Die grĂźne Katze
Die technologische Grundlage von Midjourney basiert auf einer proprietären Software mit maĂgeschneiderten Algorithmen. Die Bilderzeugung erfolgt durch das Zusammenspiel eines groĂen Sprachmodells (Large Language Model, LLM) und eines Diffusionsmodells. Diese Modelle wurden mit massiven Bibliotheken von Bildern trainiert, die jeweils mit detaillierten Textbeschreibungen versehen waren. Ein signifikanter Teil dieser Trainingsdaten stammt aus dem Internet und von der deutschen Non-Profit-Organisation LAION.