Zum Inhalt springen
LaFoto

Leitfaden

Text-zu-Bild: Wie AI Wörter in Fotos verwandelt

Text‑zu‑Bild ist der Prozess, bei dem ein AI-Bildgenerator eine schriftliche Beschreibung liest und ein passendes Foto erzeugt. Sie geben einen Prompt ein, zum Beispiel „a golden retriever puppy on a rain‑slicked city street at dusk“, und innerhalb von Sekunden liefert das Modell genau dieses Bild. Unter der Haube basieren die meisten modernen Werkzeuge auf Diffusionsmodellen: Ein Text‑Encoder verwandelt Ihre Worte in Zahlen, die das Modell versteht; dann beginnt das Modell bei reinem Zufallsrauschen und entfernt dieses Rauschen Schritt für Schritt, wobei es jeden Schritt in Richtung von etwas schiebt, das zu Ihrer Beschreibung passt. Das Ergebnis ist ein völlig neues Bild, kein Suchergebnis und keine zusammengefügte Collage. Nichts wird von einer einzelnen Quelle kopiert; das Modell hat die statistischen Muster gelernt, wie Wörter mit visuellen Szenen zusammenhängen, und rekonstruiert ein plausibles Foto von Grund auf. Die Qualität dessen, was Sie zurückbekommen, wird hauptsächlich von zwei von Ihnen kontrollierten Faktoren bestimmt: wie klar Ihr Prompt das Motiv, die Umgebung, die Beleuchtung und den Stil beschreibt, und wie gut das zugrunde liegende Modell ist. Der Rest dieses Leitfadens erklärt, wie dieser Ablauf in einfachen Worten funktioniert, was die wichtigsten Begriffe bedeuten und wie Sie Worte einsetzen, um ihn in Richtung des Fotos in Ihrem Kopf zu lenken.
Von Das Redaktionsteam von LaFoto

11 Min. Lesezeit
Eine illustrative Komposition, die zeigt, wie Text in ein Bild verwandelt wird.

Was ist Text-zu-Bild?

Text-zu-Bild ist eine Kategorie von AI, die aus einem geschriebenen Prompt ein Bild erzeugt. Du beschreibst in einfacher Sprache, was du willst, und ein AI-Bildgenerator erstellt ein neues Bild, das dazu passt. Der fachliche Begriff ist Text-zu-Bild-Modell, und laut Wikipedia gewannen diese Systeme nach 2022 an Bedeutung, als Werkzeuge wie DALL-E 2, Imagen, Stable Diffusion und Midjourney begannen, Ergebnisse zu liefern, die sich der Qualität realer Fotografien annäherten.

Der entscheidende Punkt für Einsteiger ist, dass das Ergebnis generiert und nicht abgerufen wird. Das Modell durchsucht keine Bibliothek nach einem bereits existierenden Foto und klebt auch keine Clipart-Stücke zusammen. Es baut ein frisches Bild Pixel für Pixel auf, basierend auf Mustern, die es während des Trainings gelernt hat. Deshalb kannst du nach etwas fragen, das noch nie fotografiert wurde, wie „eine Teetasse aus Buntglas auf einem mit Moos bedeckten Klavier“, und trotzdem ein stimmiges Ergebnis erhalten.

Die meisten Menschen kommen mit Text-zu-Bild über ein einfaches Feld in Berührung: Satz eintippen, auf ‚Generieren‘ drücken, Bild erhalten. Text to Photo funktioniert genau so. Alles Komplexe passiert hinter diesem Feld, und wer die grobe Funktionsweise versteht, wird deutlich besser darin, das gewünschte Ergebnis zu erzielen.

Wie funktioniert Text-zu-Bild eigentlich?

Der dominierende Ansatz im Jahr 2026 ist das Diffusionsmodell, oft als latentes Diffusionsmodell. Die Intuition wirkt kontraintuitiv, ist aber wichtig zu verstehen: Das Modell lernt, Bilder zu erzeugen, indem es zuerst lernt, sie zu zerstören. Während des Trainings nimmt es reale Bilder, fügt Rauschen hinzu, bis sie in statisches Rauschen übergehen, und lernt, diesen Prozess umzukehren. Um ein neues Bild zu erzeugen, beginnt es mit reinem Zufallsrauschen und führt die Umkehrung durch, gesteuert von deinem Prompt, bis ein klares Bild entsteht.

Hier ist die Pipeline in einfachen Schritten, derselbe Weg, den deine Worte jedes Mal gehen, wenn du auf Generieren klickst.

  1. Du schreibst einen Prompt. Das ist die einzige Anweisung, die das Modell erhält, weshalb Präzision so wichtig ist.
  2. Ein Text-Encoder liest ihn. Ein Sprach- oder Sprach‑Bild‑Modell (zum Beispiel ein CLIP-Text-Encoder oder ein großes Sprachmodell wie T5 in Googles Imagen) wandelt deine Worte in ein numerisches Embedding um, das ihre Bedeutung einfängt.
  3. Das Modell beginnt mit Zufallsrauschen. Die Leinwand startet als bedeutungsloses Rauschen, ein zufälliger Seed.
  4. Es entrauscht Schritt für Schritt. Über mehrere Schritte entfernt das Modell nach und nach das Rauschen, und in jedem Schritt lenkt das Text-Embedding das Ergebnis in Richtung deiner Beschreibung.
  5. Ein Bild wird dekodiert. Bei einem latenten Diffusionsmodell findet die Arbeit aus Geschwindigkeitsgründen in einem komprimierten latenten Raum statt; danach erweitert ein Decoder (ein VAE) das Ergebnis zu einem vollauflösenden Bild.
  6. Du erhältst ein fertiges Bild. Die Ausgabe ist ein neues Bild, bedingt durch deine Worte, deinen Seed und die Einstellungen des Modells.

Zwei technische Konzepte erklären vieles von dem Verhalten, das du bemerken wirst. Der Seed ist das spezifische zufällige Startrauschen; verwendest du denselben Seed und denselben Prompt erneut, erhältst du dasselbe Bild — so kannst du kontrolliert iterieren. Guidance (oft als CFG scale bezeichnet) steuert, wie strikt das Modell deinem Prompt folgt im Vergleich zu freierer Generierung; erhöhst du sie, orientiert sich das Bild stärker an deinen Worten, kann dabei aber gezwungen wirken, senkst du sie, driftet es kreativer.

Was bedeuten die wichtigsten Text‑zu‑Bild‑Begriffe?

Einige Begriffe tauchen ständig auf. Wenn du sie kennst, verschwindet die meiste Unsicherheit und du kannst das Einstellungsfenster jedes AI‑Bildgenerators mit Zuversicht lesen.

BegriffBedeutung in einfachen WortenWarum es für dich wichtig ist
EingabeaufforderungDie Textbeschreibung, die du schreibstDein einziges Steuerungsinstrument; je konkreter du bist, desto stärker bestimmt das Ergebnis.
Negativ‑PromptEine Liste von Dingen, die ausgeschlossen werden sollenEntfernt wiederkehrende Probleme wie zusätzliche Finger, Text oder Wasserzeichen.
DiffusionErzeugung durch schrittweises Entfernen von RauschenErklärt, warum mehr Schritte mehr Detail, aber auch mehr Zeit bedeuten können.
Latenter RaumEine komprimierte interne Darstellung des BildesWarum latente Diffusionsmodelle schnell genug sind, um interaktiv zu laufen.
Text‑EncoderWandelt deine Worte in Zahlen um, die das Modell liestEin größerer, besserer Encoder führt meist zu einem besseren Verständnis des Prompts.
SeedDas zufällige AnfangsrauschenVerwende ihn erneut, um ein Bild reproduzierbar zu erzeugen oder kontrolliert zu variieren.
Guidance / CFG‑SkalaWie strikt das Modell dem Prompt folgtZu hoch wirkt erzwungen; zu niedrig ignoriert deine Vorgaben.
SchritteWie viele Denoising‑Durchläufe das Modell ausführtMehr Schritte können Details hinzufügen, kosten aber Zeit und bringen abnehmende Erträge.
SeitenverhältnisDie Form des RahmensStell es bewusst ein, damit deine Komposition nicht unglücklich beschnitten wird.

Du musst nicht jedes Mal alle diese Einstellungen anpassen. Die meisten Tools zeigen standardmäßig ein Prompt‑Feld, ein Negativ‑Prompt und ein Seitenverhältnis und verbergen den Rest in den erweiterten Einstellungen. Wenn du aber weißt, was jeder Hebel bewirkt, weißt du genau, welchen Regler du drehen musst, wenn ein Ergebnis nicht passt.

Worin unterscheidet sich Text-zu-Bild von Bild-zu-Bild und Bearbeitung?

Text-zu-Bild ist einer von mehreren Modi, und sie zu verwechseln ist eine häufige Frustquelle. Der Unterschied liegt darin, womit man das Modell als Ausgangspunkt füttert.

  • Text-zu-Bild: Die Eingabe besteht nur aus Worten. Das Modell beginnt bei zufälligem Rauschen und erzeugt die gesamte Szene anhand Ihrer Beschreibung. Am besten geeignet, um etwas Neues von Grund auf zu schaffen.
  • Bild-zu-Bild: Die Eingabe sind Worte plus ein Ausgangsbild. Das Modell nutzt Ihr Bild als Basis und verwandelt es entsprechend der Eingabeaufforderung, wobei die grobe Komposition erhalten bleibt. Am besten zum Umstylen oder Überarbeiten eines vorhandenen Bildes.
  • Inpainting und Bearbeitung: Die Eingabe ist ein Bild plus eine maskierte Region. Das Modell regeneriert nur den von Ihnen gewählten Bereich. Am besten, um ein einzelnes Element zu korrigieren oder auszutauschen, ohne das gesamte Bild neu zu erstellen.
  • Outpainting: Das Modell erweitert ein Bild über seine ursprünglichen Ränder hinaus und erfindet eine Szenerie, die den Bildausschnitt fortführt. Am besten geeignet, um das Seitenverhältnis zu ändern oder zusätzlichen Platz über dem Motiv zu schaffen.

In einem echten Workflow kombiniert man diese Modi. Sie könnten eine Basis mit Text-zu-Bild erzeugen und dann zur Bearbeitung wechseln, um etwa eine einzelne Hand zu korrigieren oder den Hintergrund auszutauschen. Zu wissen, in welchem Modus Sie sich befinden, zeigt Ihnen, was das Modell ändern darf und was es beizubehalten versuchen wird.

Warum erhalten zwei Personen bei derselben Idee unterschiedliche Fotos?

Wenn du dieselbe Idee in zwei verschiedene Tools eingibst — oder sogar zweimal dasselbe Tool verwendest — können sehr unterschiedliche Bilder entstehen. Das ist zu erwarten; drei Faktoren erklären fast alles davon.

Erstens das Modell. Verschiedene AI-Bildgeneratoren werden mit unterschiedlichen Daten und Architekturen trainiert, sodass jedes einen eigenen Standardlook und andere Stärken hat. Forschung wie die von Google stammende Imagen zeigte, dass das Hochskalieren des Textencoders — nicht nur des Bildmodells — sowohl die Photorealität als auch die Übereinstimmung des Bildes mit den Worten deutlich verbesserte; deshalb variiert das Prompt-Verständnis zwischen den Tools so stark.

Zweitens die Zufälligkeit. Diffusion beginnt mit zufälligem Rauschen, daher erzeugt ein anderer Seed ein anderes Bild, selbst bei einem identischen Prompt. Das ist beabsichtigt, kein Fehler; so lassen sich Variationen erzeugen und das beste Bild auswählen.

Drittens Prompt und Einstellungen. Vage Prompts überlassen dem Modell das Ausfüllen von Lücken mit seiner durchschnittlichen Vermutung, sodass kleine Wortänderungen das Ergebnis stark beeinflussen. Guidance, Schritte und das Seitenverhältnis verändern das Ergebnis zusätzlich. Die praktische Lehre ist, dass der für dich beste AI-Bildgenerator einerseits von der Modellqualität abhängt und andererseits davon, wie gut sein Prompt-Verständnis zu deiner Ausdrucksweise passt.

Wie schreibt man einen Text-zu-Bild-Prompt, der funktioniert?

Da der Prompt Ihre einzige Anweisung ist, ist das Formulieren von Prompts die wichtigste Fähigkeit beim Text-zu-Bild. Die zuverlässige Formel nennt die Elemente in der Reihenfolge ihrer Bedeutung: zuerst das Motiv, dann die Umgebung, die Beleuchtung und der Stil, mit technischen Qualifikatoren am Ende und einem separaten Negativ-Prompt für auszuschließende Elemente.

  1. Nenne das Motiv und seine wichtigsten Merkmale: „eine Frau in ihren 30ern, sanftes, selbstbewusstes Lächeln, anthrazitfarbenes Sakko.“
  2. Platziere es in einer Umgebung: „sitzend vor einem neutralen grauen Hintergrund.“
  3. Gib die Beleuchtung an: „weiches, diffus gestreutes Fensterlicht von links“ — oft der größte Hebel für Realismus.
  4. Füge Kamera, Objektiv und Stil hinzu: „aufgenommen mit 85mm-Objektiv, geringe Schärfentiefe, professionelles Business-Porträt.“
  5. Lege Stimmung und technische Qualifikatoren fest: „warm und freundlich, scharfer Fokus, Seitenverhältnis 4:5.“
  6. Füge einen Negativ-Prompt hinzu: „harte Schatten, Hautunreinheiten, Text, Wasserzeichen.“

Spezifität schlägt Länge. Zehn präzise Wörter sind meist besser als fünfzig vage, denn jedes konkrete Detail lenkt das Modell weg von seiner Durchschnittsvermutung. Wenn ein Ergebnis nah dran, aber nicht richtig ist, ändere jeweils nur eine Variable, damit du die Wirkung jeder Änderung siehst. Für eine ausführlichere Schritt-für-Schritt-Anleitung mit kopierbereiten Beispielen siehe unseren Leitfaden zum Schreiben von AI-Fotoprompts, oder lass den AI Prompt Generator aus einer kurzen Idee einen vollständigen Prompt erstellen.

Was sind die heutigen Grenzen der Text‑zu‑Bild‑Generierung?

Text‑zu‑Bild ist mächtig, aber kein Zauber, und realistische Erwartungen an seine Grenzen ersparen Frust.

  • Feine Details schlagen vorhersehbar fehl. Hände, Zähne, im Bild enthaltene Texte und komplexe Reflexionen sind die üblichen Fehlerzonen; überprüfe sie jedes Mal.
  • Es kann nicht deine Gedanken lesen. Das Modell kennt nur das, was du geschrieben hast; alles, was du nicht erwähnst, füllt es mit seinen Standardannahmen.
  • Exakte Reproduktion ist schwierig. Dieselbe konkrete Person, dasselbe Produkt oder Logo konsistent über mehrere Bilder hinweg zu erzeugen, ist ohne Spezialwerkzeuge weiterhin schwierig.
  • Die Ausgabe ist plausibel, nicht unbedingt faktisch. Das Modell erfindet Details, daher eignet sich Text‑zu‑Bild nicht für Dinge, die exakt sein müssen, wie Dokumentation oder Beweismaterial.
  • Die Qualität variiert je nach Modell. Ein schwächerer KI-Bildgenerator hat Schwierigkeiten mit komplexen Szenen, die ein stärkerer problemlos verarbeitet; das Werkzeug ist also genauso wichtig wie die Eingabe.

Keines davon ist für die meisten kreativen und Marketingaufgaben ein K.O.-Kriterium. Sie bedeuten lediglich, dass Text‑zu‑Bild ein Ausgangspunkt ist, den du verfeinerst, und kein Ein‑Klick‑Orakel. Erzeuge, überprüfe und korrigiere dann die wenigen Fehler gezielt mit einer Anpassung, statt das ganze Bild neu zu generieren.

Sources

  1. 01Text-to-image model (overview)Wikipedia (accessed 2026-06-01)
  2. 02Latent diffusion modelWikipedia (accessed 2026-06-01)
  3. 03Diffusion modelWikipedia (accessed 2026-06-01)
  4. 04Contrastive Language–Image Pre-training (CLIP)Wikipedia (accessed 2026-06-01)
  5. 05Imagen: Text-to-Image Diffusion ModelsGoogle Research (accessed 2026-06-01)
  6. 06Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingSaharia et al., arXiv (accessed 2026-06-01)
  7. 07Prompt engineeringWikipedia (accessed 2026-06-01)

Häufig gestellte Fragen

Was bedeutet Text-zu-Bild?
Text-zu-Bild bedeutet, ein völlig neues Bild aus einer schriftlichen Beschreibung zu erzeugen. Du gibst einen Prompt ein und ein AI-Bildgenerator erstellt ein passendes Foto. Das Bild wird von Grund auf generiert, nicht aus einer Bibliothek abgerufen oder aus bestehenden Bildern zusammengesetzt.
Wie verwandelt ein AI-Bildgenerator Worte in ein Foto?
Die meisten verwenden Diffusion. Ein Text-Encoder wandelt deinen Prompt in Zahlen um, das Modell beginnt mit zufälligem Rauschen und entfernt dieses Rauschen Schritt für Schritt, wobei dein Prompt jeden Schritt lenkt. Ein Decoder wandelt das Ergebnis dann in ein Bild mit voller Auflösung um.
Ist Text-zu-Bild nur die Suche nach vorhandenen Bildern?
Nein. Das Modell durchsucht oder kopiert keine einzelne Quelle. Es hat während des Trainings statistische Muster gelernt, die Worte mit visuellen Szenen verknüpfen, und rekonstruiert bei jeder Generierung ein neues, originales Bild aus zufälligem Rauschen.
Was ist ein Diffusionsmodell?
Ein Diffusionsmodell lernt, Bilder zu erzeugen, indem es einen Rauschprozess umkehrt. Es übt, reale Bilder in Rauschen zu verwandeln, und lernt dann, das rückgängig zu machen, sodass es von zufälligem Rauschen starten und dieses in ein kohärentes Bild entrauschen kann, das von deinem Prompt geleitet wird.
Was ist ein Seed im Text-zu-Bild?
Der Seed ist das spezifische zufällige Anfangsrauschen. Wenn du denselben Seed und denselben Prompt wiederverwendest, reproduzierst du dasselbe Bild — so kannst du kontrolliert iterieren. Wenn du den Seed änderst, erhältst du eine andere Variante derselben Idee.
Was ist CFG bzw. guidance scale?
Guidance, oft als CFG-Skala bezeichnet, steuert, wie strikt das Modell deinem Prompt folgt. Höhere Werte entsprechen deinen Worten genauer, können aber gezwungen wirken; niedrigere Werte lassen das Modell freier erzeugen und vom Beschriebenen abdriften.
Warum bekomme ich unterschiedliche Bilder bei demselben Prompt?
Weil Diffusion mit zufälligem Rauschen beginnt: Ein anderer Seed ergibt ein anderes Bild, selbst bei identischer Formulierung. Verschiedene Modelle und Einstellungen verändern das Ergebnis zusätzlich. Das ist erwartetes Verhalten und ermöglicht es dir, Variationen zu erzeugen und auszuwählen.
Was ist der Unterschied zwischen Text-zu-Bild und Bild-zu-Bild?
Text-zu-Bild beginnt nur mit Worten und baut die gesamte Szene aus Rauschen auf. Bild-zu-Bild startet mit Worten plus einem Ausgangsbild und verwandelt dieses, wobei die grobe Komposition erhalten bleibt. Das eine erzeugt von Grund auf, das andere überarbeitet ein bestehendes Bild.
Welcher ist der beste AI-Bildgenerator für Text-zu-Bild?
Das kommt auf deine Bedürfnisse an und darauf, wie gut das Promptverständnis eines Tools zu deiner Art zu beschreiben passt. Modelle unterscheiden sich im Standardlook, in ihren Stärken und in der Treue gegenüber Prompts — der beste AI-Bildgenerator ist daher zum Teil Modellqualität und zum Teil Passform.
Wie bekomme ich bessere Ergebnisse bei Text-zu-Bild?
Schreibe präzise Prompts: Nenne das Motiv, die Umgebung, die Beleuchtung und den Stil in der Reihenfolge ihrer Wichtigkeit, füge einen negativen Prompt hinzu und lege das Seitenverhältnis fest. Ändere dann jeweils nur eine Variable, um zu verfeinern, statt alles auf einmal neu zu schreiben.

Verfasst von

Das Redaktionsteam von LaFoto

Das Redaktionsteam von LaFoto verfasst Leitfäden und Vergleiche zur AI-Fotogenerierung und arbeitet nach einem quellenbasierten Standard, der das Erfinden von Informationen ausschließt.

Weiterlesen

Jetzt loslegen

Erzeuge dein erstes Bild mit dem besten AI-Bildgenerator.

Verwandle einen Satz in Sekundenschnelle in ein fertiges, fotorealistisches Bild — und verfeinere dann jedes Detail. Keine Einrichtung, kein Discord, keine GPU.

Schließen Sie sich 4.200+ Kreativen an, die LaFoto nutzen