Vejledning
Tekst til billede: Hvordan AI omdanner ord til fotos

Hvad er tekst-til-billede?
Tekst-til-billede er en kategori inden for AI, der genererer et billede ud fra en skriftlig prompt. Du beskriver, hvad du vil have i almindeligt sprog, og en AI-billedgenerator skaber et nyt billede, der matcher. Det tekniske udtryk er en tekst-til-billede-model, og ifølge Wikipedia tog disse systemer fart efter 2022, da værktøjer som DALL-E 2, Imagen, Stable Diffusion og Midjourney begyndte at levere resultater, der nærmede sig kvaliteten af rigtige fotografier.
Det afgørende for nybegyndere er, at resultatet bliver genereret, ikke hentet. Modellen søger ikke i et bibliotek efter et foto, der allerede findes, og den limer ikke clipart sammen. Den bygger et nyt billede pixel for pixel ud fra mønstre, den lærte under træningen. Derfor kan du bede om noget, der aldrig er blevet fotograferet, som „en tekop af farvet glas på et mosdækket klaver“, og alligevel få et sammenhængende resultat.
De fleste møder tekst-til-billede gennem en simpel boks: skriv en sætning, tryk på generér, få et billede. Tekst til foto fungerer præcis sådan. Alt det komplicerede sker bag den boks, og hvis du forstår hovedtrækkene, bliver du væsentligt bedre til at få det resultat, du ønsker.
Hvordan fungerer tekst-til-billede egentlig?
Den dominerende tilgang i 2026 er diffusionsmodellen, ofte en latent diffusionsmodel. Intuitionen er kontraintuitiv, men værd at forstå: modellen lærer at skabe billeder ved først at lære at ødelægge dem. Under træningen tager den virkelige billeder, tilføjer støj, indtil de ligner statisk støj, og lærer at vende processen om. Når den skal generere et nyt billede, starter den fra helt tilfældig støj og kører processen baglæns, styret af din prompt, indtil et rent billede træder frem.
Her er processen i enkle trin — den samme vej dine ord følger, hver gang du trykker på generer.
- Du skriver en prompt. Det er den eneste instruktion modellen får, derfor betyder præcision så meget.
- En tekstencoder læser den. En sprogmodel eller vision-sprog-model (for eksempel en CLIP-tekstencoder eller en stor sprogmodel som T5 i Googles Imagen) konverterer dine ord til en numerisk embedding, der fanger deres betydning.
- Modellen starter fra tilfældig støj. Lærredet begynder som meningsløs statisk støj — en tilfældig seed.
- Den fjerner støj trin for trin. Over en række skridt fjerner modellen støj lidt ad gangen, og ved hvert skridt styrer tekst-embedding’en resultatet i retning af din beskrivelse.
- Et billede dekodes. I en latent diffusionsmodel foregår arbejdet i et komprimeret latent rum for hastighed, og derefter udvider en decoder (en VAE) resultatet til et fuldopløsningsbillede.
- Du får et færdigt foto. Outputtet er et nyt billede betinget af dine ord, dit seed og modellens indstillinger.
To tekniske ideer forklarer meget af den adfærd, du vil lægge mærke til. Seed er den konkrete tilfældige startstøj; genbrug det samme seed og prompt, og du får det samme billede — det er sådan, du kan iterere på en kontrolleret måde. Guidance (ofte kaldet CFG scale) styrer, hvor stramt modellen følger din prompt versus hvor frit den genererer; skru op for den, og billedet følger dine ord tættere, men kan virke tvunget; skru ned, og det driver i en mere kreativ retning.
Hvad betyder de vigtigste tekst-til-billede-termer?
Et par termer dukker konstant op. Når du kender dem, forsvinder det meste af mystikken, og du kan med selvtillid læse indstillingspanelet i enhver AI-billedgenerator.
| Begreb | Kort forklaring | Hvorfor det er vigtigt for dig |
|---|---|---|
| Prompt | Den tekstbeskrivelse, du skriver | Din eneste styringsmulighed; jo mere specifik du er, desto mere præcist bliver resultatet |
| Negativ prompt | En liste over ting, der skal udelukkes | Fjerner tilbagevendende fejl som ekstra fingre, tekst eller vandmærker |
| Diffusion | Generering ved gradvist at fjerne støj | Forklarer, hvorfor flere trin kan give mere detaljerede resultater, men tager længere tid |
| Latent rum | En komprimeret intern repræsentation af billedet | Hvorfor latente diffusionmodeller er hurtige nok til interaktiv brug |
| Tekstencoder | Omsætter dine ord til tal, som modellen kan læse | En større og bedre encoder giver som regel bedre forståelse af prompts |
| Seed | Den tilfældige startstøj | Genbrug den for at reproducere eller iterere et billede kontrolleret |
| Guidance / CFG-skala | Hvor strengt modellen følger prompten | For høj virker påtvunget; for lav ignorerer dine ord |
| Trin | Hvor mange støjfjernelsestrin modellen gennemløber | Flere trin kan give flere detaljer, men koster tid og giver aftagende gevinst |
| Sideforhold | Rammens form | Vælg det med omhu, så din komposition ikke bliver klippet akavet |
Du behøver ikke at justere alle disse hver gang. De fleste værktøjer viser som standard en prompt-boks, en negativ prompt og et sideforhold, mens resten er skjult under avancerede indstillinger. Men når du ved, hvad hver enkelt kontrol gør, ved du også, hvilken knap du skal dreje, hvis resultatet er forkert.
Hvordan adskiller tekst-til-billede sig fra billede-til-billede og redigering?
Tekst-til-billede er én af flere tilstande, og at forveksle dem er en almindelig kilde til frustration. Forskellen handler om, hvad du giver modellen som udgangspunkt.
- Tekst-til-billede: inputtet er kun ord. Modellen starter fra tilfældig støj og opbygger hele scenen ud fra din beskrivelse. Bedst til at skabe noget nyt fra bunden.
- Billede-til-billede: inputtet er ord plus et startbillede. Modellen bruger dit billede som base og omformer det i overensstemmelse med prompten, samtidig med at den bevarer den overordnede komposition. Bedst til at ændre stil eller omarbejde et eksisterende billede.
- Inpainting og redigering: inputtet er et billede plus et maskeret område. Modellen genskaber kun den del, du vælger. Bedst til at rette eller udskifte ét element uden at lave hele billedet om.
- Outpainting: modellen udvider et billede ud over dets oprindelige rammer og finder på sceneri, der fortsætter billedfeltet. Bedst til at ændre billedformat eller tilføje ekstra plads over motivet.
I en egentlig arbejdsgang blander du dem. Du kan for eksempel generere en base med tekst-til-billede, og derefter skifte til redigering for at rette en enkelt hånd eller udskifte en baggrund. At vide, hvilken tilstand du er i, fortæller dig, hvad modellen må ændre, og hvad den vil forsøge at bevare.
Hvorfor får to personer forskellige billeder af samme idé?
Skriv den samme idé ind i to værktøjer — eller i samme værktøj to gange — og du kan få meget forskellige billeder. Det er forventet, og tre faktorer forklarer næsten det hele.
Først: modellen. Forskellige AI-billedgeneratorer er trænet på forskelligt data med forskellige arkitekturer, så hver har et særligt standardudseende og forskellige styrker. Forskning som Googles Imagen viste, at det at skrue op for tekst-encoderens størrelse — ikke kun billedmodellen — markant forbedrede både fotorealisme og hvor trofast billedet matchede ordene, og derfor varierer promptforståelsen så meget mellem værktøjer.
Andet: tilfældigheden. Diffusion starter fra tilfældig støj, så et andet seed giver et andet billede selv med identisk prompt. Det er en funktion, ikke en fejl; det er det, der giver dig mulighed for at generere variationer og vælge den bedste.
Tredje: prompten og indstillingerne. Utydelige prompts lader modellen udfylde hullerne med sit gennemsnitlige gæt, så små ordvalg kan ændre resultatet meget. Vejledning, antal trin og sideforhold påvirker det yderligere. Den praktiske lære er, at den bedste AI-billedgenerator for dig dels handler om modelkvalitet og dels om, hvor godt dens promptforståelse matcher den måde, du beskriver tingene på.
Hvordan skriver du en prompt til tekst-til-billede, der virker?
Da prompten er din eneste instruktion, er det at skrive prompts den vigtigste færdighed i tekst-til-billede. Den pålidelige formel angiver tingene i rækkefølge efter vigtighed: motiv først, derefter miljø, lys og stil, med tekniske kvalifikationer til sidst og en separat negativ prompt for, hvad der skal udelukkes.
- Navngiv motivet og dets vigtigste kendetegn: «en kvinde i 30'erne, blidt selvsikkert smil, koksgrå blazer.»
- Placer det i en scene: «siddende foran en neutral grå baggrund.»
- Angiv belysningen: «blødt diffust vindueslys fra venstre» — ofte den enkelt største faktor for realisme.
- Tilføj kamera, objektiv og stil: «optaget med 85mm objektiv, lav dybdeskarphed, professionelt erhvervsportræt.»
- Sæt stemningen og tekniske kvalifikationer: «varm og imødekommende, skarp fokus, billedformat 4:5.»
- Tilføj en negativ prompt: «hårde skygger, urenheder, tekst, vandmærke.»
Præcision slår længde. Ti præcise ord overgår som regel halvtreds vage, fordi hver konkret detalje styrer modellen væk fra dens gennemsnitlige gæt. Når et resultat er tæt på, men ikke rigtigt, så ændr én variabel ad gangen, så du kan se, hvad hver ændring gjorde. For en mere detaljeret gennemgang med færdige eksempler, se vores guide om hvordan man skriver AI-fotoprompter, eller lad AI Prompt Generator udforme en fuld prompt ud fra en kort idé.
Hvad er begrænsningerne for tekst‑til‑billede i dag?
Tekst‑til‑billede er kraftfuldt, men ikke magi, og det sparer frustration at være realistisk omkring dets begrænsninger.
- Finesser fejler forudsigeligt. Hænder, tænder, tekst i billedet og indviklede refleksioner er de sædvanlige fejlområder; tjek dem hver gang.
- Den kan ikke læse dine tanker. Modellen ved kun, hvad du skrev, så alt, du undlader at skrive, bliver udfyldt ud fra dens standardantagelser.
- Præcis gengivelse er svær. At genskabe den samme specifikke person, et produkt eller et logo konsekvent på tværs af billeder er stadig svært uden specialiserede værktøjer.
- Output er plausibelt, ikke faktuelt. Modellen opdigter detaljer, så tekst‑til‑billede er uegnet til noget, der skal være nøjagtigt, som dokumentation eller beviser.
- Kvaliteten varierer fra model til model. En svagere AI-billedgenerator vil have svært ved komplekse scener, som en stærkere håndterer, så værktøjet betyder lige så meget som prompten.
Ingen af disse er afgørende hindringer for det meste kreative og marketingarbejde. De betyder blot, at tekst‑til‑billede er et udgangspunkt, du forfiner, ikke en ét‑klik‑orakel. Generér, gennemse og ret de få fejl med en målrettet redigering i stedet for at lave hele billedet om.
Sources
- 01Text-to-image model (overview) — Wikipedia (accessed 2026-06-01)
- 02Latent diffusion model — Wikipedia (accessed 2026-06-01)
- 03Diffusion model — Wikipedia (accessed 2026-06-01)
- 04Contrastive Language–Image Pre-training (CLIP) — Wikipedia (accessed 2026-06-01)
- 05Imagen: Text-to-Image Diffusion Models — Google Research (accessed 2026-06-01)
- 06Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding — Saharia et al., arXiv (accessed 2026-06-01)
- 07Prompt engineering — Wikipedia (accessed 2026-06-01)
Ofte stillede spørgsmål
- Hvad betyder tekst til billede?
- Tekst-til-billede betyder at generere et helt nyt billede ud fra en skrevet beskrivelse. Du skriver et prompt, og en AI-billedgenerator skaber et tilsvarende foto. Billedet genereres fra bunden, ikke hentet fra et bibliotek eller sammensat af eksisterende billeder.
- Hvordan omdanner en AI-billedgenerator ord til et foto?
- De fleste bruger diffusion. En tekst-encoder omdanner dit prompt til tal, modellen starter fra tilfældig støj og fjerner støjen trin for trin, mens dit prompt vejleder hvert trin. En decoder omdanner derefter resultatet til et billede i fuld opløsning.
- Er tekst til billede bare en søgning efter eksisterende billeder?
- Nej. Modellen søger ikke i kilder og kopierer ikke ét enkelt billede. Den har lært statistiske mønstre, der forbinder ord med visuelle scener under træningen, og genopbygger et nyt, originalt billede fra tilfældig støj hver gang du genererer.
- Hvad er en diffusionsmodel?
- En diffusionsmodel lærer at generere billeder ved at vende en støjproces om. Den øver sig i at gøre ægte billeder om til støj og lærer derefter at ophæve den proces, så den kan starte fra tilfældig støj og fjerne støjen til et sammenhængende billede, styret af dit prompt.
- Hvad er en seed i tekst-til-billede?
- Seed er den specifikke tilfældige startstøj. Hvis du genbruger samme seed og prompt, genskabes det samme billede, hvilket giver dig mulighed for at iterere på en kontrolleret måde. Ændring af seed giver en anden variation af samme idé.
- Hvad er CFG eller guidance scale?
- Guidance, ofte kaldet CFG-skalaen, styrer hvor stramt modellen følger dit prompt. Højere værdier følger dine ord tættere, men kan se unaturlige eller tvungne ud; lavere værdier giver modellen mere frihed og kan få resultatet til at afvige fra din beskrivelse.
- Hvorfor får jeg forskellige billeder fra samme prompt?
- Fordi diffusion starter fra tilfældig støj, vil en anden seed give et andet billede, selv med helt ens formulering. Forskellige modeller og indstillinger ændrer resultatet yderligere. Det er forventet adfærd og giver dig mulighed for at generere og vælge mellem variationer.
- Hvad er forskellen mellem tekst-til-billede og billede-til-billede?
- Tekst-til-billede starter kun fra ord og bygger hele scenen fra støj. Billede-til-billede starter ud fra ord plus et basisbillede og omformer det, mens den bevarer den grove komposition. Den ene skaber fra bunden; den anden bearbejder et eksisterende billede.
- Hvilken er den bedste AI-billedgenerator til tekst-til-billede?
- Det afhænger af dine behov og hvor godt et værktøjs evne til at forstå prompts matcher den måde, du beskriver ting på. Modeller adskiller sig i standardudseende, styrker og hvor præcist de følger prompts, så den bedste AI-billedgenerator er både et spørgsmål om modelkvalitet og om hvor godt den passer til dig.
- Hvordan får jeg bedre resultater med tekst-til-billede?
- Skriv specifikke prompts: nævn motivet, miljøet, belysningen og stilen i rækkefølge efter vigtighed, tilføj et negativt prompt, og fastsæt billedformatet. Ændr derefter én variabel ad gangen for at forfine i stedet for at omskrive alt på én gang.
Skrevet af
Redaktionsteamet bag LaFoto skriver guider og sammenligninger om AI-billedgenerering og arbejder efter en kildebaseret standard uden opdigtning.
Læs videre
Kom i gang i dag
Generér dit første billede med den bedste AI-billedgenerator.
Forvandl en sætning til et færdigt, fotorealistisk billede på få sekunder — og finjuster derefter alle detaljer. Ingen opsætning, ingen Discord, ingen GPU.
Slut dig til 4.200+ skabere, der bruger LaFoto