跳至内容
LaFoto

指南

文本到图像:AI如何将文字变成照片

文本到图像是一个过程,AI 图像生成器读取书面描述并生成相应的照片。你输入提示,例如「暮色中雨水打湿的城市街道上的一只金毛寻回犬幼犬」,几秒钟内模型就会返回一张完全符合该描述的图像。在底层,大多数现代工具是扩散模型:文本编码器把你的文字转换为模型能理解的数字,然后模型从纯随机噪声开始,逐步去除噪声,在每一步都向与你的描述相匹配的方向推进。结果是一张全新的图像,而不是搜索结果或拼接而成的拼贴。没有任何内容从单一来源被复制;模型学习了文字与视觉场景之间的统计规律,并从零开始重建出一张看起来合理的照片。你最终得到的质量主要由两个由你控制的因素决定:你的提示在多大程度上清晰地描述了主体、场景、光线和风格,以及底层模型的优劣。本指南的其余部分将用通俗的语言解释该流程如何工作、关键术语的含义,以及如何用文字将它引导到你脑海中的那张照片。
作者 LaFoto 编辑团队

11 分钟阅读
表示文本被转化为图像的示意性构图

什么是文本到图像?

文本到图像是一类 AI 技术,能根据书面提示生成图片。你用通俗语言描述想要的内容,AI 图像生成器就会生成一张新的图片来匹配。其技术名称是文本到图像模型。据维基百科,这些系统在 2022 年以后开始兴起,当时像 DALL-E 2、Imagen、Stable Diffusion 和 Midjourney 这样的工具开始生成接近真实照片质量的输出。

对新手来说最关键的一点是输出是生成的,而不是检索得来的。模型不会在图库中搜索已经存在的照片,也不会把剪贴画拼凑起来。它是基于训练期间学到的模式逐像素构建全新的图像。这就是为什么你可以要求生成从未被拍摄过的事物,例如“一个由彩色玻璃制成的茶杯放在长满苔藓的钢琴上”,仍然能得到连贯的结果。

大多数人接触文本到图像的方式是通过一个简单的输入框:输入一句话、点击生成、得到一张图片。文本转照片就是这样运作的。所有复杂的工作都发生在输入框背后,了解其大致原理会大幅提升你获得理想结果的能力。

文本生成图像到底是如何工作的?

到2026年,占主导地位的方法是扩散模型,通常是潜在扩散模型。其直觉有些反常但非常值得理解:模型通过先学习如何破坏图像来学会创造图像。在训练过程中,模型拿真实图像,逐步加入噪声直到变成静态噪点,然后学习如何逆向还原这个过程。生成新图像时,模型从纯随机噪声开始,在你的提示引导下运行逆过程,直到出现一幅清晰的图像。

下面是这个流程的简要步骤——每次你点击生成时,你的文字都会走过这条路径。

  1. 你写提示语。这是模型收到的唯一指令,这就是为什么具体性如此重要。
  2. 文本编码器读取提示。语言模型或视觉-语言模型(例如 CLIP 文本编码器,或像 Google 的 Imagen 中的 T5 这样的大的语言模型)会把你的文字转换成数值嵌入,用以捕捉其含义。
  3. 模型从随机噪声开始。画布一开始是无意义的静态噪点,也就是一个随机种子。
  4. 模型逐步去噪。在一系列步骤中,模型一点点去除噪声,每一步文本嵌入都会将结果引向与你描述相符的方向。
  5. 图像被解码。在潜在扩散模型中,主要计算在压缩的潜在空间中进行以提高速度,然后由一个解码器(例如 VAE)将结果扩展为全分辨率图像。
  6. 你得到一张最终照片。输出是一张基于你的文字、随机种子和模型设置生成的新图像。

有两个技术概念能解释你会注意到的许多行为。种子就是特定的随机起始噪声;重复使用相同的种子和提示会得到相同的图像,这就是你可以以可控方式迭代的原因。引导(通常称为 CFG scale)控制模型在遵循你的提示与自由创作之间的程度;把它调高,图像会更贴合你的文字,但可能显得做作;把它调低,图像则更富有创意地漂移。

关键的文本到图像术语是什么意思?

有少数术语经常出现。了解它们能消除大部分神秘感,让你自信地阅读任何 AI 图像生成器的设置面板。

术语通俗含义为什么这对你重要
提示你所撰写的文本描述你唯一的方向盘;越具体结果越接近预期
反向提示要排除项的列表可去除诸如多余手指、图像中的文字或水印等常见问题
扩散通过逐步去噪来生成图像解释了为什么更多步骤可能带来更多细节但也更耗时
潜在空间图像的压缩内部表示说明了潜在扩散模型为何足够快,可以用于交互式运行
文本编码器把你的文字转换成模型能读取的数字表示更大更好的编码器通常意味着对提示词的理解更好
随机种子随机的起始噪声重复使用它可以可控地重现或迭代图像
引导 / CFG 强度模型遵循提示词的严格程度数值太高会显得生硬;太低则会忽视你的提示
步骤数模型执行多少次去噪迭代更多步骤可以增加细节但会消耗时间,而且收益递减
长宽比画幅的形状有意设置长宽比,以免构图被尴尬裁剪

你不需要每次都调整所有这些参数。大多数工具默认会显示提示框、反向提示和长宽比,并将其余选项隐藏在高级设置中。但了解每个控制项的作用意味着当结果不对时,你知道该调整哪个旋钮。

文本到图像与图像到图像和编辑有什么不同?

文本到图像只是多种模式之一,把它们混淆是常见的困扰来源。不同之处在于你用什么作为模型的起点。

  • 文本到图像:输入仅为文字。模型从随机噪点开始,根据你的描述构建整个场景。最适合从零创建全新内容。
  • 图像到图像:输入为文字加起始图片。模型以你的图片为基础,按提示进行变换,保留大致构图。最适合重塑风格或重做已有图片。
  • 修补与编辑:输入为图片加上一个遮罩区域。模型只重新生成你选择的部分。最适合修复或替换单一元素,而无需重生成整张图。
  • 扩展画面:模型将图像向原有边界之外延展,创造延续画面的场景。最适合改变长宽比或增加上方空间。

在实际工作流程中,你会混合使用这些模式。你可能先用文本到图像生成一个基础图,再切换到编辑模式来修复一只手或更换背景。明确自己使用的模式能告诉你模型可以修改什么,以及它会尽力保留什么。

为什么两个人用相同的想法会得到不同的照片?

在两个不同的工具中输入相同的想法,或者在同一工具中输入两次,你可能会得到截然不同的图片。这是正常的,几乎所有差异都可由三个因素解释。

首先,是模型。不同的 AI 图像生成器在不同的数据和不同的架构上训练,因此每个模型都有其独特的默认风格和不同的优势。像 Google 的 Imagen 这样的研究表明,扩大文本编码器的规模(不仅仅是图像模型)会显著提升照片真实感和图像对文字的忠实度,这就是为什么各工具对提示的理解差异很大的原因。

其次,是随机性。扩散过程从随机噪声开始,因此即便提示完全相同,不同的随机种子也会产生不同的图像。这是一个特性,而不是缺陷;正是它让你能够生成多种变体并挑选最好的。

第三,是提示和设置。含糊的提示会让模型用其平均猜测来填补空白,因此措辞上的细微变化就会改变结果。引导强度、步数和纵横比会进一步影响输出。实际的教训是:对你来说,最好的 AI 图像生成器既取决于模型质量,也取决于它对你表达方式的提示理解程度。

如何撰写有效的文本到图像提示?

因为提示是你唯一的指令,撰写提示是文本到图像中最重要的技能。一个可靠的公式会按重要性依次列出要素:先写主体,其次是场景、光线和风格,最后加上技术限定词,并用单独的负面提示来排除不想要的内容。

  1. 指出主体及其关键属性: “一位30多岁的女性,柔和自信的微笑,深灰色西装外套。”
  2. 将其置于场景中: “坐在中性灰背景前。”
  3. 指定光线: “来自左侧的柔和漫射窗光” — 往往是影响真实感的最大因素。
  4. 添加相机、镜头与风格: “85mm 镜头拍摄,浅景深,专业企业肖像。”
  5. 设定氛围和技术限定词: “温暖亲切,清晰对焦,宽高比 4:5。”
  6. 添加负面提示: “强烈阴影、瑕疵、文字、水印。”

具体胜于冗长。十个精确的词通常比五十个模糊的词更有效,因为每一个具体细节都会把模型从其平均猜测中引导开。当结果接近但不完全正确时,每次只更改一个变量,这样你才能看清每次修改的效果。想要更深入的逐步指导与可直接复制使用的示例,请参阅我们关于如何编写 AI 照片提示的指南,或让 AI 提示生成器根据简短想法搭建完整的提示。

当今文本到图像技术有哪些限制?

文本生成图像功能强大,但不是魔法,清醒地认识其局限可以避免挫败感。

  • 细节常会出错且可预见。手部、牙齿、图像中的文字和复杂反射是常见的伪影区域;每次都要检查它们。
  • 它不能读心。模型只知道你写的内容,任何没说清的部分都会被它的默认假设填补。
  • 精确复现很难。在没有专用工具的情况下,要在不同图像中始终生成同一个特定人物、产品或标志仍然很困难。
  • 生成结果看起来合理,但不一定真实。模型会虚构细节,因此文本生成图像不适合需要精确可靠的内容,例如文档或证据。
  • 质量因模型而异。较弱的图像生成模型在复杂场景上会比强模型更吃力,因此所用工具与提示词同样重要。

对于大多数创意和市场工作,这些都不是致命问题。它们只是意味着文本生成图像是一个需要后续打磨的起点,而不是一键就能解决的万能工具。先生成、再检查,然后用有针对性的编辑修正那几处错误,而不是重做整张图。

Sources

  1. 01Text-to-image model (overview)Wikipedia (accessed 2026-06-01)
  2. 02Latent diffusion modelWikipedia (accessed 2026-06-01)
  3. 03Diffusion modelWikipedia (accessed 2026-06-01)
  4. 04Contrastive Language–Image Pre-training (CLIP)Wikipedia (accessed 2026-06-01)
  5. 05Imagen: Text-to-Image Diffusion ModelsGoogle Research (accessed 2026-06-01)
  6. 06Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingSaharia et al., arXiv (accessed 2026-06-01)
  7. 07Prompt engineeringWikipedia (accessed 2026-06-01)

常见问题

什么是文本生成图像?
文本生成图像是指根据书面描述生成全新图片。你输入一个提示词,AI 图像生成器会渲染出与之匹配的照片。该图像是从零开始生成的,而不是从素材库检索或拼接已有图片。
AI 图像生成器如何把文字变成照片?
大多数使用扩散模型。文本编码器把你的提示词转换成数值,模型从随机噪声开始,并在每一步逐渐去噪,而你的提示词在每一步都起到引导作用。随后解码器将结果变为最终分辨率的图像。
文本生成图像只是搜索现有图片吗?
不是。模型不会搜索或复制单一来源。它在训练过程中学会了将文字与视觉场景联系起来的统计模式,并每次从随机噪声重构出全新的原创图像。
什么是扩散模型?
扩散模型通过逆转加噪过程来学习生成图像。模型练习将真实图像逐渐变为噪声,然后学习如何反向还原,因此它可以从随机噪声开始,在提示词的引导下去噪成连贯的图像。
在文本生成图像中,什么是种子(seed)?
种子是特定的随机起始噪声。重复使用相同的种子和提示词会生成相同的图像,这就是你以受控方式进行迭代的方法。改变种子会得到同一想法的不同变体。
什么是 CFG 或 guidance scale?
引导强度,通常称为 CFG scale,控制模型遵循提示词的严格程度。数值越高越严格地对应你的文字,但可能显得生硬;数值越低模型生成得越自由,可能偏离你的描述。
为什么我用相同的提示词会得到不同的图像?
因为扩散过程从随机噪声开始,即使文字完全相同,不同的种子也会产生不同的图像。不同的模型和设置会进一步改变结果。这是预期行为,可以让你生成并从多个变体中挑选。
文本生成图像和图像到图像有什么区别?
文本生成图像仅从文字开始,从噪声构建整个场景。图像到图像则以文字加一张基础图片为起点,在保持大致构图的同时对其进行变换。一个是从零创建,另一个是改写现有图片。
哪款 AI 图像生成器最适合用于文本生成图像?
这取决于你的需求以及工具对你描述方式的提示词理解程度。模型在默认风格、擅长领域和对提示词的忠实度上各不相同,因此最好的 AI 图像生成器既取决于模型质量,也取决于是否契合你的使用方式。
我怎样才能从文本生成图像获得更好的结果?
写具体的提示词:按重要性列出主体、场景、光线和风格,添加反向提示(negative prompt),并设置长宽比。然后每次只改变一个变量来微调,而不是一次性全部重写。

撰稿

LaFoto 编辑团队

LaFoto 背后的编辑团队撰写关于 AI 照片生成的指南与对比评测,遵循有明确来源且禁止捏造的标准。

继续阅读

今天就开始创作

用最出色的 AI 图像生成器生成你的第一张图像。

将一句话在数秒内变成完成的、逼真的照片级图像——然后细化每一个细节。无需设置、无需 Discord、无需 GPU。

加入 4,200+ 位使用 LaFoto 的创作者