如何在Stable Diffusion中使用文本转图像(txt2img)?

文本到图像(txt2img)是指使用人工智能模型从文本输入生成图像的过程。目前市面上有许多txt2img AI可供使用。通过调整txt2img设置,可以控制图像生成的过程。

如何工作的文本到图像模型?

txt2img模型是一种神经网络,它输入自然语言文本并产生与文本匹配的图像。在Stable Diffusion和其他AI图像模型中,文本输入被称为提示(prompt)和负提示(negative prompt)。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_1

txt2img生成流程:

  • txt2img AI模型接受提示和负提示作为输入,并输出图像。
  • 由于概率输出,同一提示和负提示可以产生多张图像,因为许多图像都可以匹配提示。

如何使用文本到图像?

文本到图像是AI图像生成器(包括Stable Diffusion)的最基本功能。你可以在线使用免费的生成器。

在AUTOMATIC1111Stable DiffusionWebUI中,你可以在txt2img页面使用文本到图像。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_2

Stable Diffusion文本到图像设置解释

对于Stable Diffusion,以下设置会影响txt2img的结果:

  1. 检查点模型:Stable Diffusion模型显著影响风格。例如,使用像Realistic Vision这样的写实模型来生成写实人物。

  2. 提示:描述你希望在图像中看到什么的文本输入。

  3. 负提示:描述你不希望看到什么的文本输入。

  4. 图像大小:图像大小应与检查点模型匹配。v1模型的VAE大小是512×512,SDXL模型是1024×1024。

    • 图像大小与宽高比例。

    ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_3

  5. 采样方法:在扩散过程中去噪图像的方法。如果你刚开始,不需要更改它。

  6. 采样步骤:离散化去噪处理的步骤数量。更高的值使去噪过程更准确,因此质量更高。至少设置为20。

  7. CFG比例:分类器自由引导比例控制应多紧密地遵循提示。

    • 1 - 大部分忽略你的提示。
    • 3 - 更具创造性。
    • 7 - 在遵循提示和自由之间取得良好平衡。
    • 15 - 更多地遵循提示。
    • 30 - 严格遵循提示。

如果设置得太高,可能会看到颜色问题。

txt2img模型是如何训练的?

训练数据和方法与AI模型架构同等重要。现代的txt2img模型都是用大量的图像和标题对数据集训练的。通过学习图像和标题之间的相关性,AI模型学会了生成与提示匹配的图像。

文本到图像AI模型

虽然Stable Diffusion是众所周知的txt2img模型之一,但它当然不是唯一的。你将在这一节中学习一些重要的txt2img模型。

  • DALL·E:OpenAI的DALL·E是首批获得广泛公众关注的txt2img模型之一。尽管与今天的标准相比,其图像生成可能看起来原始,但在2021年发布时,它是一个巨大的突破。我们第一次能够用自然语言描述生成图像。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_4

  • Imagen:Google开发的Imagen文本到图像模型是一个生成写实图像的中性网络扩散模型。模型架构和基准在《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》一文中发布。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_5

  • Stable Diffusion:Stable Diffusiontxt2img模型是最受欢迎的开源文本到图像模型。虽然Imagen提供了更优越的性能,但它需要高性能的计算机来运行,因为扩散过程是在像素空间中进行的。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_6

  • Midjourney:Midjourney是其母公司提供的图像生成服务的专有txt2img模型。关于模型架构没有披露太多信息。

ai_tutorial_stable_diffusion_advanced_What_is_text-to-image_7

以上是关于文本到图像(txt2img)的基本介绍和使用说明。

阅读全文
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料