AI绘画设计创作字体设计

DeepFloyd Lab

一种新颖、先进的开源文本到图像模型

标签：字体设计DeepFloyd Lab

链接直达手机查看

我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型，具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块，由一个冻结文本编码器和三个级联像素扩散模块组成：一个基本模型，根据文本提示生成 64×64 px 的图像；两个超分辨率模型，分别用于生成分辨率不断提高的图像：256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入，然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型，其性能超过了目前最先进的模型，在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力，并描绘了文本到图像合成的美好前景。

数据统计

暂无评论

暂无评论...

会AI导航，带你提高百倍生产力

友链申请免责声明广告合作关于我们

DeepFloyd Lab

数据统计

相关导航

暂无评论