登录注册
又来狠活了先上致富代码!深夜大洋彼岸又出爆款新品SD3刚刚发布碾压Midjourney !
紫禁之巅
2024-04-19 06:51:50

A股又来狠活了先上致富代码!深夜大洋彼岸又出炸裂级爆款新品!SD3 刚刚发布性能碾压Midjourney !

A股又来狠活了先上致富代码!深夜大洋彼岸又出炸裂级爆款新品!Stable Diffusion 3 API发布号称性能碾压碾压Midjourney !

概念股一栏:

工具语料库:福昕软件(688095)、汉仪股份(301270)、当虹科技(688095)、开普云(688228)、华扬联众(603825)、虹软科技(688088)、凡拓数创(301313)、因赛集团(300781)、万兴科技(300624)

AI算力:星宸科技、中际旭创、新易盛、天孚通信、浪潮信息、寒武纪、云天励飞、龙芯中科、优刻得、数据港、青云科技

————————

Stable Diffusion 3 API发布,号称性能碾压碾压Midjourney DALL·E,普通用户免费用!

昨天夜里,Stability AI正式发布了Stable Diffusion 3 API,在SD3的技术报告公布几个月之后,用户终于可以上手试用了。但可惜的是,完全开源的SD3模型依然还在路上,不过他们承诺,对于普通用户,SD3模型不会收费。现在,用户可以通过Fireworks AI访问SD3的API。根据SD3技术报告,SD3相比DALL·E 3和Midjourney,能够更好地遵循用户提示。SD 3新的多模态扩散变压器 (MMDiT) 架构对图像和语言表示使用单独的权重集,与之前版本的稳定扩散相比,它提高了文本理解和拼写能力。可以看到,用户可以非常精准地控制需要出现在图片中地文字内容。新模型生成的逼真图片,足以以假乱真。

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 对于完全虚构的图片也能做到美学和细节真实度的统一。

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 图调用API,网友用SD和ChatGPT做了一个小游戏。在他看来,SD3能比DALL·E有更好的风格一致性,对于生成一个系统工程中的美术素材表现得更好。网友也分享更多用SD3生成的作品。可以看到,如果对于图片内容中的文字有明确要求,SD3是为数不多能满足要求的模型。机器人的手似乎也没有瑕疵了。人物面部的细节非常真实。机械风的中国龙造型也是细节满满,惟妙惟肖。很多调用SD3 API的APP也在Stability AI官推下面,用SD3生成的图片给自己的API打起了广告。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。模型使用三种不同的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像token。而这个构架的核心,采用的是和Sora一样的DiT技术。由于文本和图像嵌入在概念上完全不同,因此他们对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的转换器,但是将两种模态的序列连接起来进行注意力操作,这样两种表征都可以在自己的空间中工作,同时考虑另一种表征。在这样的特殊安排之下,MMDiT的性能超越了传统的UViT或者DiT本身。通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的整体理解和排版。这种架构还可以轻松扩展到视频等多种模式。得益于SD3改进的提示跟随功能,模型能够创建专注于各种不同主题和质量的图像,同时对图像本身的风格保持高度灵活性。

 $福昕软件(SH688095)$ $星宸科技(SZ301536)$ 

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
福昕软件
S
星宸科技
S
云天励飞
工分
3.86
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据