文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道,已经成了AI创业公司掘第一桶金的最佳起点。
但是在谷歌,微软等大厂都已经花了大量资源去布局的领域,留给初创公司的机会到底在哪里?
最近一家名为Ideogram的文生图工具,凭借优秀的文字渲染能力,成功融资8000万美元!
包括Jeff Dean和Andrej Karpathy在内的一众硅谷大佬和知名机构都是它的投资人。
只要在prompt里将文字打上去,就能非常自然可控地出现在生成的图片中。
而且生成的图片不仅能简单的以平面文字的形式出现在图片之中,还能根据用户的要求,生成自然的悬浮文字,或者是立体的文字。
甚至用一句提示词,它能直接给你画出图文高度配合的梗图!
文生图也能做出「多模态」
而图片中的文字生成,一直以来是各大生图AI做不好的痛点。
如果要求图片中有某些确定的文字,需要在生成图片之后还要花费很多后期的加工。
而Ideogram对于生图文字的控制能力,不仅在对比数据上比DALL·E 3要好出不少。
实际生成的带有文字图片也是非常自然。
文字可以像很多商业广告一样自然的悬浮在图片上,也可以和图片中的物体自然地融为一体。
像这种配文字的电影海报级的图片都可以直接一步生成。
而漫画形式的配图文字也同样不在话下。
用户可以非常精准地将自己想要表达的文字内容和各种风格的图片组合在一起。
除了能严格按照作者的要求生成精准的文字,甚至像开头的梗图一样,它能按照图片的设定无中生有的配上契合图片的文字。
简直成了另一种形式的多模态模型。
普通的生图能力也是行业顶尖
而除了最优秀的文字渲染能力之外,作为生图工具,它在其他方面的表现也毫不逊色于行业顶尖水准。
Ideogram 1.0 可在理解冗长、复杂提示词的同时生成清晰、细致的图像。
宛如相片一样的海报
对于各种动物以及奇怪组合的完美呈现能力。
逼真的照片级图片生成能力,足以以假乱真。
也能准确地生成复杂的手部动作。
人物表情,光影都非常和谐。
而且它还能通过工具,配合提示词,控制主要内容在图片中生成的形状和范围。
Ideogram 1.0 除了能够生成照片级逼真的图像,对于超自然的风格的图片也有很强的表现能力。
Ideogram 1.0还提供了一个名为「Magic Prompt」的功能,可以自动增强、扩展和翻译用户的提示,大大降低用户生成精美的创意图片的门槛。
原提示:创建一个关于猫的有趣的表情包
增强提示: 以一只表情惊讶的波斯猫为主题的备忘录。猫的眼睛睁得大大的,让人觉得它很震惊或很有趣。背景是其他猫咪摆出的各种姿势的彩色拼贴画,主题为 「当你意识到猫咪已经占领互联网时」。整个画面轻松幽默,展现了网上对猫的持久热爱。
有了这个功能,表情包可以直接出图片了:
提示: