大厂们在图像生成领域开始了一场引人注目的竞赛。ByteDance旗下的字节阿里工具火了一把,而腾讯的新照片生成应用PhotoMaker更是直接刷新了屏幕,成为新的热门话题。
这款应用的独特之处在于,用户只需上传一张或以上的照片,无需额外的LoRA训练,即可快速定制多种风格的个人照片,实现任何人、任何风格的高保真效果。这一创新让人们对照片生成的期望有了新的高度。

PhotoMaker的创新功能
应用推出后,社交媒体上迅速传播着各种有趣的生成照片。从LeCun化身成钢铁侠,到杨幂以各种风格的写真爆红,PhotoMaker的功能多样而有趣。
主要功能包括:
- 多风格照片生成: 用户可以根据描述生成多种风格的个人照片,甚至包括二次元风格。
- 混合人物特征生成新形态: 应用能够混合不同人物特征,创造全新的虚构人物形态,如奥特曼和乔布斯“生”的孩子。
- 年龄、性别、年代修改: 用户可以调整照片中人物的年龄、性别以及照片的年代,展现了更多有趣的可能性。
如何使用PhotoMaker?
PhotoMaker采用了一种简单而有效的表示方法——堆叠ID嵌入。以下是使用该应用的主要步骤:
- 上传照片: 用户可以上传一张或多张想要定制的照片。应用强调不进行人脸检测,但要求上传的照片中人脸占据大部分。
- 输入文字提示: 在描述中加上触发词“img”并加上要定制的类别词,如“男人 img”、“女人 img”、“女孩 img”。
- 选择样式和风格: 用户可以选择喜欢的样式和风格模板。
- 生成照片: 点击生成按钮,应用会根据上传的照片和用户的描述生成定制化的照片。
实际测试中发现,由于用户量较大,生成效果可能会稍慢。
技术背后的奥秘
PhotoMaker的实现采用了堆叠ID嵌入的方法,通过合并多个身份证明(ID)图像的信息,形成统一的数据结构。具体步骤包括:
- 从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
- 通过合并相应的类别嵌入,如性别,和每个图像嵌入,提取融合嵌入。
- 沿长度维度串联所有融合嵌入,形成堆叠ID嵌入。
- 输入Diffusion Model生成最终图像。
由于训练需要按ID分类的数据集,研究团队专门构建了以ID为导向的文本图像数据集构建管线,确保数据集包含丰富的场景和特征。
PhotoMaker的推出为图像生成领域注入了新的活力,使用户能够更轻松地实现个性化的照片创作。无疑,这标志着大厂们在图像技术上的又一次创新尝试,也让人期待未来图像生成领域的更多发展。
暂无评论...