DiffSynth-Studio这是一款真正让人眼前一亮的开源Diffusion模型引擎。它专注于扩散模型的技术探索,目标是降低研究门槛、推动社区创新,目前已成为ModelScope AIGC区的核心驱动引擎之一。
什么是DiffSynth-Studio?
DiffSynth-Studio是由ModelScope社区开发维护的开源Diffusion模型框架。它不仅仅是一个简单的推理工具,更是一个全栈式的Diffusion引擎,涵盖了从文本到图像(T2I)、图像编辑、视频生成(T2V/I2V),再到模型微调和训练的完整链路。
与商业闭源工具不同,DiffSynth-Studio强调学术探索与前沿实验,同时保持了良好的易用性和性能优化。它与另一个姐妹项目DiffSynth-Engine(侧重工业级稳定部署)共同支撑ModelScope平台的AIGC能力。

DiffSynth-Studio 网站截图
核心特色:高效、灵活、前沿
- 强大的模型支持生态 项目支持大量主流和前沿Diffusion模型,包括:
- 图像生成:FLUX.1系列(dev、schnell、klein-4B/9B)、Qwen-Image系列、Kolors、HiDream-O1-Image、JoyAI-Image、Anima等。
- 视频生成:LTX-2.3、Wan-Video系列、CogVideoX、HunyuanVideo、StepVideo等,支持文本转视频、图像转视频、视频续写等多种模式。
- 编辑与控制:内置大量ControlNet、LoRA、IP-Adapter、T2I-Adapter支持,还推出了Diffusion Templates插件框架,大幅降低可控生成模型的训练门槛。
- 极致VRAM优化与低资源适配 这是DiffSynth-Studio最亮眼的地方之一。它重构了Text Encoder、UNet、VAE等核心架构,引入先进的VRAM管理机制(层级CPU Offload、Disk Offload、FP8训练等),让消费级显卡也能高效跑大模型。例如:
- 单GPU低显存LoRA训练
- Split Training(数据预处理与训练分离)
- Differential LoRA等创新训练技巧 这对个人开发者、研究者和显卡不充裕的用户非常友好。
- 丰富的训练与微调能力 支持Full fine-tuning、LoRA、DoRA、LyCORIS等多种方式,还能训练ControlNet、Image Quality Metrics评估等。近期更开放了从零训练小型0.1B模型的教程,真正做到“手把手”教学。
- 创新技术与社区贡献 项目产出了不少有趣成果,如Qwen-Image-Layered-Control(文本引导图像分层控制)、Image-to-LoRA(图像生成LoRA)、In-Context Editing等。这些模型和方法已在ModelScope和Hugging Face上开源,极大丰富了社区生态。
为什么推荐给大家?
- 上手简单:pip安装即可,文档详尽(中英文双语),提供大量Example代码。
- 性能与效果兼顾:在保持生成质量的前提下,显著降低计算成本。
- 开放性高:完全开源,欢迎社区贡献,适合科研、创作和产品化探索。
- 持续更新:2026年仍在快速迭代,最近新增了CPU Offload、图像质量评估模型等特性。
无论你是想快速生成高质量图像/视频、进行AI艺术创作,还是开展Diffusion模型学术研究,DiffSynth-Studio 都是值得入手的强大工具。它真正实现了“Enjoy the magic of Diffusion models”的口号。