前言

新年快乐
2026-02-17
祝各位新春快乐,马年行大运,大吉大利,龙马精神,财源广进,身体健康,万事如意!

ComfyUI优势
ComfyUI是AIGC领域的集大成开源开发平台,最大的优势是灵活、前沿和开源。能熟练使用ComfyUI,则默认懂得WebUI和其他闭源模型平台。

工程化
AI模型的发展将长期处于“上下文空间有限”和“巧妇难为无米之炊”的情况。通过工程化的手段予AI以更好的生成环境,是挖掘AI潜力的关键。

自动化
2026-02-16
AI不是革技术的命,而是人类本身。人类的参与度决定了AI流程的效率下限,因此,减少人工的参与环节才是AI提效的关键。

需求拆解与定制化
AI可以极大的提升各个环节的效率,但是如何进行需求拆解,同时根据每个需求方的特殊习惯和解法习惯,进行定制化方案,是AI提效的关键。
图片生成

生图展示区说明
2026-02-07
由于强大的图片编辑模型的开源,许多以前需要借助复杂的生图技术才能实现的效果,被编辑模型大量替代,因此该区域只存放单纯生图相关的实现。
文生图
2026-01-16
图生图
2026-01-16
摄影人像
2026-01-16

商品详情图
大体量模型将LLM作为TextEncoder可以使得文字、图片排版通过混合注意力机制实现快速精准的匹配,结合Prompt设计可以实现快速海报设计。
风格迁移
2026-01-16
局部重绘
2026-01-16
姿势控制生图
2026-01-16
深度控制生图
2026-01-16
线稿控制生图
2026-01-16
边缘控制生图
2026-01-16
图像编辑

一致性与灵活性之争
在商用场景中,一致性是可用与不可用的关键分水岭。而灵活性与创造力是我们使用AI的关键,但是大范围的像素变动与一致性往往不可兼得。

像素偏移
像素偏移是局部重绘时的一个非常常见的问题。但是解法比较一致,因此并不会每一张展示的图片都进行如此处理。

编辑区展示说明
2026-02-07
因为编辑模型的特殊性,以下展示卡片中的效果不一定是最终结果,有一些展示是展示可实现的场景以及具体实现中的某个中间态,而非最终效果。

服装提取白底图
服装或物品提取白底图在电商领域存在较为广泛的应用,这也是在很多编辑场景中保持一致性的一种技巧性做法。

穿衣换衣
结合服装白底图进行服装替换,在模特固定的情况下,对已有图片或视频进行替换,可以实现低成本服装展示。

换头换脸
换头换脸是AI生图历程中的硬刚需,是真实人物辨识度和一致性最重要的实现追求。此处展示的并不是最终效果。

姿势参考(背景自适应)
姿势参考同样是AI控制里的硬刚需,此处展示的姿势参考是基于上述操作后利用“低歧义”实现姿势参考和一致性的关键步骤。

姿势参考(背景控制)
2026-02-09
此处展示的结果图为一次性生成,并非背景融合而成,而是通过输入图控制达到一次生成的效果,增大了可控性和一致性。

背景提取
此处展示的是简单的背景提取的实现。

背景融合
此处展示的是将一致性完好的的人物重新结合背景进行溶图的简单步骤。

超级替换
此处展示的超级替换工作流,其“超级”之处在于高度的一致性、灵活性、自动化,实现真正的定制化的商用级流式输出。

高清放大效果展示(非编辑模型)
此处展示的高清图尺寸为4096*4096,但是使用模型并非编辑模型,仅作为连续性创作优化流程展示。下图展示因页面尺寸限制,效果也许没有那么明显。

高清放大(编辑模型)
此处展示的高清放大流程并没有增大图片像素尺寸,高清放大前后都是1024*1024的图。该过程主要是通过采样降噪的方式,进行“去模糊”的处理。
摄影角度更改
2026-01-17
文字修改
2026-01-17
真实转动漫
2026-01-17
动漫转真实
2026-01-17
画风参考
2026-01-17
重打光
2026-01-17
光线参考
2026-01-17
连续场景镜头生成
2026-01-17
视频生成
SCAIL动作参考生成
2026-01-21

Animate迁移替换(对齐)
2026-01-16
数字人(对口型)
2026-01-21
Humo角色参考生成视频
2026-01-21
SteadyDancer自适应骨骼绑定
2026-01-21
OneToAll Animation
2026-01-21
SVI 长视频
2026-01-21
Ditto画风转换
2026-01-21
WanAlpha透明通道视频
2026-01-21
UniLumos光影参考
2026-01-21
WanMove 轨迹引导
2026-01-21
功能模型

功能模型是自动化的关键
比起各平台提供的闭源模型服务,开源生态的许多模型并不会被提供服务,但这是AI的关键优势。ComfyUI与本地部署模型的优势可以在此显现。

SeedVR2高清放大
利用专业放大模型将像素空间从25万像素放大64倍到一千六百万像素,约莫64倍后的效果。因页面限制效果展示也许不明显,放大查看效果更佳。

SDpose语义非人骨骼
SDpose姿势骨骼获取模型通过语义+目标检测模型+骨骼检测模型,实现效果超越Openpose、DWpose等常见pose模型。甚至可以兼容捕捉动物骨骼。

GroundingDINO+SAM2指示遮罩
小体量的遮罩获取模型只能根据指示进行遮罩获取。因此十分依赖于指示的输入,包括points、bbox、yolo等手段的辅助。但是小体量依然是个优势。

Sec-4B遮罩追踪

SAM3语义遮罩分割
Qwen3-VL视频理解
Florence2提示词反推
音频
GPT-SoVIS
2026-01-16
RVC
2026-01-16
Hunyuan-Foley
2026-01-16
FireRedTTS2
2026-01-16
VoxCPM
2026-01-16
IndexTTS2
2026-01-16
3D建模
Sam-3D
2026-01-16
body and object
Hunyuan-motion1.0
2026-01-16
Trellis2
2026-01-16
Hunyuan-3D
2026-01-16
加速/资源优化
GGUF
2026-01-16
Sage-Attention
2026-01-16
TeaCache
2026-01-16
Lighting/LightX2V
2026-01-16
Nunchaku
2026-01-16
Block-Swap
2026-01-16
数据处理
提示词生成清洗
2026-01-16
批量打标洗标
2026-01-16
循环模块
2026-01-16
Excel自动化
2026-01-16
LoRA训练
相似度
LoRA模型的训练效果往往与数据集高度相关。
插件节点
其他项目
心得与思考

闭源模型与开源模型
2026-02-13

模型理解和调参
2026-02-13
先验参数

“歧义”消除与收敛速度
2026-01-16

模型能力与发展方向
2026-02-13
无论是个人还是公司,保持15°夹角将是AI时代的生存之道。若站在AI能力的发展线上则会被吞噬,若远离AI则无法吃上AI红利,也会被淘汰。

开源社区的意义
2026-02-13
The Inverted Pyramid Philosophy
1. Visual Impact: First impressions matter. I prioritize high-fidelity visuals that demonstrate the raw capability of generative AI.
2. Commercial Value: Art must solve problems. My workflows are designed for consistency, scalability, and real-world application.
3. Technical Depth: Beneath the surface lies rigorous engineering. From custom nodes to hardware optimization, I document the science behind the art.