文生图与本地LLM工具体验

Mochi Diffusion、Draw Things、ComfyUI、Ollama、VLLM和SGLang等工具的使用体验。

最近文生图和本地大语言模型工具的快速发展,为创作者和开发者提供了更多可能性。作为一名技术爱好者,我最近尝试了几款相关工具,包括文生图工具和本地LLM工具,以下是我的一些使用体验。


文生图工具体验

Mochi Diffusion

MochiDiffusion

这是我第一次接触文生图工具,选择Mochi Diffusion的原因是它上手难度较低,适合新手。在Hugging Face上下载了两个模型后,生成的效果让我感稍稍有些抽象。整个生成过程没有使用GPU,完全依赖于CPU和NPU,这意味着即使没有高性能显卡,也能轻松运行。不过,生成速度相对较慢,也许是打开方式不对,主观不太推荐。

Draw Things

DrawThings

Draw Things是一个折中的解决方案,它提供了丰富的模型选择,并且支持用户自定义调整参数。此外,它还集成许多作者自己调整的模型,允许用户设置LoRA和ControlNet,功能非常完整。我个人认为,Draw Things是Mac用户的首选文生图工具,因为它在Mac系统上的表现非常稳定,且界面友好。

ComfyUI

comfyui

ComfyUI不能算是一个传统的文生图工具,而是一个高度可定制的工作流平台。它支持加载多种模型,我主要尝试了Flux模型。不过,在使用过程中遇到了一个“坑”:在Mac的Apple Silicon芯片上运行Flux模型时,FP8量化会出现报错,提示不支持apple silicon的芯片。尽管如此,通过使用GGUF量化模型以及TeaCache、WaveSpeed等加速技术,冷启动生成一张图的时间从240秒缩短到了180秒左右。ComfyUI的自定义能力非常强大,但对硬件性能要求较高,不适合在性能较低的终端上运行。


本地LLM工具体验

Ollama

Ollama肯定是每个接触本地LLM工具时绕不开的选择。它的最大优势在于方便,尤其是社区提供的各种模型可以直接通过pull命令下载,速度也很快。我尝试过最大671B的4bit量化DeepSeek-R1模型,运行效果令人满意。对于新手来说,Ollama确实是一个非常友好的选择。

vLLM

我希望通过vLLM尝试本地模型模拟OpenAI API类服务的工具,在多卡张量并行时,我遇到了一个比较棘手的问题:nccl报错

1
 vllm serve modelpath --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

能力有限,经过多次尝试和排查,暂时无法找到有效的解决方案。

SGLang

相比之下,SGLang在多卡调用表现得非常稳定,完全没有遇到类似的问题。

1
python -m sglang.launch_server --model-path modelpath --port 30000 --tp-size 8 --dp-size 1 --mem-fraction-static 0.7  

sglang

当我使用8张H800运行本地模型时,SGLang的多卡支持非常流畅,模型运行速度和稳定性都非常出色。通过使用SGLang,我还学习到了一些关于多卡张量并行、数据并行的知识,以及模型精度和上下文长度对KV缓存的影响。