Image-Generation

最近在建一條本地 AI 影片生成流水線，需要挑一個 T2I 模型做 keyframe 的上游。硬體限制是 RTX 3070 Laptop，8GB VRAM，不能加卡。挑模型的過程裡，順帶整理了一些平時容易混淆的概念，以及讓系統跑穩的幾個關鍵設定。 Fine-tune、LoRA、Distill 是三件不同的事這三個詞在中文圈常常被混在一起講，但它們根本不是同一個維度： Fine-tune LoRA Distill 改什麼畫風 / 內容畫風 / 內容（同上）推論速度訓練範圍整個模型只訓練插件權重訓練速度更快的學生模型檔案大小跟 base 一樣大 50–300 MB 跟 base 一樣大可以疊？ ✗ 一次一個 ✓ 可以同時掛多個 ✗ 換 checkpoint 這三件事可以疊在同一個工作流裡。juggernautXL_v9-lightning.safetensors 這個常見的模型，本質就是寫實 fine-tune + Lightning distill 的組合；用它的時候還可以再加角色 LoRA + 風格 LoRA。弄清楚這個，選模型的時候就不會被名字搞混。 8GB VRAM 的候選名單把常見的選項排一遍：模型 VRAM 1024² 出圖時間品質 8GB 可行？ SDXL Lightning（4–8 步） ~7 GB 4–6 s ★★★★☆ ✓ SDXL base + fine-tune（30 步） ~7 GB 15–22 s ★★★★☆ ✓ Flux Schnell GGUF Q4_K_M ~7 GB + offload 15–20 s ★★★★★ ✓ Flux Dev GGUF Q4_K_M ~7 GB + offload 60–90 s ★★★★★ ✓ 但慢 Flux fp16 12 GB+ — ★★★★★ ✗ 12B 的 Flux 為什麼能塞進 8GB？靠 GGUF Q4_K_M 量化——精度損失大約 5–10%，但 Flux 的 prompt 理解能力幾乎全保留。Q4_K_M 是 4-bit 量化裡品質與速度的甜蜜點， Q4 還是 Flux 級的，不是閹割版。 ...