用 AI 建本地 AI 影片生成流程——幾個讓我多繞一圈的決策點

最近在建一條本地 AI 影片生成流水線，硬體是 RTX 3070 Laptop 8GB，完整的技術架構和參數設定記錄在技術文件。

這篇寫的是建構過程中幾個關鍵決策點——哪些地方 AI 幫了忙，哪些地方它的判斷是錯的，以及怎麼發現。

第一版：AI 憑空想像的流程

最初直接讓 AI 根據需求建 ComfyUI workflow。它建出來了，影片也能產，但有一個明顯的問題：風格帶著一種舊化感，像是幾年前的 AI 生成特徵。

原因事後回想很清楚——AI 沒有足夠的資訊。它沒有看過 Sulphur 2 的官方 workflow 定義，只憑訓練資料推斷出一個「合理的流程」。推斷不等於正確，結果就是一個能動、但不在最佳狀態的起點。

第一個決策：給 AI 官方參考，而不是讓它自己想。

重新提示 AI，要它去取得 Sulphur 2 官方 distilled T2V workflow 定義，按照那份結構重新拆成 pass1 + pass2 的兩段式設計。結構正確了，但發現生成效能直線下滑——同樣的段落，時間拉長了好幾倍。

這裡出現了第一個診斷題：效能問題出在哪？

排查過程中花了相當多時間在 ComfyUI 的 offload 策略上。AI 給的設定建議是舊版本的理解——當時的 ComfyUI 有多種 offload 模式可以細調。但實際操作下來發現，新版本的行為已經不同，選項基本收斂到「自動」或「關閉自動」兩種，中間的細調空間幾乎消失了。

A/B 測試了一輪後，最終穩定的方式是 --cache-none。

邏輯是：多 model 加上多 workflow 的情境下，讓 ComfyUI 做智能 cache 決策，反而容易造成記憶體用量難以預測——RAM 先爆，然後 pagefile 的問題就跟著浮現（這個問題在上一篇有說過）。放棄 cache 的好處，換來的是行為的可預測性。

這裡的決策不是「找到最優設定」，而是在不確定性高的情況下，選可控而非最優。

最後一個繞路的地方是 CFG。

AI 在整個過程中持續提示 CFG 應該設在 3 以上——這在一般的 diffusion model 使用情境下確實是常見範圍，不算錯的建議。但它忽略了一件事：distilled LoRA 的訓練工作點是 CFG=1.0，把 CFG 推高，等於把 guidance 推離訓練分佈。

結果是 inter-frame 不穩定，具體表現就是 flicker。用 PSNR-Y 量化之後，數字差距非常明顯。

最終解法是重新提示 AI，要它直接核對官方 workflow 的數值設定，而不是靠它的 convention 推斷。對照結果出來之後，所有設定才完整對齊。

這裡的教訓是：AI 的 convention 是統計上的常見值，不是針對特定訓練工作點的正確值。 當模型有特殊的訓練前提時，社群的實測數字比 AI 的通則建議更可信。

回頭看這整條建構過程，幾個決策點有類似的形狀：

AI 沒有足夠資訊時，它會推斷而不是停下來問。 提供官方參考比依賴它推斷更快。
AI 的知識有時間差，新版軟體的行為它不一定知道。 涉及版本敏感的設定，驗證比信任更省時。
AI 的 convention 是從大量案例歸納的。 當你的使用場景有非典型前提（distilled model、特定 LoRA 訓練設定），去核對上游的數值，不要讓 AI 用通則覆蓋。

完整的 pipeline 架構、參數設定、PSNR 量化數字，在技術文件有詳細記錄。