最近在建一條本地 AI 影片生成流水線,硬體是 RTX 3070 Laptop 8GB,完整的技術架構和參數設定記錄在技術文件。
這篇寫的是建構過程中幾個關鍵決策點——哪些地方 AI 幫了忙,哪些地方它的判斷是錯的,以及怎麼發現。
第一版:AI 憑空想像的流程
最初直接讓 AI 根據需求建 ComfyUI workflow。它建出來了,影片也能產,但有一個明顯的問題:風格帶著一種舊化感,像是幾年前的 AI 生成特徵。
原因事後回想很清楚——AI 沒有足夠的資訊。它沒有看過 Sulphur 2 的官方 workflow 定義,只憑訓練資料推斷出一個「合理的流程」。推斷不等於正確,結果就是一個能動、但不在最佳狀態的起點。
第一個決策:給 AI 官方參考,而不是讓它自己想。
第二版:引入官方 Workflow,效能卻掉了
重新提示 AI,要它去取得 Sulphur 2 官方 distilled T2V workflow 定義,按照那份結構重新拆成 pass1 + pass2 的兩段式設計。結構正確了,但發現生成效能直線下滑——同樣的段落,時間拉長了好幾倍。
這裡出現了第一個診斷題:效能問題出在哪?
效能調整:AI 知道的設定,跟現在的軟體不一樣
排查過程中花了相當多時間在 ComfyUI 的 offload 策略上。AI 給的設定建議是舊版本的理解——當時的 ComfyUI 有多種 offload 模式可以細調。但實際操作下來發現,新版本的行為已經不同,選項基本收斂到「自動」或「關閉自動」兩種,中間的細調空間幾乎消失了。
A/B 測試了一輪後,最終穩定的方式是 --cache-none。
邏輯是:多 model 加上多 workflow 的情境下,讓 ComfyUI 做智能 cache 決策,反而容易造成記憶體用量難以預測——RAM 先爆,然後 pagefile 的問題就跟著浮現(這個問題在上一篇有說過)。放棄 cache 的好處,換來的是行為的可預測性。
這裡的決策不是「找到最優設定」,而是在不確定性高的情況下,選可控而非最優。
CFG 值:AI 的 Convention 和社群實測的落差
最後一個繞路的地方是 CFG。
AI 在整個過程中持續提示 CFG 應該設在 3 以上——這在一般的 diffusion model 使用情境下確實是常見範圍,不算錯的建議。但它忽略了一件事:distilled LoRA 的訓練工作點是 CFG=1.0,把 CFG 推高,等於把 guidance 推離訓練分佈。
結果是 inter-frame 不穩定,具體表現就是 flicker。用 PSNR-Y 量化之後,數字差距非常明顯。
最終解法是重新提示 AI,要它直接核對官方 workflow 的數值設定,而不是靠它的 convention 推斷。對照結果出來之後,所有設定才完整對齊。
這裡的教訓是:AI 的 convention 是統計上的常見值,不是針對特定訓練工作點的正確值。 當模型有特殊的訓練前提時,社群的實測數字比 AI 的通則建議更可信。
幾個可以帶走的判斷點
回頭看這整條建構過程,幾個決策點有類似的形狀:
- AI 沒有足夠資訊時,它會推斷而不是停下來問。 提供官方參考比依賴它推斷更快。
- AI 的知識有時間差,新版軟體的行為它不一定知道。 涉及版本敏感的設定,驗證比信任更省時。
- AI 的 convention 是從大量案例歸納的。 當你的使用場景有非典型前提(distilled model、特定 LoRA 訓練設定),去核對上游的數值,不要讓 AI 用通則覆蓋。
完整的 pipeline 架構、參數設定、PSNR 量化數字,在技術文件有詳細記錄。