用 AI 建本地 AI 影片生成流程——幾個讓我多繞一圈的決策點

最近在建一條本地 AI 影片生成流水線,硬體是 RTX 3070 Laptop 8GB,完整的技術架構和參數設定記錄在技術文件。 這篇寫的是建構過程中幾個關鍵決策點——哪些地方 AI 幫了忙,哪些地方它的判斷是錯的,以及怎麼發現。 第一版:AI 憑空想像的流程 最初直接讓 AI 根據需求建 ComfyUI workflow。它建出來了,影片也能產,但有一個明顯的問題:風格帶著一種舊化感,像是幾年前的 AI 生成特徵。 原因事後回想很清楚——AI 沒有足夠的資訊。它沒有看過 Sulphur 2 的官方 workflow 定義,只憑訓練資料推斷出一個「合理的流程」。推斷不等於正確,結果就是一個能動、但不在最佳狀態的起點。 第一個決策:給 AI 官方參考,而不是讓它自己想。 第二版:引入官方 Workflow,效能卻掉了 重新提示 AI,要它去取得 Sulphur 2 官方 distilled T2V workflow 定義,按照那份結構重新拆成 pass1 + pass2 的兩段式設計。結構正確了,但發現生成效能直線下滑——同樣的段落,時間拉長了好幾倍。 這裡出現了第一個診斷題:效能問題出在哪? 效能調整:AI 知道的設定,跟現在的軟體不一樣 排查過程中花了相當多時間在 ComfyUI 的 offload 策略上。AI 給的設定建議是舊版本的理解——當時的 ComfyUI 有多種 offload 模式可以細調。但實際操作下來發現,新版本的行為已經不同,選項基本收斂到「自動」或「關閉自動」兩種,中間的細調空間幾乎消失了。 A/B 測試了一輪後,最終穩定的方式是 --cache-none。 邏輯是:多 model 加上多 workflow 的情境下,讓 ComfyUI 做智能 cache 決策,反而容易造成記憶體用量難以預測——RAM 先爆,然後 pagefile 的問題就跟著浮現(這個問題在上一篇有說過)。放棄 cache 的好處,換來的是行為的可預測性。 ...

May 22, 2026 · 1 min · David Hsaiou