Auto Universe 測試自動化 AI Agent 協作生態系
· · 作者 Luke Hou
把 AI 從「會生成程式」的模型,變成「受治理、可維護、可交接」的工程系統。
這篇不是展示 8+1 個工具,而是拆解一套治理方法:用 Zero-Trust、按需載入、Human in the Loop 與知識閉環,把 AI 接進團隊工程流程。
30 秒看懂這 8+1 個 Skills 怎麼一起工作
這不是 9 個平行工具,而是一條從需求輸入、生成、守門、診斷、知識回寫到擴充的工程流程。先看青色主線,再看紅色關卡,最後看紫色側邊支援層。
讀法: 如果你是第一次看這頁,只要先記住一件事:8+1 的價值不在於工具數量,而在於它們被排進同一條可治理、可審核、可迭代的工程流程。
先看系統分工,再看細節
生成層:把 AI 變成可維護的產線
S1 與 S6 負責把需求、錄製腳本與既有資產轉成標準化輸出。重點不是「快寫完」,而是確保生成結果能被後續審查、維護與追蹤。
守門層:把風險攔在合併之前
S2 與 S7 是兩道前置治理關卡。它們分別審查程式碼與 Skill 結構,避免 AI 把錯誤、偷懶或規格漂移一路帶進主幹。
知識層:讓經驗累積,不讓錯誤重演
S3、S4、S5、S8 與 +1 負責除錯、文件同步、協作摘要與生態擴充。它們讓系統不只會產出,還會記住、修正並逐步長出團隊資產。
Evolution_
從 Prompt 工程到 Agent Skill,耗費大量 Token 額度與時間驗證出的最佳實踐路徑。
Rules: 1. ... 2. ...
Context Limit Reached!
傳統 Prompt 工程
依賴開發者在聊天框手動貼上程式碼與規範。
- Issue: Context Missing。AI 無法感知專案全貌,產生大量能動但不符標準的 Spaghetti Code。
System Prompt 規範化
將龐大規則寫入 .cursorrules,依賴 AI CLI 讀取。
- Issue: Context 爆炸。規則衝突、耗費暴增,模型啟動自我壓縮導致遺忘關鍵規範。
Agent Skill 生態系
將 AI 轉為懂人話、按 SOP 工作的代理工程師。
- Solution: 捨棄單一巨大 Prompt,建立「結構化、模組化、按需載入」的 Skill 星系。
Design_Philosophy_
這套系統不是靠模型天份硬撐,而是靠 Zero-Trust、知識結構與工程治理把 AI 限制在可控範圍內。
Quality Engineering for AI
零信任 (Zero-Trust) 的防禦性架構
一般人相信 AI 的結果;專業 SQA 則把 QA 的精神用來「測試與限制 AI 本身」。這就是為什麼我們需要 Code Reviewer (13項檢查) 與 Skill Reviewer (提示詞 Linter)。防堵 AI 的幻覺與偷懶,是系統的第一要務。
Refusing Spaghetti Code
堅守架構潔癖
新手用 AI 往往產出高度耦合、硬編碼 (Hardcode) 的程式碼,幾個月後根本無法維護。「一千隻難以維護的腳本,比沒有腳本更可怕」。因此,在 Script Generator 階段,我們就用 Flat Pattern 與 Config 注入鎖死了 AI 的亂寫空間。
Domain Know-how > Compute
領域知識的不可取代性
AI 懂語法,但不懂「為什麼這個企業系統以前會在這裡 Crash」。在 Log Analyst 中,AI 的深度推論只是備案;資深 QA 累積的致命錯誤模式庫 (Pattern DB) 才是實現秒級排錯的靈魂。
Shift-Left & Culture
改變整個團隊的 CI/CD 流程
格局不在於「我自己寫 Code 變快了」,而在於「如何把 AI 做成研發團隊的基礎設施」。透過 PR Report 與 Doc Updater,我們確保了團隊知識不腐化,並強制提升了整體的開發紀律與審查品質。
Architecture_
在進入 8+1 Skills 前,先看兩個核心機制:為什麼它不會變成另一個超大 Prompt,以及為什麼它會越用越強。
按需載入與 Token 控制
每個 Skill 的知識庫分為「常駐核心」與「按需引用」兩層。呼叫時透過標記動態拉取特定模塊,避免一次性載入全部上下文造成 Token 浪費與失憶。
let cost = Base_Tokens * (Steps * (Steps + 1) / 2);
這解釋了為什麼「減少不必要的迭代步驟」是最值得最佳化的槓桿點,而非過度壓縮單次 Prompt 的字數。
被動進化 (Passive Evolution)
整個生態系不需要人工頻繁重寫 Skill——它會隨著底層模型升級而自動提升產出品質。
Quality = Knowledge_Base(DB) × LLM_Reasoning_Power
兩個因子皆單調遞增:Skill 透過自回饋迴路精化;LLM 能力隨模型迭代提升。系統上限會自動成長。
Endpoints_
8+1 個模組各自負責不同責任邊界,串起生成、審查、診斷、知識同步與生態擴充。
把需求與錄製資產轉成標準化腳本與高階 testcase。
在合併前攔下規格漂移、結構缺陷與模型偷懶。
把資深 QA 經驗編碼成快速排錯與修復建議。
同步文件、摘要變更,讓經驗真的沉澱成團隊資產。
快速孵化新 Skill,並把外圍工具安全地隔離在邊界之外。
負責把原始需求、錄製腳本與既有資產轉成可維護、可追蹤、可交付的輸出格式。
基於 DSL 的程式碼合成與動態依賴解析,確保產出符合 Flat Pattern 與 Explicit Config 規範。
- 5-Phase 模板引擎 (Setup → Validation) 確保結構一致
- 動態解析
actions_index.json處理 650+ 項依賴 - 雙真理來源:僅採信錄製 JSON 或現有標準腳本庫,杜絕幻覺
- 跨模組呼叫防護,強制透過 Config 注入防堵隱式耦合
從底層錄製指令逆向拉升至高階業務邏輯的轉譯器。
- 層次化抽象提取:將 JSON 低階動作與註解扁平化為操作步驟
- AI 智慧分層:自動將步驟重新抽象為「前置條件、步驟、驗證點」三層架構
- API 映射引擎:產出格式無縫對齊票務系統,實現自動建檔歸戶
在代碼與 Skill 進入主流程前做兩次審核,把錯誤、幻覺與規格漂移攔在前面。
基於上下文與目錄權限邊界的靜態分析引擎,在 PR 前自動執行防呆檢核。
- 自動化 13-Grep 檢查,精確捕捉硬編碼 Selector 或越權呼叫
- 目錄權限映射 (Access Control) 實施嚴格的 Allow/Deny List
- 技術債隔離:智慧區分 PR 新增違規與歷史共業
- 確保 Config 變數與外部檔案相依的完整性與雙向同步
防堵模型智商漂移的元審核機制 (Linter for AI Prompt)。
- Token 預算推算引擎:計算互動雪球效應 (Snowball Effect),標定耗費風險
- 5 維 34 項評分算法確保 Prompt 的 Self-Consistency 與結構標準化
- 強制長步驟加入理解檢查點 (Checkpoint) 防止 AI 幻覺與遺忘
把除錯從「通靈」變成有知識庫、有快路徑、有因果推理的穩定流程。
結合啟發式搜索與 LLM 深度因果推理的雙軌除錯核心。
- Fast Path: 基於 14 種已知錯誤模式 (Pattern DB) 的秒級啟發式匹配
- Deep Path: 4 階段推理 (Traceback定錨 → 提取上下文 → 分層排除法 → 修正建議)
- Auto-Discovery 主動掃描測試日誌並排序優先級
- 知識庫自回饋迴路 (Self-Feedback) 持續進化 Pattern DB
確保變更能被記錄、被摘要、被同步,不讓系統知識在高速迭代中腐化。
Git 語義分析與自動化摘要生產線,實現立體化感知解析。
- 深度掃描 Branch History 與 Diff,按 Domain (Spec/Core等) 自動分類
- 四重輸出:Branch Name、Conventional Commits、英文 PR 描述、中文變更表
- 動態文檔同步建議:偵測核心介面異動時自動埋入警語
活體文件同步防護網,專為解決文件腐化問題而生。
- 領域限定維護:限縮於主專案的手冊,保障上下文純淨
- 經驗閉環機制:將「現象→原因→解法」結構化固化於 Handbook 中
- 主動識別並清理過時內容,確保文件永遠對齊當前 Codebase
讓生態系可以安全擴張,新能力長得快,但不直接污染主專案邊界。
創造 Agent 的 Agent,負責快速且標準化地擴充生態系。
- 自動生成符合官方標準的
SKILL.md結構鷹架 - 協助定義明確的 Action 與 I/O 規範,確保介接標準統一
- 內建最佳實踐,確保新建立的技能自帶錯誤處理與日誌機制
獨立的外圍輔助開發生態系,提供 Native 與 UI 層面的戰術支援。
- 領域隔離原則 (Zero-Intrusion):對主專案僅具備唯讀權限
- 若需介入底層,強制使用 Monkey Patch 進行運行期動態替換
- 提供 Native Instrumentation 與 Serverless Hybrid 的安全撰寫護欄
Debug_Logs_
這些不是事後補充,而是逼著架構演化的真實故障案例。每一條教訓都對應一個治理決策。
過度自動化翻車
曾嘗試授權 Agent 擁有 git commit 及 push 權限,結果因大模型幻覺 (Hallucination) 產生的問題代碼混入了主分支,且 AI 會「自信地掩飾錯誤」。
嚴格切斷 Agent 提交權限。AI 負責生成,最終確認與 Commit 必須由人類工程師執行。
模型智商漂移
在頂級商業模型 (Opus) 上完美執行的複合指令,切換到遵循度較低的模型 (Sonnet/Gemini) 執行時,出現指代不明、遺忘前半段步驟的失憶現象。
將長步驟解耦,由 Skill Reviewer 強制加入確認節點,要求 AI 輸出當前理解狀態後才繼續。
上下文崩塌與成本失控
最初將所有規範塞進單一 Prompt,導致 Token 消耗呈指數飆升。當 Context 超過有效注意力窗口時,AI 開始「失憶」並忽略關鍵指令。
實作按需載入機制。將龐大知識庫拆分為獨立模組,透過路由僅提取當前任務所需的上下文,降低雜訊與 API 成本。
知識腐化死循環
系統快速迭代,但開發文件未同步。AI 讀取了過期 (Outdated) 的 Handbook 開發新模組,反覆觸發編譯錯誤並卡在不斷嘗試的死循環中。
設立 Doc Updater 將「文件同步」納入工作流閉環。程式碼變更時強制更新文件,確保真理來源 (Single Source of Truth) 永遠是最新的。
Metrics_
這些數字是內部 PoC 與專案實作的觀測值。重點不是保證值,而是這套治理架構是否真的回收了工程時間。
* 以上為 Auto Universe 內部 PoC 與專案實作觀測值(2026-03-14)。以既有人工流程為對照;結果會隨任務複雜度、測試資產、模型版本與團隊成熟度變動,不應視為保證值。數據來源以 autoUniverse 技術文件為準。
Reflection_
看完設計、模組與成果之後,最後要回到一個更難的問題:哪些場景值得導入,哪些場景反而應該克制。
Auto Universe 證明 Agent Skill 能在高複雜度場景落地,但也揭露一個現實: 「Everything Skill 並非預設答案」。穩定性提升的同時, R&D 投入、模型成本、治理設計與決策責任也會同步上升。
當 AI 把產出速度推向毫秒級,工程師與架構師的價值就不再是「寫得更快」, 而是更慢地定義邊界、更精準地設定責任、更嚴格地驗證風險。
先問場景,再問自動化程度
並非每個流程都值得被 Skill 化。越高耦合、越低容錯、越高合規要求的業務, 才值得投資完整 Skill SOP;其他場景維持人機協作,反而更符合成本效益。
把沉沒成本寫進技術決策
技術展示常聚焦「產出效率」,但真實成本包含知識結構設計、模型切換驗證、 Token 消耗與治理維護。只有把前期沉沒成本算清楚,ROI 才有決策意義。
Human in the Loop 是責任機制,不是妥協
在 PROD 或高風險領域,最終提交權與放行權必須由人類承擔。AI 可以生成、 比對、建議,但不能取代責任主體。這是工程治理,也是倫理底線。
把經驗轉成邊界,才是 AI 時代核心能力
真正稀缺的不是寫程式速度,而是把資深工程判斷轉譯為可執行規範: 何時必須中止、何時需要升級審核、何時允許自動修復。邊界設計,就是智慧本體。
- 這個業務場景的長期價值,是否足以覆蓋前期治理與知識工程投入?
- 若模型行為漂移,是否已有可執行的檢核節點與人工接管機制?
- 團隊是否能持續維護知識庫,避免文件腐化導致 AI 重複製造舊錯?
- 當錯誤進入正式環境時,責任鏈是否明確到人,而非模糊歸咎給模型?