Agent Skill Governance

Auto Universe 測試自動化 AI Agent 協作生態系

· · 作者 Luke Hou

把 AI 從「會生成程式」的模型,變成「受治理、可維護、可交接」的工程系統。

這篇不是展示 8+1 個工具,而是拆解一套治理方法:用 Zero-Trust、按需載入、Human in the Loop 與知識閉環,把 AI 接進團隊工程流程。

Zero-Trust QA On-Demand Loading Human in the Loop Knowledge Ops Automation QA AI Governance
00 // System_Mental_Model

30 秒看懂這 8+1 個 Skills 怎麼一起工作

這不是 9 個平行工具,而是一條從需求輸入、生成、守門、診斷、知識回寫到擴充的工程流程。先看青色主線,再看紅色關卡,最後看紫色側邊支援層。

Main Flow 主流程負責把任務往前推進

S1/S6 生成產物,S3 診斷問題,S4/S5 把結果轉成協作輸出與知識更新。

Guard Rails 守門層在主流程前段攔風險

S2/S7 不是附屬工具,而是兩道質量關卡,用來擋掉錯誤、幻覺與規格漂移。

Support Layer S8+1 xTools 負責擴充能力

S8 幫你長出新 Skill,xTools 則是接外部能力的側邊支援,不直接取代主流程判斷。

Auto Universe 8+1 Skills workflow overview 主流程從需求輸入開始,依序經過生成、守門、診斷、協作與知識回寫,再到擴充。xTools 以側邊支援形式連到多個節點,人工決策在生成後與知識更新前設有兩個關卡。 PRIMARY WORKFLOW SUPPORT LAYER INPUT 需求 / 規格 task, bug, spec, side effect FLOW_01 生成 S1 Script Generator S6 Side-to-Testcase HUMAN CHECKPOINT 需求是否被正確翻譯? FLOW_02 守門 S2 Code Reviewer S7 Skill Reviewer FLOW_03 診斷 S3 Log Analyst Pattern DB + causal reasoning FLOW_04 協作 / 知識 S4 PR Report S5 Doc Updater HUMAN CHECKPOINT 是否要回寫成團隊知識? FLOW_05 擴充 S8 Skill Developer THE +1 xTools 側邊支援層 外部 UI、Native、Instrumentation、Hybrid Tooling HOW TO READ 1. 先沿著主線看任務怎麼往右推進 2. 紅色 checkpoint 是人類必須介入的質量決策點 3. 紫色 xTools 只提供外部能力,不直接代替工程判斷

讀法: 如果你是第一次看這頁,只要先記住一件事:8+1 的價值不在於工具數量,而在於它們被排進同一條可治理、可審核、可迭代的工程流程。

先抓住這篇要回答的四件事

  • 為什麼傳統 Prompt 會失效: 當規則、案例與專案上下文一起膨脹,模型很快就會失憶、偷懶,最後產出一堆能跑但不可維護的程式。
  • 怎麼把 AI 變成工程系統: 關鍵不是再塞更多提示詞,而是把知識、審查、除錯、文件同步拆成可治理的 Skill 模組。
  • 8+1 Skills 各自負責什麼: 這不是工具清單,而是一條從生成、守門、診斷到擴充的完整工作流。
  • 最後該不該導入: 看完架構、踩坑與數據之後,還要回到 ROI、責任鏈與導入邊界做判斷。

先看系統分工,再看細節

生成層:把 AI 變成可維護的產線

S1 與 S6 負責把需求、錄製腳本與既有資產轉成標準化輸出。重點不是「快寫完」,而是確保生成結果能被後續審查、維護與追蹤。

守門層:把風險攔在合併之前

S2 與 S7 是兩道前置治理關卡。它們分別審查程式碼與 Skill 結構,避免 AI 把錯誤、偷懶或規格漂移一路帶進主幹。

知識層:讓經驗累積,不讓錯誤重演

S3、S4、S5、S8 與 +1 負責除錯、文件同步、協作摘要與生態擴充。它們讓系統不只會產出,還會記住、修正並逐步長出團隊資產。

01 //

Evolution_

從 Prompt 工程到 Agent Skill,耗費大量 Token 額度與時間驗證出的最佳實踐路徑。

Phase 1
You are an expert...
Rules: 1. ... 2. ...
Context Limit Reached!

傳統 Prompt 工程

依賴開發者在聊天框手動貼上程式碼與規範。

  • Issue: Context Missing。AI 無法感知專案全貌,產生大量能動但不符標準的 Spaghetti Code。
Phase 2
Token Explosion

System Prompt 規範化

將龐大規則寫入 .cursorrules,依賴 AI CLI 讀取。

  • Issue: Context 爆炸。規則衝突、耗費暴增,模型啟動自我壓縮導致遺忘關鍵規範。
Phase 3 (Current)

Agent Skill 生態系

將 AI 轉為懂人話、按 SOP 工作的代理工程師。

  • Solution: 捨棄單一巨大 Prompt,建立「結構化、模組化、按需載入」的 Skill 星系。
02 //

Design_Philosophy_

這套系統不是靠模型天份硬撐,而是靠 Zero-Trust、知識結構與工程治理把 AI 限制在可控範圍內。

Quality Engineering for AI

零信任 (Zero-Trust) 的防禦性架構
Zero Trust 掃描防線 掃描區塊持續移動,透過防護盾與封鎖符號代表高風險輸出會被攔截。

一般人相信 AI 的結果;專業 SQA 則把 QA 的精神用來「測試與限制 AI 本身」。這就是為什麼我們需要 Code Reviewer (13項檢查) 與 Skill Reviewer (提示詞 Linter)。防堵 AI 的幻覺與偷懶,是系統的第一要務。

Amateur: "Wow, AI generated a script in 10s!" Pro SQA: "Is the AI output secure, linted, and self-consistent?"

Refusing Spaghetti Code

堅守架構潔癖
Spaghetti 到 Flat 結構轉換 左側耦合曲線代表雜亂邏輯,右側節點轉為扁平且一致的可維護結構。 Flat

新手用 AI 往往產出高度耦合、硬編碼 (Hardcode) 的程式碼,幾個月後根本無法維護。「一千隻難以維護的腳本,比沒有腳本更可怕」。因此,在 Script Generator 階段,我們就用 Flat Pattern 與 Config 注入鎖死了 AI 的亂寫空間。

Amateur: Let AI write complex nested logic. Pro SQA: Force AI to output flat, decoupled steps only.

Domain Know-how > Compute

領域知識的不可取代性
Domain Know-how 快速診斷路徑 Pattern DB 與經驗法則透過 Fast Path 直接進入推理核心,加速問題定位。 Pattern DB Crash Cases Heuristic Fast Path

AI 懂語法,但不懂「為什麼這個企業系統以前會在這裡 Crash」。在 Log Analyst 中,AI 的深度推論只是備案;資深 QA 累積的致命錯誤模式庫 (Pattern DB) 才是實現秒級排錯的靈魂。

Amateur: Rely purely on LLM's raw reasoning. Pro SQA: Hardcode human experience as heuristic Fast-Paths.

Shift-Left & Culture

改變整個團隊的 CI/CD 流程
Shift-Left 早期攔截 缺陷從右向左移動,於流程前段關卡優先攔截,降低後續部署風險。 Plan Build Test Deploy

格局不在於「我自己寫 Code 變快了」,而在於「如何把 AI 做成研發團隊的基礎設施」。透過 PR ReportDoc Updater,我們確保了團隊知識不腐化,並強制提升了整體的開發紀律與審查品質。

Amateur: AI is my personal typing assistant. Pro SQA: AI is a system enforcing team-wide engineering standards.
03 //

Architecture_

在進入 8+1 Skills 前,先看兩個核心機制:為什麼它不會變成另一個超大 Prompt,以及為什麼它會越用越強。

按需載入與 Token 控制

每個 Skill 的知識庫分為「常駐核心」與「按需引用」兩層。呼叫時透過標記動態拉取特定模塊,避免一次性載入全部上下文造成 Token 浪費與失憶。

// 多步驟任務 Token 累積公式 (Snowball Model)
let cost = Base_Tokens * (Steps * (Steps + 1) / 2);

這解釋了為什麼「減少不必要的迭代步驟」是最值得最佳化的槓桿點,而非過度壓縮單次 Prompt 的字數。

Why not RAG? 知識庫是高度結構化的 Markdown + JSON 索引。RAG 的 Embedding 搜尋會引入延遲與不確定性,在明確路徑的按需載入場景中沒有優勢。
Core_Knowledge
<Load_Spec/>
<Load_Widget/>
Idle_Module

被動進化 (Passive Evolution)

整個生態系不需要人工頻繁重寫 Skill——它會隨著底層模型升級而自動提升產出品質。

# System Output Quality
Quality = Knowledge_Base(DB) × LLM_Reasoning_Power

兩個因子皆單調遞增:Skill 透過自回饋迴路精化;LLM 能力隨模型迭代提升。系統上限會自動成長。

Vs. 傳統規則引擎 傳統引擎需人工維護每一條規則代碼。被動進化架構的維護成本僅集中在「知識結構設計」,而非「規則內容更新」。
Time →
Knowledge DB Trend +
LLM Power (Claude 系列) Trend +
04 //

Endpoints_

8+1 個模組各自負責不同責任邊界,串起生成、審查、診斷、知識同步與生態擴充。

Flow_01
生成

把需求與錄製資產轉成標準化腳本與高階 testcase。

Flow_02
守門

在合併前攔下規格漂移、結構缺陷與模型偷懶。

Flow_03
診斷

把資深 QA 經驗編碼成快速排錯與修復建議。

Flow_04
協作與知識

同步文件、摘要變更,讓經驗真的沉澱成團隊資產。

Flow_05
擴充

快速孵化新 Skill,並把外圍工具安全地隔離在邊界之外。

Cluster_01

生成層

負責把原始需求、錄製腳本與既有資產轉成可維護、可追蹤、可交付的輸出格式。

SKILL_01
Script Generator
# Code_Synthesizer

基於 DSL 的程式碼合成與動態依賴解析,確保產出符合 Flat Pattern 與 Explicit Config 規範。

  • 5-Phase 模板引擎 (Setup → Validation) 確保結構一致
  • 動態解析 actions_index.json 處理 650+ 項依賴
  • 雙真理來源:僅採信錄製 JSON 或現有標準腳本庫,杜絕幻覺
  • 跨模組呼叫防護,強制透過 Config 注入防堵隱式耦合
SKILL_06
Side-to-Testcase
# Semantic_Lifting

從底層錄製指令逆向拉升至高階業務邏輯的轉譯器。

  • 層次化抽象提取:將 JSON 低階動作與註解扁平化為操作步驟
  • AI 智慧分層:自動將步驟重新抽象為「前置條件、步驟、驗證點」三層架構
  • API 映射引擎:產出格式無縫對齊票務系統,實現自動建檔歸戶
Cluster_02

守門層

在代碼與 Skill 進入主流程前做兩次審核,把錯誤、幻覺與規格漂移攔在前面。

SKILL_02
Code Reviewer
# Context_Aware_Linter+

基於上下文與目錄權限邊界的靜態分析引擎,在 PR 前自動執行防呆檢核。

  • 自動化 13-Grep 檢查,精確捕捉硬編碼 Selector 或越權呼叫
  • 目錄權限映射 (Access Control) 實施嚴格的 Allow/Deny List
  • 技術債隔離:智慧區分 PR 新增違規與歷史共業
  • 確保 Config 變數與外部檔案相依的完整性與雙向同步
SKILL_07
Skill Reviewer
# Meta_Management_Linter

防堵模型智商漂移的元審核機制 (Linter for AI Prompt)。

  • Token 預算推算引擎:計算互動雪球效應 (Snowball Effect),標定耗費風險
  • 5 維 34 項評分算法確保 Prompt 的 Self-Consistency 與結構標準化
  • 強制長步驟加入理解檢查點 (Checkpoint) 防止 AI 幻覺與遺忘
Cluster_03

診斷層

把除錯從「通靈」變成有知識庫、有快路徑、有因果推理的穩定流程。

SKILL_03
Log Analyst
# Diagnostic_Engine

結合啟發式搜索與 LLM 深度因果推理的雙軌除錯核心。

  • Fast Path: 基於 14 種已知錯誤模式 (Pattern DB) 的秒級啟發式匹配
  • Deep Path: 4 階段推理 (Traceback定錨 → 提取上下文 → 分層排除法 → 修正建議)
  • Auto-Discovery 主動掃描測試日誌並排序優先級
  • 知識庫自回饋迴路 (Self-Feedback) 持續進化 Pattern DB
Cluster_04

協作與知識層

確保變更能被記錄、被摘要、被同步,不讓系統知識在高速迭代中腐化。

SKILL_04
PR Report
# Semantic_Git_Analyzer

Git 語義分析與自動化摘要生產線,實現立體化感知解析。

  • 深度掃描 Branch History 與 Diff,按 Domain (Spec/Core等) 自動分類
  • 四重輸出:Branch Name、Conventional Commits、英文 PR 描述、中文變更表
  • 動態文檔同步建議:偵測核心介面異動時自動埋入警語
SKILL_05
Doc Updater
# Anti_Knowledge_Rot

活體文件同步防護網,專為解決文件腐化問題而生。

  • 領域限定維護:限縮於主專案的手冊,保障上下文純淨
  • 經驗閉環機制:將「現象→原因→解法」結構化固化於 Handbook 中
  • 主動識別並清理過時內容,確保文件永遠對齊當前 Codebase
Cluster_05

擴充層

讓生態系可以安全擴張,新能力長得快,但不直接污染主專案邊界。

SKILL_08
Skill Developer
# Scaffold_Generator

創造 Agent 的 Agent,負責快速且標準化地擴充生態系。

  • 自動生成符合官方標準的 SKILL.md 結構鷹架
  • 協助定義明確的 Action 與 I/O 規範,確保介接標準統一
  • 內建最佳實踐,確保新建立的技能自帶錯誤處理與日誌機制
THE_+1
xTools
# Peripheral_Sandbox

獨立的外圍輔助開發生態系,提供 Native 與 UI 層面的戰術支援。

  • 領域隔離原則 (Zero-Intrusion):對主專案僅具備唯讀權限
  • 若需介入底層,強制使用 Monkey Patch 進行運行期動態替換
  • 提供 Native Instrumentation 與 Serverless Hybrid 的安全撰寫護欄
05 //

Debug_Logs_

這些不是事後補充,而是逼著架構演化的真實故障案例。每一條教訓都對應一個治理決策。

ERR_01

過度自動化翻車

曾嘗試授權 Agent 擁有 git commitpush 權限,結果因大模型幻覺 (Hallucination) 產生的問題代碼混入了主分支,且 AI 會「自信地掩飾錯誤」。

> Solution: Human in the Loop
嚴格切斷 Agent 提交權限。AI 負責生成,最終確認與 Commit 必須由人類工程師執行。
WARN_02

模型智商漂移

在頂級商業模型 (Opus) 上完美執行的複合指令,切換到遵循度較低的模型 (Sonnet/Gemini) 執行時,出現指代不明、遺忘前半段步驟的失憶現象。

> Solution: State Checkpoints
將長步驟解耦,由 Skill Reviewer 強制加入確認節點,要求 AI 輸出當前理解狀態後才繼續。
ERR_03

上下文崩塌與成本失控

最初將所有規範塞進單一 Prompt,導致 Token 消耗呈指數飆升。當 Context 超過有效注意力窗口時,AI 開始「失憶」並忽略關鍵指令。

> Solution: Dynamic Loading & Routing
實作按需載入機制。將龐大知識庫拆分為獨立模組,透過路由僅提取當前任務所需的上下文,降低雜訊與 API 成本。
WARN_04

知識腐化死循環

系統快速迭代,但開發文件未同步。AI 讀取了過期 (Outdated) 的 Handbook 開發新模組,反覆觸發編譯錯誤並卡在不斷嘗試的死循環中。

> Solution: Anti-Rot Automation
設立 Doc Updater 將「文件同步」納入工作流閉環。程式碼變更時強制更新文件,確保真理來源 (Single Source of Truth) 永遠是最新的。
06 //

Metrics_

這些數字是內部 PoC 與專案實作的觀測值。重點不是保證值,而是這套治理架構是否真的回收了工程時間。

+30%
開發效率提升
單一腳本減少 10-20 小時開發時間
~87%
時間節省
各開發環節的平均耗時縮減總和
>700%
投資報酬率
以可衡量的 API 算力成本節省人力資源

* 以上為 Auto Universe 內部 PoC 與專案實作觀測值(2026-03-14)。以既有人工流程為對照;結果會隨任務複雜度、測試資產、模型版本與團隊成熟度變動,不應視為保證值。數據來源以 autoUniverse 技術文件為準。

07 //

Reflection_

看完設計、模組與成果之後,最後要回到一個更難的問題:哪些場景值得導入,哪些場景反而應該克制。

Auto Universe 證明 Agent Skill 能在高複雜度場景落地,但也揭露一個現實: 「Everything Skill 並非預設答案」。穩定性提升的同時, R&D 投入、模型成本、治理設計與決策責任也會同步上升。

當 AI 把產出速度推向毫秒級,工程師與架構師的價值就不再是「寫得更快」, 而是更慢地定義邊界、更精準地設定責任、更嚴格地驗證風險。

AI 負責狂飆;人類負責鋪設鐵軌、設置號誌,並承擔最終風險責任。
REF_01 // Scope_Before_Skill

先問場景,再問自動化程度

並非每個流程都值得被 Skill 化。越高耦合、越低容錯、越高合規要求的業務, 才值得投資完整 Skill SOP;其他場景維持人機協作,反而更符合成本效益。

REF_02 // Honest_ROI

把沉沒成本寫進技術決策

技術展示常聚焦「產出效率」,但真實成本包含知識結構設計、模型切換驗證、 Token 消耗與治理維護。只有把前期沉沒成本算清楚,ROI 才有決策意義。

REF_03 // Human_Accountability

Human in the Loop 是責任機制,不是妥協

在 PROD 或高風險領域,最終提交權與放行權必須由人類承擔。AI 可以生成、 比對、建議,但不能取代責任主體。這是工程治理,也是倫理底線。

REF_04 // Boundary_As_Intelligence

把經驗轉成邊界,才是 AI 時代核心能力

真正稀缺的不是寫程式速度,而是把資深工程判斷轉譯為可執行規範: 何時必須中止、何時需要升級審核、何時允許自動修復。邊界設計,就是智慧本體。

Pre-Flight Check // 導入 Everything Skill 前的四個問題
  1. 這個業務場景的長期價值,是否足以覆蓋前期治理與知識工程投入?
  2. 若模型行為漂移,是否已有可執行的檢核節點與人工接管機制?
  3. 團隊是否能持續維護知識庫,避免文件腐化導致 AI 重複製造舊錯?
  4. 當錯誤進入正式環境時,責任鏈是否明確到人,而非模糊歸咎給模型?