AI 工作流 · 觀念釐清

幫 AI 分多個角色真的比較好嗎
2026 最新研究說「先別」

你可能聽過「給 AI 分主管」「PM agent + 工程師 agent + 測試 agent」這種設計。 Anthropic、Stanford、Cognition 三家最新研究結論:多 agent 的價值是「並行覆蓋」、不是「分工」,把 AI 排成公司組織圖通常會更糟。

含 3 篇權威研究 含實際應用建議 給完全新手
📖 讀這篇前你需要知道

這篇看 2026 年最新研究結論、告訴你為什麼「給 AI 分角色」的直覺常常是錯的、什麼時候真該用、什麼時候別用。 不需要懂技術、每個名詞第一次出現都會白話解釋。文末有給新手的應用建議判斷指引表、看完知道下次該怎麼做。

The Problem · 直覺哪裡錯了

「給 AI 分主管」聽起來很合理、為什麼研究說別這樣做?

2025 年很多人這樣做:把 AI 設計成「產品經理 agent → 工程師 agent → 測試 agent → 部署 agent」的線性流程。 像公司組織圖一樣分工、聽起來很合理對吧?

結果大部分案例都失敗了。成本爆 3 到 15 倍、效果常常比一個單純的 AI 還差、debug 起來像剝洋蔥。

這個失敗模式有個名字、叫「三省六部幻覺」(中文 AI 社群 @sujingshen 提出、aihao 整理)。直覺把 AI 想成可以排組織圖的人類、但 AI 不是這樣運作的。

📖 什麼是 Agent?什麼是 Multi-Agent?
Agent 就是「會做事的 AI」。你叫它做一件任務、它會自己拆步驟、用工具、產出結果。 Multi-agent 就是「叫一群 AI 一起做事」、可能分角色、可能並行、可能互相討論。 比喻:Agent 是「一個會自己想辦法的員工」、multi-agent 是「找一個團隊一起做」、聽起來多人比較強、但實際上不一定。
The Gist · 一句話翻轉

核心觀念:分工 ≠ 並行

最重要的一句話

多 agent 的價值是 「並行覆蓋」(同時做多件獨立的事)、不是「分工」(把一件事切給多個角色)。 最好的 AI 系統長得像「一個思考者寫多份草稿」、不是「一家公司的組織圖」

「並行覆蓋」是讓 3 個 AI 同時看同一個問題、各自寫一份答案、再選最好的。 「分工」是把一個任務拆成 5 段、A agent 做第 1 段、B agent 做第 2 段、串成一條線。 這兩個聽起來像、但一個有效、一個沒效。

📖 為什麼「分工」沒效?
因為 AI 不是人類員工。人類員工有共識、會問、會補位。AI agent 之間只能用文字傳訊息、每次傳遞都會掉資訊比喻:像國小玩的傳話遊戲。第一個人說「明天下午三點開會」、傳到第十個人變成「明天下雪三千開花」。AI agent 串得越多、傳的越歪。
The Research · 三大權威結論

三篇 2026 年最新研究的結論

不是個人意見、是 Anthropic 官方 + Stanford 論文 + Cognition AI(做 Devin 的公司)親身故事。三個來源一致指向同一個方向。

Stanford 論文 arXiv:2604.02460 2026 年 4 月

結論 1:在等量「思考預算」下、單一 AI 持平或贏多 agent

Stanford 的 Dat Tran 與 Douwe Kiela 做了一個關鍵實驗:很多人說多 agent 比較強、但都沒有控制 token 用量。 多 agent 系統用 5 倍 token、當然比較強、那不公平。

研究者把 token 預算切到一樣之後重做實驗、跨 Qwen3、DeepSeek、Gemini 三個模型家族測試。結果:單一 agent 在多跳推理(需要多步驟思考的問題)持平或贏多 agent 系統

理論基礎:每經過一次「處理」、資訊就會損失(這叫「資料處理不等式」)。 所以 agent 之間每傳遞一次 = 累積一次誤差。一個 AI 把整個問題抱在自己腦袋裡想、不用傳。
📖 什麼是「思考預算」(Token)?
AI 處理問題的最小單位叫「Token」、可以想成「AI 用掉的字數」。 一個 AI 用 1000 token 想出一個答案、跟三個 agent 各用 333 token 串起來想、後者每個都被切碎、結論變糟。
Anthropic 官方 2026 年 1 月 + 4 月文件

結論 2:只在「三個明確場景」該用多 agent、其他都先用單 agent

做 Claude 的 Anthropic、自家經過上百次實驗整理出來:多 agent 只在三個明確場景才贏、其他情況單 agent 配好的 prompt 就夠。

三個場景:(1)Context 隔離(子任務會塞爆主 AI 的記憶)、(2)並行(多個獨立任務同時跑)、(3)專業化(工具超過 15-20 個或需要衝突的指令)。

Anthropic 還說:團隊試過很多次、本來打算用多 agent、結果把單 agent 的 prompt 寫好、效果就一樣。 他們的建議:「從最簡單能用的做法開始、有證據才加複雜度」

Cognition AI 2025/06 → 2026/03 故事

結論 3:做 Devin 的公司、從「別做多 agent」到「正確的多 agent」

Cognition 是做世界第一個自動寫程式 AI 工程師 Devin 的公司。2025 年 6 月、他們發了一篇〈Don't Build Multi-Agents〉(別做多 agent)、是當時業界最強烈的反對聲音。

九個月後的 2026 年 3 月、他們推出「Manage Devins」(多個 Devin 協作)。看起來像打臉、實際上不是:他們做的不是線性分工、而是一個主 Devin 把任務拆給多個獨立 Devin、各自在隔離環境跑、結果回來主 Devin 整合

真正的教訓:問題不是「該不該用多 agent」、是「用對的多 agent 模式還是錯的」。 錯的:peer-to-peer 對話、共享狀態、固定流程。對的:一個總指揮 + 多個短期、隔離、做完就消失的小幫手
Why It Fails · 三大失敗點

為什麼「分角色」直覺會踩雷

四個具體的失敗機制、看完你就知道為什麼業界都收手了。

失敗點 01

錯誤放大效應

每個 AI 都會犯小錯。90% 正確的 agent、串三個就只剩 72.9%。串五個 = 59%。 分工越多、錯誤越疊。

0.9 × 0.9 × 0.9 = 0.729
失敗點 02

資訊在傳遞中死亡

AI agent 之間只能用文字傳。每次「我講給下一個 agent 聽」都會丟細節、會誤解、會走樣。 傳話遊戲、傳越多次差越大。

失敗點 03

Token 成本非線性爆炸

研究實測:多 agent 平均吃單 agent 的 3 到 15 倍 token。 最糟的 edge case:一個小錯誤觸發重試、可能吃 50 倍。月底帳單看得心臟病。

失敗點 04

系統設計差、不是 AI 不夠強

業界調查:41% 到 86.7% 的多 agent 失敗、原因是架構設計問題、不是模型能力不夠。 換更強的模型也救不了爛架構。

When To Use · 真正該用多 agent 的場景

Anthropic 官方認可的 3 個適用場景

不是「多 agent 都不能用」、是「只在這三個明確場景該用」。

1
Context Isolation

Context 隔離

子任務會產生大量無關於主任務的資訊、塞給主 AI 反而干擾思考。把它丟給 subagent 跑、結果回來、過程不污染主 AI。

:要寫一篇文章、需要爬 50 篇參考資料。讓 subagent 去爬、回來只給「重點摘要」、主 AI 不用記得每篇原文 5000 字。
2
Parallelization

並行化

多個彼此獨立的任務、同時跑比依序跑快很多。一個 subagent 做一個、互不相關。

:同時測試 5 種廣告 TA 寫法、各 spawn 一個 subagent 平行跑、5 分鐘拿到 5 份結果。依序跑要 25 分鐘。
3
Specialization

專業化

工具數量超過 15-20 個、或需要互相衝突的系統指令。例如「寫程式要嚴謹」vs「寫文案要有溫度」、塞同一個 AI 會打架。

:同一個任務既要查股票 API(工程性)、又要寫客戶情緒安撫信(文案性)。分兩個 subagent 各自專精。
The Right Architecture · 真正能用的長相

正確的「多 agent」長什麼樣?

2026 年業界活下來的多 agent 系統都長同一個樣子:Orchestrator + 短期 isolated subagent

主 AI持有全部 context
↓ 派工 ↓
Subagent A獨立任務 1
Subagent B獨立任務 2
Subagent C獨立任務 3
↓ 回報結果 ↓
主 AI整合 + 決策

subagent 做完就消失、不互相對話、不共享狀態、每次都 fresh context。

這個架構叫 Orchestrator + Subagent。重點不是「subagent 有幾個」、是「主 AI 全程掌握 context、subagent 只是工具、做完即丟」

這跟「分角色」差在哪?

  • 分角色:固定流程「PM → 工程師 → 測試」、每個 agent 都活著、互相傳訊息、有共享狀態。會失敗
  • Orchestrator + Subagent:主 AI 看情況臨時叫 subagent 出來做事、做完消失、不對話、不共享。會成功
📖 為什麼 Subagent「做完就丟」反而比較好?
因為它不會把雜訊帶回來。subagent 跑去爬 100 篇文章、過程裡讀了 50 萬字、但最後只回報「3 個重點」給主 AI。 過程的 50 萬字消失、主 AI 的記憶保持乾淨。 比喻:派助理去查資料、你只要結論、不需要他把整個圖書館的書搬回辦公室。
Pattern Library · 5 種多 agent 架構

不只一種「對的多 agent」、Anthropic 整理了 5 種模式

Orchestrator + Subagent 是最常推薦的入門款、但不是唯一解。 Anthropic 官方 2026/4 文件整理了 5 種協調模式、每種適合不同任務。下面用簡單圖示 + 你會用到的日常場景講一輪。

1

生成 ↔ 驗證

Generator-Verifier
生成 AI
↓ 產出 ↓
驗證 AI
↓ ✓ 通過 / ✗ 退回 ↓

退回時迴圈回生成、最多 N 次直到通過或放棄。一個產出、一個檢查。

✓ 適合

品質攸關、有明確驗證標準的任務(對 / 錯可判斷)

✗ 不適合

驗證標準模糊時、迴圈會跑不完、或檢查跟生成一樣難

📌 你會用到的日常場景

  • 寫客戶 Email:一個 AI 寫、另一個 AI 檢查「禮貌、清楚、CTA 都有了沒、有沒踩到禁忌」
  • 程式碼產出:AI 寫完、另一個 AI 跑單元測試 + 檢查安全漏洞
  • 合約審閱:AI 審完條款、另一個 AI 用法律檢查清單複審
  • 事實查核:AI 寫好文章、另一個 AI 對著官方文件逐句驗證
2

主管 + 短期幫手

Orchestrator-Subagent · 最常推薦的入門款
主 AI規劃
↓ 派工 ↓
Sub A
Sub B
Sub C
↓ 回報結果 ↓
主 AI整合 + 決策

主 AI 持有全部 context、subagent 做完就消失、不對話、不共享狀態。

✓ 適合

任務可清楚拆解成獨立子任務、子任務之間沒有依賴關係

✗ 不適合

子任務之間需要互相討論、或主 AI 變成資訊瓶頸

📌 你會用到的日常場景

  • 寫深度文章:主 AI 統籌、派 subagent 平行查 Anthropic / Stanford / Cognition 三家、回來主 AI 整合
  • 規劃旅行:主 AI 統籌、subagent 各自查機票 / 住宿 / 景點 / 餐廳、回報後整合行程
  • 程式碼審查:主 AI 派 subagent 各看「安全」「測試」「風格」「架構」、整合成一份 review
  • 市場研究:派 subagent 各查一個競品、回來整合對比表
3

持久團隊

Agent Teams
協調者開出任務池
↓ 各自挑任務 ↓
Agent A
Agent B
Agent C

每個 agent 自己從任務池挑、做完繼續挑、過程累積經驗。跟 #2 差別:agent 持續活著、累積 context。

✓ 適合

大量同類型重複任務、需要 agent 累積跨任務的知識

✗ 不適合

任務之間需要互看對方做了什麼、共享資源容易衝突

📌 你會用到的日常場景

  • 批改 100 份學員作業:多個 agent 各自挑作業改、批越多越懂這套教材的常見錯誤
  • 整理 200 篇 Notion 文章:多個 agent 並行分類、過程裡學會這個庫的主題結構
  • 客服系統:多個 agent 在線值班、各自處理客戶問題、累積常見問題知識
  • 大型程式碼遷移:每個微服務派一個 agent 負責、各自做完累積遷移經驗
4

訊息匯流排

Message Bus
📨 訊息進來
路由器判斷類型
↓ 分派 ↓
客服 AI
財務 AI
技術 AI

事件驅動:訊息到了路由器看內容、丟給對應 agent 處理。新增 agent 不用重接線。

✓ 適合

事件驅動的流程、新類型訊息可以快速加新 agent

✗ 不適合

需要追蹤訊息全程流向、路由錯誤會無聲失敗

📌 你會用到的日常場景

  • Email 自動分類:信進來、AI 判斷是工作 / 家人 / 垃圾、丟給不同 AI 處理
  • Discord / Slack 群組 bot:訊息進來、路由器判斷是問題 / 報數據 / 閒聊、各派 agent 處理
  • 客服票券系統:客戶提單 → 路由器判斷類型(退款 / 技術 / 投訴)→ 派專科 AI
  • 監控告警:系統告警進來、路由器分類(資安 / 效能 / 業務)→ 派對應處理員
5

共享白板

Shared State
Agent A
Agent B
Agent C
Agent D
↕ 各自讀寫 ↕
共享資料庫 / 文件

沒有中央指揮、agent 各自挖、發現寫進共享白板、互相看到後再延伸。要設「停止條件」避免無限迴圈。

✓ 適合

協作研究、發現會互相啟發、不想要單點故障

✗ 不適合

沒設停止條件會無限燒 token(A 寫、B 回應、A 又回應)

📌 你會用到的日常場景

  • 主題深度研究:多個 AI 各挖一個面向(學術文獻 / 產業報告 / 新聞)、寫進共享 DB、互相延伸
  • 團隊腦力激盪:多個 AI 各提想法寫進 Notion、看到別人的想法後再深化
  • 競品分析:每個 AI 負責一家、寫進共享表格、看到其他 AI 發現的角度後補強自己的
  • 長期觀察任務:每個 AI 觀察一個指標、寫進共享 dashboard、定時整合
怎麼選

不確定就從 #2(Orchestrator + Subagent)開始、Anthropic 自己也是這樣建議。 看到實際痛點再升級:需要驗證 → 加 #1需要累積 → 升 #3需要動態擴展 → 升 #4需要去中心化 → 升 #5

My Take · 我自己的經驗

反思:我設計了 12 個「主管」、那算錯嗎?

我經營的公司用 Claude Code 跑日常營運、設計了 12 個「主管」角色:行銷長、銷售長、人才長、財務長、法務長等等。 乍看像是「三省六部」、看完研究我也擔心了一下。仔細檢查、發現我其實做對了、只是差點走錯

我做對的部分

沒有固定流程、Claude 自己決定要不要叫主管

我從來沒有寫「先找行銷長 → 再給銷售長看 → 最後給數據長」這種流程。 我寫的是:「如果這個問題需要行銷專業判斷、就調用行銷長角色;如果不需要、就自己處理」。

Claude 大部分時候都自己處理掉、不叫任何主管。只有真的需要專業視角時才會調出來。 這恰好就是 Anthropic 推薦的 Orchestrator + Subagent 模式:主 AI 持有 context、需要才 spawn。

如果當初我寫成「每個任務都要過 12 個主管討論一輪」、就是經典的失敗模式。 把角色設計成「備用工具」、不是「固定流程」、是這套設計能跑的關鍵。

給自己的提醒

  • 角色描述要寫「什麼情況下該調用我」、而不是「我會做什麼
  • 不要設計「角色 A 完成後傳給角色 B」這種 hand-off 流程
  • 每個 subagent 都拿乾淨 context 開始、不要塞前一個的對話歷史
  • 並行操盤(同時跑多個客戶分析)✓ 用 subagent;單一線性任務 ✗ 別拆
Your Playbook · 給你的應用指引

下次你想叫 AI 做事、該用單 agent 還是多 agent?

一張表幫你判斷、不用每次都靠直覺。

你的任務情境 推薦做法 理由
單一線性任務(寫一篇文章、寫一個程式) 單 agent 沒理由拆、拆了反而傳話遊戲
需要連續對話的任務(諮詢攻略、寫策略) 單 agent 共享狀態多、不適合拆
大量重複、彼此獨立的任務(150 個逐字稿) 多 agent(並行) 典型的並行化場景
子任務會塞爆主 AI 記憶(爬 50 篇文章寫摘要) 多 agent(隔離) Context 隔離場景
需要互相衝突的指令(嚴謹程式 + 溫度文案) 多 agent(專業化) system prompt 打架、要分開
線性分工流程(PM → 工程師 → 測試) 先別、改回單 agent 典型的「三省六部幻覺」
不確定、第一次做 先用單 agent 有問題再加複雜度、不要預先過度設計

3 個判斷信號(看到就考慮多 agent)

  1. 主 AI 的記憶快塞爆了(很長的對話、AI 開始忘記前面講過什麼)→ 子任務丟 subagent 隔離
  2. 同樣的事要做很多次(150 個影片轉錄、20 個客戶分析)→ 並行
  3. 工具列表超過 15 個、或同一個 AI 要兼顧「工程嚴謹」+「文案溫度」→ 專業化

3 個警告信號(看到就退回單 agent)

  1. 你開始畫「A → B → C → D」的流程圖 → 三省六部幻覺、別做
  2. agent 之間需要頻繁互相詢問 → 緊密耦合、合併
  3. token 帳單莫名暴漲 → 一定是多 agent 在 retry、回頭看架構
"

從最簡單能用的做法開始、
有證據才加複雜度
這是 Anthropic 給所有人的建議。

Take Away · 帶走三句

記住這三件事

01

多 agent 的價值是「並行覆蓋」、不是「分工」。把 AI 排成公司組織圖通常會更糟、別憑直覺做。

02

預設用單 agent、明確場景才用多 agent。Anthropic 認可的三個場景:context 隔離、並行、專業化。其他情況把 prompt 寫好就夠。

03

用多 agent 就用「Orchestrator + 短期 isolated subagent」。主 AI 全程掌握、subagent 做完就丟、不要 peer-to-peer 對話、不要共享狀態、不要固定流程。

Further Reading · 想再深入

延伸閱讀

Workflow 跟 Skill 差在哪?一個有官方規範、一個沒有 →

另一個常見混淆。Skill 是 Anthropic 官方規格、Workflow 是描述用詞、別搞混。

Claude 的 Skill 怎麼跟著我跑、又在每個專案都自動可用? →

給新手的 Skill 跨專案設計入門、不會 Git 也能看懂。

Cognition AI: Don't Build Multi-Agents ↗

2025/06 業界最強烈的反多 agent 文章原文、英文、奠定後續討論基礎。

Anthropic: When to use multi-agent systems ↗

Anthropic 官方文件、三個適用場景 + 推薦架構、英文。

aihao.tw: 多 Agent 反模式與模式 ↗

中文整理、把這幾篇核心研究串成一個流暢的論述、推薦先看這篇。

Stanford 論文 arXiv:2604.02460 ↗

Single-Agent Outperforms Multi-Agent 完整論文、Data Processing Inequality 理論基礎、英文。

參考資源(依重要性排序)

  • Anthropic · Building Multi-Agent Systems: When and How to Use Them — claude.com/blog
  • Anthropic · Multi-Agent Coordination Patterns(5 種協調模式來源)— claude.com/blog
  • Stanford · Tran & Kiela: Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets — arXiv:2604.02460
  • Cognition AI · Don't Build Multi-Agents(2025/06)— cognition.ai/blog
  • LangChain · Benchmarking Multi-Agent Architectures — blog.langchain.com
  • Microsoft AutoGen · 多 agent 失敗模式分析(main repo 已 maintenance-only)
  • aihao.tw · 多 Agent 反模式與模式中文整理(2026/05/19)— blog.aihao.tw
  • @sujingshen · 「三省六部幻覺」原創批評詞、文中引用此用語表示對固定分工式多 agent 設計的批評(透過 aihao 整理轉述)

看完這篇?回首頁瀏覽更多實驗筆記

← 回 老K 的 AI 實驗筆記