AI 工作流 · 觀念釐清

幫 AI 分多個角色真的比較好嗎？
2026 最新研究說「先別」

你可能聽過「給 AI 分主管」「PM agent + 工程師 agent + 測試 agent」這種設計。 Anthropic、Stanford、Cognition 三家最新研究結論：多 agent 的價值是「並行覆蓋」、不是「分工」，把 AI 排成公司組織圖通常會更糟。

含 3 篇權威研究含實際應用建議給完全新手

📖 讀這篇前你需要知道

這篇看 2026 年最新研究結論、告訴你為什麼「給 AI 分角色」的直覺常常是錯的、什麼時候真該用、什麼時候別用。不需要懂技術、每個名詞第一次出現都會白話解釋。文末有給新手的應用建議跟判斷指引表、看完知道下次該怎麼做。

The Problem · 直覺哪裡錯了

「給 AI 分主管」聽起來很合理、為什麼研究說別這樣做？

2025 年很多人這樣做：把 AI 設計成「產品經理 agent → 工程師 agent → 測試 agent → 部署 agent」的線性流程。像公司組織圖一樣分工、聽起來很合理對吧？

結果大部分案例都失敗了。成本爆 3 到 15 倍、效果常常比一個單純的 AI 還差、debug 起來像剝洋蔥。

這個失敗模式有個名字、叫「三省六部幻覺」（中文 AI 社群 @sujingshen 提出、aihao 整理）。直覺把 AI 想成可以排組織圖的人類、但 AI 不是這樣運作的。

📖 什麼是 Agent？什麼是 Multi-Agent？
Agent 就是「會做事的 AI」。你叫它做一件任務、它會自己拆步驟、用工具、產出結果。 Multi-agent 就是「叫一群 AI 一起做事」、可能分角色、可能並行、可能互相討論。比喻：Agent 是「一個會自己想辦法的員工」、multi-agent 是「找一個團隊一起做」、聽起來多人比較強、但實際上不一定。

The Gist · 一句話翻轉

核心觀念：分工 ≠ 並行

最重要的一句話

多 agent 的價值是 「並行覆蓋」（同時做多件獨立的事）、不是「分工」（把一件事切給多個角色）。最好的 AI 系統長得像「一個思考者寫多份草稿」、不是「一家公司的組織圖」。

「並行覆蓋」是讓 3 個 AI 同時看同一個問題、各自寫一份答案、再選最好的。「分工」是把一個任務拆成 5 段、A agent 做第 1 段、B agent 做第 2 段、串成一條線。這兩個聽起來像、但一個有效、一個沒效。

📖 為什麼「分工」沒效？
因為 AI 不是人類員工。人類員工有共識、會問、會補位。AI agent 之間只能用文字傳訊息、每次傳遞都會掉資訊。比喻：像國小玩的傳話遊戲。第一個人說「明天下午三點開會」、傳到第十個人變成「明天下雪三千開花」。AI agent 串得越多、傳的越歪。

The Research · 三大權威結論

三篇 2026 年最新研究的結論

不是個人意見、是 Anthropic 官方 + Stanford 論文 + Cognition AI（做 Devin 的公司）親身故事。三個來源一致指向同一個方向。

Stanford 論文 arXiv:2604.02460 2026 年 4 月

結論 1：在等量「思考預算」下、單一 AI 持平或贏多 agent

Stanford 的 Dat Tran 與 Douwe Kiela 做了一個關鍵實驗：很多人說多 agent 比較強、但都沒有控制 token 用量。多 agent 系統用 5 倍 token、當然比較強、那不公平。

研究者把 token 預算切到一樣之後重做實驗、跨 Qwen3、DeepSeek、Gemini 三個模型家族測試。結果：單一 agent 在多跳推理（需要多步驟思考的問題）持平或贏多 agent 系統。

理論基礎：每經過一次「處理」、資訊就會損失（這叫「資料處理不等式」）。所以 agent 之間每傳遞一次 = 累積一次誤差。一個 AI 把整個問題抱在自己腦袋裡想、不用傳。

📖 什麼是「思考預算」（Token）？
AI 處理問題的最小單位叫「Token」、可以想成「AI 用掉的字數」。一個 AI 用 1000 token 想出一個答案、跟三個 agent 各用 333 token 串起來想、後者每個都被切碎、結論變糟。

Anthropic 官方 2026 年 1 月 + 4 月文件

結論 2：只在「三個明確場景」該用多 agent、其他都先用單 agent

做 Claude 的 Anthropic、自家經過上百次實驗整理出來：多 agent 只在三個明確場景才贏、其他情況單 agent 配好的 prompt 就夠。

三個場景：（1）Context 隔離（子任務會塞爆主 AI 的記憶）、（2）並行（多個獨立任務同時跑）、（3）專業化（工具超過 15-20 個或需要衝突的指令）。

Anthropic 還說：團隊試過很多次、本來打算用多 agent、結果把單 agent 的 prompt 寫好、效果就一樣。他們的建議：「從最簡單能用的做法開始、有證據才加複雜度」。

Cognition AI 2025/06 → 2026/03 故事

結論 3：做 Devin 的公司、從「別做多 agent」到「正確的多 agent」

Cognition 是做世界第一個自動寫程式 AI 工程師 Devin 的公司。2025 年 6 月、他們發了一篇〈Don't Build Multi-Agents〉（別做多 agent）、是當時業界最強烈的反對聲音。

九個月後的 2026 年 3 月、他們推出「Manage Devins」（多個 Devin 協作）。看起來像打臉、實際上不是：他們做的不是線性分工、而是一個主 Devin 把任務拆給多個獨立 Devin、各自在隔離環境跑、結果回來主 Devin 整合。

真正的教訓：問題不是「該不該用多 agent」、是「用對的多 agent 模式還是錯的」。錯的：peer-to-peer 對話、共享狀態、固定流程。對的：一個總指揮 + 多個短期、隔離、做完就消失的小幫手。

Why It Fails · 三大失敗點

為什麼「分角色」直覺會踩雷

四個具體的失敗機制、看完你就知道為什麼業界都收手了。

失敗點 01

錯誤放大效應

每個 AI 都會犯小錯。90% 正確的 agent、串三個就只剩 72.9%。串五個 = 59%。分工越多、錯誤越疊。

0.9 × 0.9 × 0.9 = 0.729

失敗點 02

資訊在傳遞中死亡

AI agent 之間只能用文字傳。每次「我講給下一個 agent 聽」都會丟細節、會誤解、會走樣。傳話遊戲、傳越多次差越大。

失敗點 03

Token 成本非線性爆炸

研究實測：多 agent 平均吃單 agent 的 3 到 15 倍 token。最糟的 edge case：一個小錯誤觸發重試、可能吃 50 倍。月底帳單看得心臟病。

失敗點 04

系統設計差、不是 AI 不夠強

業界調查：41% 到 86.7% 的多 agent 失敗、原因是架構設計問題、不是模型能力不夠。換更強的模型也救不了爛架構。

When To Use · 真正該用多 agent 的場景

Anthropic 官方認可的 3 個適用場景

不是「多 agent 都不能用」、是「只在這三個明確場景該用」。

Context Isolation

Context 隔離

子任務會產生大量無關於主任務的資訊、塞給主 AI 反而干擾思考。把它丟給 subagent 跑、結果回來、過程不污染主 AI。

例：要寫一篇文章、需要爬 50 篇參考資料。讓 subagent 去爬、回來只給「重點摘要」、主 AI 不用記得每篇原文 5000 字。

Parallelization

並行化

多個彼此獨立的任務、同時跑比依序跑快很多。一個 subagent 做一個、互不相關。

例：同時測試 5 種廣告 TA 寫法、各 spawn 一個 subagent 平行跑、5 分鐘拿到 5 份結果。依序跑要 25 分鐘。

Specialization

專業化

工具數量超過 15-20 個、或需要互相衝突的系統指令。例如「寫程式要嚴謹」vs「寫文案要有溫度」、塞同一個 AI 會打架。

例：同一個任務既要查股票 API（工程性）、又要寫客戶情緒安撫信（文案性）。分兩個 subagent 各自專精。

The Right Architecture · 真正能用的長相

正確的「多 agent」長什麼樣？

2026 年業界活下來的多 agent 系統都長同一個樣子：Orchestrator + 短期 isolated subagent。

主 AI持有全部 context

↓ 派工 ↓

Subagent A獨立任務 1

Subagent B獨立任務 2

Subagent C獨立任務 3

↓ 回報結果 ↓

主 AI整合 + 決策

subagent 做完就消失、不互相對話、不共享狀態、每次都 fresh context。

這個架構叫 Orchestrator + Subagent。重點不是「subagent 有幾個」、是「主 AI 全程掌握 context、subagent 只是工具、做完即丟」。

這跟「分角色」差在哪？

分角色：固定流程「PM → 工程師 → 測試」、每個 agent 都活著、互相傳訊息、有共享狀態。會失敗。
Orchestrator + Subagent：主 AI 看情況臨時叫 subagent 出來做事、做完消失、不對話、不共享。會成功。

📖 為什麼 Subagent「做完就丟」反而比較好？
因為它不會把雜訊帶回來。subagent 跑去爬 100 篇文章、過程裡讀了 50 萬字、但最後只回報「3 個重點」給主 AI。過程的 50 萬字消失、主 AI 的記憶保持乾淨。比喻：派助理去查資料、你只要結論、不需要他把整個圖書館的書搬回辦公室。

Pattern Library · 5 種多 agent 架構

不只一種「對的多 agent」、Anthropic 整理了 5 種模式

Orchestrator + Subagent 是最常推薦的入門款、但不是唯一解。 Anthropic 官方 2026/4 文件整理了 5 種協調模式、每種適合不同任務。下面用簡單圖示 + 你會用到的日常場景講一輪。

生成 ↔ 驗證

Generator-Verifier

生成 AI

↓ 產出 ↓

驗證 AI

↓ ✓ 通過 / ✗ 退回 ↓

退回時迴圈回生成、最多 N 次直到通過或放棄。一個產出、一個檢查。

✓ 適合

品質攸關、有明確驗證標準的任務（對 / 錯可判斷）

✗ 不適合

驗證標準模糊時、迴圈會跑不完、或檢查跟生成一樣難

📌 你會用到的日常場景

寫客戶 Email：一個 AI 寫、另一個 AI 檢查「禮貌、清楚、CTA 都有了沒、有沒踩到禁忌」
程式碼產出：AI 寫完、另一個 AI 跑單元測試 + 檢查安全漏洞
合約審閱：AI 審完條款、另一個 AI 用法律檢查清單複審
事實查核：AI 寫好文章、另一個 AI 對著官方文件逐句驗證

主管 + 短期幫手

Orchestrator-Subagent · 最常推薦的入門款

主 AI規劃

↓ 派工 ↓

Sub A

Sub B

Sub C

↓ 回報結果 ↓

主 AI整合 + 決策

主 AI 持有全部 context、subagent 做完就消失、不對話、不共享狀態。

✓ 適合

任務可清楚拆解成獨立子任務、子任務之間沒有依賴關係

✗ 不適合

子任務之間需要互相討論、或主 AI 變成資訊瓶頸

📌 你會用到的日常場景

寫深度文章：主 AI 統籌、派 subagent 平行查 Anthropic / Stanford / Cognition 三家、回來主 AI 整合
規劃旅行：主 AI 統籌、subagent 各自查機票 / 住宿 / 景點 / 餐廳、回報後整合行程
程式碼審查：主 AI 派 subagent 各看「安全」「測試」「風格」「架構」、整合成一份 review
市場研究：派 subagent 各查一個競品、回來整合對比表

持久團隊

Agent Teams

協調者開出任務池

↓ 各自挑任務 ↓

Agent A

Agent B

Agent C

每個 agent 自己從任務池挑、做完繼續挑、過程累積經驗。跟 #2 差別：agent 持續活著、累積 context。

✓ 適合

大量同類型重複任務、需要 agent 累積跨任務的知識

✗ 不適合

任務之間需要互看對方做了什麼、共享資源容易衝突

📌 你會用到的日常場景

批改 100 份學員作業：多個 agent 各自挑作業改、批越多越懂這套教材的常見錯誤
整理 200 篇 Notion 文章：多個 agent 並行分類、過程裡學會這個庫的主題結構
客服系統：多個 agent 在線值班、各自處理客戶問題、累積常見問題知識
大型程式碼遷移：每個微服務派一個 agent 負責、各自做完累積遷移經驗

訊息匯流排

Message Bus

📨 訊息進來

↓

路由器判斷類型

↓ 分派 ↓

客服 AI

財務 AI

技術 AI

事件驅動：訊息到了路由器看內容、丟給對應 agent 處理。新增 agent 不用重接線。

✓ 適合

事件驅動的流程、新類型訊息可以快速加新 agent

✗ 不適合

需要追蹤訊息全程流向、路由錯誤會無聲失敗

📌 你會用到的日常場景

Email 自動分類：信進來、AI 判斷是工作 / 家人 / 垃圾、丟給不同 AI 處理
Discord / Slack 群組 bot：訊息進來、路由器判斷是問題 / 報數據 / 閒聊、各派 agent 處理
客服票券系統：客戶提單 → 路由器判斷類型（退款 / 技術 / 投訴）→ 派專科 AI
監控告警：系統告警進來、路由器分類（資安 / 效能 / 業務）→ 派對應處理員

共享白板

Shared State

Agent A

Agent B

Agent C

Agent D

↕ 各自讀寫 ↕

共享資料庫 / 文件

沒有中央指揮、agent 各自挖、發現寫進共享白板、互相看到後再延伸。要設「停止條件」避免無限迴圈。

✓ 適合

協作研究、發現會互相啟發、不想要單點故障

✗ 不適合

沒設停止條件會無限燒 token（A 寫、B 回應、A 又回應）

📌 你會用到的日常場景

主題深度研究：多個 AI 各挖一個面向（學術文獻 / 產業報告 / 新聞）、寫進共享 DB、互相延伸
團隊腦力激盪：多個 AI 各提想法寫進 Notion、看到別人的想法後再深化
競品分析：每個 AI 負責一家、寫進共享表格、看到其他 AI 發現的角度後補強自己的
長期觀察任務：每個 AI 觀察一個指標、寫進共享 dashboard、定時整合

怎麼選

不確定就從 #2（Orchestrator + Subagent）開始、Anthropic 自己也是這樣建議。看到實際痛點再升級：需要驗證 → 加 #1、需要累積 → 升 #3、需要動態擴展 → 升 #4、需要去中心化 → 升 #5。

My Take · 我自己的經驗

反思：我設計了 12 個「主管」、那算錯嗎？

我經營的公司用 Claude Code 跑日常營運、設計了 12 個「主管」角色：行銷長、銷售長、人才長、財務長、法務長等等。乍看像是「三省六部」、看完研究我也擔心了一下。仔細檢查、發現我其實做對了、只是差點走錯。

我做對的部分

沒有固定流程、Claude 自己決定要不要叫主管

我從來沒有寫「先找行銷長 → 再給銷售長看 → 最後給數據長」這種流程。我寫的是：「如果這個問題需要行銷專業判斷、就調用行銷長角色；如果不需要、就自己處理」。

Claude 大部分時候都自己處理掉、不叫任何主管。只有真的需要專業視角時才會調出來。這恰好就是 Anthropic 推薦的 Orchestrator + Subagent 模式：主 AI 持有 context、需要才 spawn。

如果當初我寫成「每個任務都要過 12 個主管討論一輪」、就是經典的失敗模式。把角色設計成「備用工具」、不是「固定流程」、是這套設計能跑的關鍵。

給自己的提醒

角色描述要寫「什麼情況下該調用我」、而不是「我會做什麼」
不要設計「角色 A 完成後傳給角色 B」這種 hand-off 流程
每個 subagent 都拿乾淨 context 開始、不要塞前一個的對話歷史
並行操盤（同時跑多個客戶分析）✓ 用 subagent；單一線性任務 ✗ 別拆

Your Playbook · 給你的應用指引

下次你想叫 AI 做事、該用單 agent 還是多 agent？

一張表幫你判斷、不用每次都靠直覺。

你的任務情境	推薦做法	理由
單一線性任務（寫一篇文章、寫一個程式）	單 agent	沒理由拆、拆了反而傳話遊戲
需要連續對話的任務（諮詢攻略、寫策略）	單 agent	共享狀態多、不適合拆
大量重複、彼此獨立的任務（150 個逐字稿）	多 agent（並行）	典型的並行化場景
子任務會塞爆主 AI 記憶（爬 50 篇文章寫摘要）	多 agent（隔離）	Context 隔離場景
需要互相衝突的指令（嚴謹程式 + 溫度文案）	多 agent（專業化）	system prompt 打架、要分開
線性分工流程（PM → 工程師 → 測試）	先別、改回單 agent	典型的「三省六部幻覺」
不確定、第一次做	先用單 agent	有問題再加複雜度、不要預先過度設計

3 個判斷信號（看到就考慮多 agent）

主 AI 的記憶快塞爆了（很長的對話、AI 開始忘記前面講過什麼）→ 子任務丟 subagent 隔離
同樣的事要做很多次（150 個影片轉錄、20 個客戶分析）→ 並行
工具列表超過 15 個、或同一個 AI 要兼顧「工程嚴謹」+「文案溫度」→ 專業化

3 個警告信號（看到就退回單 agent）

你開始畫「A → B → C → D」的流程圖 → 三省六部幻覺、別做
agent 之間需要頻繁互相詢問 → 緊密耦合、合併
token 帳單莫名暴漲 → 一定是多 agent 在 retry、回頭看架構

從最簡單能用的做法開始、
有證據才加複雜度。
這是 Anthropic 給所有人的建議。

Take Away · 帶走三句

記住這三件事

多 agent 的價值是「並行覆蓋」、不是「分工」。把 AI 排成公司組織圖通常會更糟、別憑直覺做。

預設用單 agent、明確場景才用多 agent。Anthropic 認可的三個場景：context 隔離、並行、專業化。其他情況把 prompt 寫好就夠。

用多 agent 就用「Orchestrator + 短期 isolated subagent」。主 AI 全程掌握、subagent 做完就丟、不要 peer-to-peer 對話、不要共享狀態、不要固定流程。

幫 AI 分多個角色真的比較好嗎？
2026 最新研究說「先別」

「給 AI 分主管」聽起來很合理、為什麼研究說別這樣做？

核心觀念：分工 ≠ 並行

三篇 2026 年最新研究的結論

結論 1：在等量「思考預算」下、單一 AI 持平或贏多 agent

結論 2：只在「三個明確場景」該用多 agent、其他都先用單 agent

結論 3：做 Devin 的公司、從「別做多 agent」到「正確的多 agent」

為什麼「分角色」直覺會踩雷

錯誤放大效應

資訊在傳遞中死亡

Token 成本非線性爆炸

系統設計差、不是 AI 不夠強

Anthropic 官方認可的 3 個適用場景

Context 隔離

並行化

專業化

正確的「多 agent」長什麼樣？

這跟「分角色」差在哪？

不只一種「對的多 agent」、Anthropic 整理了 5 種模式

生成 ↔ 驗證

📌 你會用到的日常場景

主管 + 短期幫手

📌 你會用到的日常場景

持久團隊

📌 你會用到的日常場景

訊息匯流排

📌 你會用到的日常場景

共享白板

📌 你會用到的日常場景

反思：我設計了 12 個「主管」、那算錯嗎？

沒有固定流程、Claude 自己決定要不要叫主管

給自己的提醒

下次你想叫 AI 做事、該用單 agent 還是多 agent？

3 個判斷信號（看到就考慮多 agent）

3 個警告信號（看到就退回單 agent）

記住這三件事

延伸閱讀

參考資源（依重要性排序）

「給 AI 分主管」聽起來很合理、為什麼研究說別這樣做？

核心觀念：分工 ≠ 並行

三篇 2026 年最新研究的結論

結論 1：在等量「思考預算」下、單一 AI 持平或贏多 agent

結論 2：只在「三個明確場景」該用多 agent、其他都先用單 agent

結論 3：做 Devin 的公司、從「別做多 agent」到「正確的多 agent」

為什麼「分角色」直覺會踩雷

錯誤放大效應

資訊在傳遞中死亡

Token 成本非線性爆炸

系統設計差、不是 AI 不夠強

Anthropic 官方認可的 3 個適用場景

Context 隔離

並行化

專業化

正確的「多 agent」長什麼樣？

這跟「分角色」差在哪？

不只一種「對的多 agent」、Anthropic 整理了 5 種模式

生成 ↔ 驗證

📌 你會用到的日常場景

主管 + 短期幫手

📌 你會用到的日常場景

持久團隊

📌 你會用到的日常場景

訊息匯流排

📌 你會用到的日常場景

共享白板

📌 你會用到的日常場景

反思：我設計了 12 個「主管」、那算錯嗎？

沒有固定流程、Claude 自己決定要不要叫主管

給自己的提醒

下次你想叫 AI 做事、該用單 agent 還是多 agent？

3 個判斷信號（看到就考慮多 agent）

3 個警告信號（看到就退回單 agent）

記住這三件事

延伸閱讀

參考資源（依重要性排序）

看完這篇，下一篇看這個

AI 會不會偷偷亂動我其他資料夾的專案？Claude Code 的權限與安全白話拆解

claude -p 是什麼？跟互動模式差在哪？2026-06-15 計費變動懶人包

AI 做影片從 0 到 1 條龍：1.9K 讚 Threads 討論串裡網友的真實工作流