🏠 TOPに戻る
🤖 2026年4月4日速報 | AutoAgent — AI同士の対話で自律進化するエージェント開発フレームワーク

AutoAgent:「職人」から「設計者」への覚醒

ハーネス・エンジニアリングの泥沼を脱出。AI同士のコーチ×選手ループで一晩でSpreadsheetBench世界1位

2026年4月4日

🚀

AutoAgent:AI自身がAIを進化させるOSSフレームワーク

AutoAgent カバー
96.5% SpreadsheetBench
世界1位
55.1% TerminalBench
GPT-5相当トップ
0 人間の手動調整
「What」だけ定義すればOK
1晩 進化完了
数千回のテストを並列実行
概要スライド
😮‍💨

第1章:絶望の泥沼「ハーネス・エンジニアリング」

🔧 終わらないプロンプト調整の地獄

あるPMとエンジニアのチームが「請求書の自動処理」「ログからの障害原因特定」のAIエージェントを開発。しかしエージェントが想定外エラーで停止するたびに、プロンプト微調整→ツール追加→ログ解析→手動修正という「泥臭い試行錯誤」に追われる日々。

この作業を「ハーネス・エンジニアリング」と呼びます。人間の直感と職人技に依存し、数百のワークフローを手動調整することはスケール不可能——致命的なボトルネックでした。

ハーネスエンジニアリング

第2章:発想の転換 — 「How」から「What」へ

💡 AutoAgentとの出会い

Kevin Gu氏が公開したOSSフレームワーク「AutoAgent」。人間が手作業で繰り返していた「プロンプト調整→ツール組み合わせ→テスト→修正」の全ループをAI自身が自動で回す仕組み。

チームは発想を転換した。AIに「どう解決するか(How)」をコードで教えるのをやめ、「何をもって正解とするか(What)」という評価タスク(Harbor形式ベンチマーク)と、成長の設計図program.mdだけを用意した。
📜 program.md = 成長の設計図: AIに「How(やり方)」ではなく「What(何が正解か)」だけを定義。手動のプロンプト調整を完全に排除し、AI自身が最適解を発見するパラダイムへ。
AutoAgent概要 How→What
🌙

第3章:誰もいない夜のオフィスで起きる「AI同士の対話」

🤖⇄🤖 コーチ役 × 選手役の自律進化ループ

Dockerサンドボックス内で、2つのAIが自律的な自己進化ループを回し始めました。

🏆 コーチ役(メタエージェント)

program.mdに従い、選手の実装コードagent.pyを直接書き換え。失敗トレースから「なぜ失敗したか」を診断し修正案を導出

🏃 選手役(タスクエージェント)

実際のタスクに挑戦し、成功・失敗の思考痕跡をコーチに報告。修正されたコードで再挑戦を繰り返す

🧠 Model Empathy(モデル共感): コーチと選手に同じAIモデル(例:Claude同士)を採用。人間には理解できない「AI特有の思考の癖」を直感レベルで理解し、人間がプロンプトをいじるよりも遥かに的確で素早い修正を実現。
AI同士の対話 Model Empathy

第4章:人間の想像を超えた「創発行動」

💥 一晩で世界1位を叩き出した驚異

翌朝、チームが結果を確認すると驚くべき光景が。AIは人間が指示していないのに、自己検証ループの挿入、ユニットテストの自己作成、プログレッシブ開示戦略を自発的に生み出す「創発行動(Emergent Behaviors)」を見せていた。
🔄

自己検証ループ

Emergent

ミスを防ぐために、自分の出力を自分でチェックする検証ステップを自発的に挿入

🧪

ユニットテスト自動生成

Emergent

自分の動作をテストするコードを自ら書き足し、品質を自律的に保証

📂

プログレッシブ開示

Emergent

長すぎる情報をファイルに退避させ、必要な時だけ読み込む高度な戦略を自発的に発明

🏆 驚異のベンチマーク結果: SpreadsheetBench 96.5%(世界1位) / TerminalBench 55.1%(GPT-5相当トップ) — 人間が数週間かけた記録を一晩で凌駕。山登り法(Hill-climbing)で数千回の並列テストを実行し、スコアが上がった変更のみを残す。
創発行動 ベンチマーク Hill-climbing
🎯

第5章:「職人」から「設計者」への覚醒

🏗️ 人間の役割が進化した

AutoAgentは「終わらない試行錯誤の時間」をAPIの計算リソースに変換し、AI開発の最大のボトルネックを完全に破壊

エンジニアの手動試行錯誤はゼロに。PMは専門知識なしで「業務の目標と評価基準」を定義するだけで、翌朝には高精度AIを獲得。私たちはプロンプトを泥臭く書き直す「職人」から、AIが自律的に育つための「問い」と「評価指標」を設計する「建築家(設計者)」へ完全シフトした。
もはや「プロンプトを書き直す職人」ではない。
AIが自律的に育つための「問い」と「Eval」を設計する
「建築家(設計者)」へ進化した
— AutoAgent and the Dawn of Autonomous AI, 2026
エピローグ
スライド 11
スライド 12
📊

まとめ:AutoAgentが拓く「自律AI開発」の時代

📜

What定義のみ

program.md+評価タスクだけ。Howは不要。

🤖

AI同士の対話

コーチ×選手のModel Empathyで自律進化。

創発行動

自己検証・テスト自動生成を自発的に発明。

🏗️

設計者への進化

職人→建築家。問いとEvalを設計する時代。

🔗

参考リンク