AutoAgent：AI同士の対話で自律進化するエージェント開発

🚀

AutoAgent：AI自身がAIを進化させるOSSフレームワーク

96.5% SpreadsheetBench
世界1位

55.1% TerminalBench
GPT-5相当トップ

0 人間の手動調整
「What」だけ定義すればOK

1晩進化完了
数千回のテストを並列実行

😮‍💨

第1章：絶望の泥沼「ハーネス・エンジニアリング」

🔧 終わらないプロンプト調整の地獄

あるPMとエンジニアのチームが「請求書の自動処理」「ログからの障害原因特定」のAIエージェントを開発。しかしエージェントが想定外エラーで停止するたびに、プロンプト微調整→ツール追加→ログ解析→手動修正という「泥臭い試行錯誤」に追われる日々。

この作業を「ハーネス・エンジニアリング」と呼びます。人間の直感と職人技に依存し、数百のワークフローを手動調整することはスケール不可能——致命的なボトルネックでした。

✨

第2章：発想の転換 — 「How」から「What」へ

💡 AutoAgentとの出会い

Kevin Gu氏が公開したOSSフレームワーク「AutoAgent」。人間が手作業で繰り返していた「プロンプト調整→ツール組み合わせ→テスト→修正」の全ループをAI自身が自動で回す仕組み。

チームは発想を転換した。AIに「どう解決するか（How）」をコードで教えるのをやめ、「何をもって正解とするか（What）」という評価タスク（Harbor形式ベンチマーク）と、成長の設計図program.mdだけを用意した。

          📜 program.md = 成長の設計図: AIに「How（やり方）」ではなく「What（何が正解か）」だけを定義。手動のプロンプト調整を完全に排除し、AI自身が最適解を発見するパラダイムへ。
        

🌙

第3章：誰もいない夜のオフィスで起きる「AI同士の対話」

🤖⇄🤖 コーチ役 × 選手役の自律進化ループ

Dockerサンドボックス内で、2つのAIが自律的な自己進化ループを回し始めました。

🏆 コーチ役（メタエージェント）

program.mdに従い、選手の実装コードagent.pyを直接書き換え。失敗トレースから「なぜ失敗したか」を診断し修正案を導出

⇄

🏃 選手役（タスクエージェント）

実際のタスクに挑戦し、成功・失敗の思考痕跡をコーチに報告。修正されたコードで再挑戦を繰り返す

          🧠 Model Empathy（モデル共感）: コーチと選手に同じAIモデル（例：Claude同士）を採用。人間には理解できない「AI特有の思考の癖」を直感レベルで理解し、人間がプロンプトをいじるよりも遥かに的確で素早い修正を実現。
        

✨

第4章：人間の想像を超えた「創発行動」

💥 一晩で世界1位を叩き出した驚異

翌朝、チームが結果を確認すると驚くべき光景が。AIは人間が指示していないのに、自己検証ループの挿入、ユニットテストの自己作成、プログレッシブ開示戦略を自発的に生み出す「創発行動（Emergent Behaviors）」を見せていた。

🔄

自己検証ループ

Emergent

ミスを防ぐために、自分の出力を自分でチェックする検証ステップを自発的に挿入

🧪

ユニットテスト自動生成

Emergent

自分の動作をテストするコードを自ら書き足し、品質を自律的に保証

📂

プログレッシブ開示

Emergent

長すぎる情報をファイルに退避させ、必要な時だけ読み込む高度な戦略を自発的に発明

          🏆 驚異のベンチマーク結果: SpreadsheetBench 96.5%（世界1位） / TerminalBench 55.1%（GPT-5相当トップ） — 人間が数週間かけた記録を一晩で凌駕。山登り法（Hill-climbing）で数千回の並列テストを実行し、スコアが上がった変更のみを残す。