CUA / CuaBot · OSS Agent Infrastructure · Issue № 04/27

AIに、PCを貸すな。
AI専用の机を、隣に置け。

賢くなったAIエージェントを実務に投入するとき、最大の壁は「知能」ではなく身体だ。誰のPCを使う？暴走したら？ベンダーが変わったら？ ——CUA / CuaBot は、その身体問題を OSS で一気に解く。Docker サンドボックスと Xpra による Co-op で、人間とAIが同じデスクトップを邪魔せず共存できる作業環境を提供する。

npx cuabot でサンドボックス起動 / Co-op Computer-Use / MCP 統一 SDK / Trajectory 記録 / Cua-Bench 評価 / Apache-2.0。

公式サイトを見る GitHub を見る

AIに「手足」を貸し出す——というアーキテクチャ

CUA / CuaBot は、ホストPCにAIを直接触らせない。代わりに、Docker コンテナ内に立ち上げた Ubuntu 仮想デスクトップを「AI専用の身体」として差し出し、Xpra でそのウィンドウだけを手元の画面にストリーミングする。AIの操作はすべてサンドボックスの内側で起き、ホストとは隔離される。

CUA / CuaBot のアーキテクチャ全体像 — FIG · CUA は Docker サンドボックス × MCP/SDK × Trajectory 記録の三層で、AIに安全な身体を与える。

Chapter 1 — 開発者「サトシ」が突き当たった、4 つの壁

SaaS企業のサトシは、Claude Code に「APIのない社内システムへのデータ入力」と「ブラウザでのE2Eテスト」を任せたい。しかし AI に PC を触らせようとすると、 4 つの壁 が同時に立ちはだかった。

Pain 01 · Security

暴走の恐怖

ログイン状態のブラウザで意図しない決済をしてしまったら？重要なファイルを誤って削除したら？ AI に自分の PC をそのまま渡すには、責任が重すぎる。

Pain 02 · UX

カーソルとフォーカスの奪い合い

従来の RPA 系では、AI がマウスを動かす間、人間はただ画面を見守るしかない。AI が作業している間、自分は仕事ができない——これでは導入する意味が薄い。

Pain 03 · Lock-in

ベンダーごとの再実装地獄

Claude 専用、OpenAI 専用、自作エージェント専用——PC操作の実装は毎回バラバラ。スクリーンショット取得もクリック制御も、エージェントごとに作り直す。

Pain 04 · Blackbox

失敗の理由が、残らない

AI がエラーを起こしても「なぜそのボタンを押したのか」の軌跡が残らない。改善のためのデータも、強化学習の素材も集まらず、同じ失敗を繰り返す。

AI エージェント実用化の課題マップ — FIG · 公式資料より — AI に PC を渡すと現れる 4 つの障壁

Chapter 2 — 転機:「貸す」のではなく「隣に置く」

CUA / CuaBot のアプローチは、これまでの RPA や Computer Use 系ツールと根本的に違う。AI にサトシのPCを貸さない。代わりに、AI 専用の作業机を隣に用意する。たった一行で、その机が立ち上がる。

Before · 従来型 Host PC AIが人間のPCを直接操作 / カーソル奪取 / 暴走リスク / ベンダーごとに実装

→

After · CUA / CuaBot Sandbox AI専用デスクトップを Docker で隔離 / Co-op で共存 / MCP で統一 / Trajectory で学習

サトシがターミナルに npx cuabot と打ち込むだけで、Ubuntu ベースの仮想デスクトップが立ち上がる。AI のクリックも入力もすべてコンテナの内側で完結し、ホスト PC のファイルにもネットワークにも到達しない。「壊れていい机」を AI に渡すことで、初めて自動化のテストが安心して回せるようになる。

Chapter 3 — 仕組み:「Co-op Computer-Use」という発明

CUA / CuaBot の最大の革新は、マルチプレイヤー機能にある。Xpra でサンドボックス内のウィンドウだけを手元の画面にネイティブ表示し、AI には独立した専用カーソルとキーボードフォーカスを与える。これで人間と AI が、同じデスクトップ体験の上で互いを邪魔せずに作業できる。

Mechanism · Co-op

独立カーソル × 独立フォーカス × ネイティブ表示

サンドボックスのアプリは、まるで自分の PC で動くアプリのように、手元のディスプレイに溶け込む。AI が裏で黙々とブラウザを操作している間、サトシは別ウィンドウで普通にコードを書ける。AI の作業を覗き、必要なら手動で助け舟を出すこともできる、いわば「AI とのペアプロ」だ。

Xpra ベースのウィンドウ・ストリーミング — 仮想デスクトップ全体ではなく、必要なアプリ単位で手元に配信
AI 専用のマウス・キーボードコンテキスト — 人間の入力イベントとは完全分離、奪い合いが起きない
Hand-off 介入 — 必要に応じてサトシが AI のウィンドウをクリックして手動操作に切り替えられる
Apache-2.0 ライセンス — 商用・改変・組み込み可、ベンダーロックインなし

サンドボックス起動とウィンドウ・ストリーミングの仕組み — FIG · 公式資料より — npx cuabot 一行で立ち上がる、AI 専用の仮想デスクトップ

Xpra による単一アプリのウィンドウ・ストリーミング — FIG · 公式資料より — 仮想 OS 全体ではなく、必要なアプリだけが手元のデスクトップに溶け込む

どんな AI でも「同じ手足」で動かせる

サトシは、複雑な作業には Claude Code、オープンな実験には OpenClaw、独自業務には自作エージェントを使い分ける。CUA は、これらすべてに同じ操作インターフェースを提供する。鍵は MCP（Model Context Protocol）と統一 Python SDK だ。

Unified SDK · MCP

「スクリーンショットを撮る」「クリックする」「打ち込む」を共通言語にする

CUA は、画面取得・座標クリック・キーボード入力・スクロール・ウィンドウ操作などのプリミティブを、エージェント非依存の標準 API として公開する。同じスクリプトが、Claude でも OpenAI でも自作モデルでも動く。エージェントを差し替えても、PC操作のコードは作り直さなくていい。

MCP サーバ — Claude Code / Cursor などの MCP 対応クライアントから直接呼び出し
Python SDK — 既存のエージェントフレームワーク（LangChain / 自作）に組み込み可能
OS 横断 — Ubuntu サンドボックス上で動くため、ホスト OS は問わない

Claude / OpenAI / 自作エージェントが同じ CUA を経由して PC を操作する図 — FIG · 公式資料より — CUA は AI とソフトウェアの間に立つ「身体レイヤー」

Chapter 4 — 軌跡を残す:「失敗から学ぶ AI」を作る

AI はタスクに必ず失敗する。問題は、その失敗が分析可能な形で残るかだ。CUA は、AI のすべての行動——スクリーンショット、API 呼び出し、クリック座標、入力テキスト——を Trajectory（軌跡）として自動記録する。これがデバッグと再訓練の燃料になる。

Trajectory × Cua-Bench

失敗ログ → 評価ベンチ → 強化学習データ

記録された Trajectory は、ただの動画ログではない。状態 / 行動 / 報酬がセットで残るため、強化学習や DPO でモデルを再訓練する素材になる。CUA はさらに Cua-Bench という評価基盤を提供し、「社内システムでの操作精度」を継続的に測れるようにしている。

スクリーンショットの時系列 — どの画面で、何を見て判断したか
API 呼び出しのログ — どのツールを、どんな引数で呼んだか
クリック座標・入力テキスト — 物理的に何を触ったか
Cua-Bench でのスコア化 — モデル更新のたびに、操作精度の改善・退行を数値で確認

Cua-Bench による評価ループ — FIG · 公式資料より — Trajectory → Bench → 再訓練の連続ループ

Trajectory データの利用例 — FIG · 公式資料より — 失敗の軌跡が、次のモデルの教材になる

Chapter 5 — エピローグ:「身体」を手に入れた AI ができること

CUA / CuaBot が変えるのは、AI モデルそのものではない。「賢い AI」を「実務で使える AI」へ橋渡しするインフラのレイヤーだ。3 者にとって、何が変わるのかを具体に落とすとこうなる。

開発チーム

新しいエージェントを試すたびに PC 操作層を書き直す必要がなくなる。同じ MCP / SDK のままモデルを差し替え、Trajectory で挙動の変化を測れる。E2E テストや QA の自動化が、実装地獄から解放される。

企業 IT・セキュリティ

ホスト PC や社内ネットワークに直接 AI を触れさせない構成を、OSS でガバナンス可能な形で作れる。サンドボックス内のログがすべて残るため、監査や事故時の追跡にも耐える。クラウド型の Computer Use サービスへの依存も避けられる。

AI モデル開発者

Trajectory が安定して取れる環境は、強化学習や Computer-Use 特化の SFT / DPO にとって貴重な訓練データそのものだ。Cua-Bench を共通スコアとして使えば、モデル間の比較も再現性を持って行える。

押さえるべき構成要素

1 行npx cuabot だけでサンドボックス起動

DockerUbuntu ベースの隔離仮想デスクトップ

Xpra必要なアプリ単位のウィンドウ・ストリーミング

独立カーソル人間と AI の入力フォーカスが衝突しない

MCP + SDKClaude / OpenAI / 自作エージェントを横断

Trajectory画面・API・クリックの完全な行動ログ

Cua-Bench操作精度を再現可能なスコアで継続評価

Apache-2.0商用利用・改変・再配布が可能な OSS

次にやること

CUA / CuaBot は OSS なので、検証コストはほぼゼロだ。クラウド型の Computer Use を待つよりも、自社の AI エージェントに「手足」を一度授けて、何ができないかを見にいく方が早い。

1. サンドボックスを起動する

npx cuabot で立ち上げ、手元のデスクトップに AI 用ウィンドウが現れる挙動をまず体感する。Docker と Xpra の依存だけ確認しておく。

2. MCP / SDK で AI をつなぐ

Claude Code から MCP サーバ経由で接続するか、自作エージェントに Python SDK を組み込む。「スクショを撮る → クリックする」という最小ループを作る。

3. 1 業務を選んで Trajectory を貯める

E2E テスト、社内システムへのデータ入力、定型的なリサーチ——どれか一つに絞って、AI の成功と失敗を Trajectory として残す。

4. Cua-Bench で改善を測る

プロンプトやモデルを変えるたびに、Cua-Bench で操作精度の前後差分をスコア化する。感覚ではなく数字で改善ループを回す。

付録 · 公式資料から

出典

CUA 公式サイト cua.ai trycua/cua (GitHub) github.com/trycua/cua Model Context Protocol modelcontextprotocol.io Apache License 2.0 apache.org/licenses/LICENSE-2.0

AIに、PCを貸すな。AI専用の机を、隣に置け。