🆕 目玉の新プロダクト「Claude Design」(研究プレビュー)
✨ テキストからUIを生成・微調整 → Claude Codeへ即実装
Opus 4.7の強力なビジョン能力を駆動エンジンとし、自然言語の指示だけでWebプロトタイプ、プレゼンスライド、1ページャーなどを即座に生成できる新ツール。非デザイナーのPMでもアイデアを数分で動くプロトタイプへ。
✨ その他の新機能・新要素
Claude Code /ultrareview
ブランチ全体や変更差分を読み込み、並列マルチエージェントでクラウド上で包括的レビュー。バグ・設計問題をプロのレビュアーレベルで指摘。
Autoモード(Max限定)
途中の承認プロンプトをスキップして長時間自律実行。Maxプランユーザー向けに正式解放。リポジトリ横断の大規模作業に最適。
推論レベル xhigh
highとmaxの中間に新設。コーディングやエージェント用途での利用が推奨。深さとレイテンシのバランスを細かく制御。
Task budgets
全体のトークン消費「目安(予算)」をモデル自身に意識させ、自律的にペース配分。エージェントループの暴走とコスト爆発を予防。
Cyber Verification Program
Mythos Preview由来の強力なサイバー能力にセーフガード。正当な脆弱性調査・ペネトレーションテスト専門家向けに機能をアンロックする認証プログラム。
データレジデンシー(inference_geo)
推論地域を指定可能に。US/EU等のコンプライアンス要件に対応し、エンタープライズ/公共機関での導入障壁を大幅に低減。
⬆️ 性能改善 — 自己検証と高解像度ビジョン
自己検証能力
出力を報告する前に自ら検証方法を考案し、論理的欠陥を検知・修正。就寝中に任せきれる粘り強さ
高解像度ビジョン
3倍以上に拡張。金融ダッシュボード、化学構造式、システム図をピクセル単位で正確に読み取り
指示追従の厳密化
「よしなに」推測を排除。指示にないことは勝手に実行しない規律。プロンプト再調整を推奨
📊 主要ベンチマーク比較(Opus 4.7 vs 4.6 vs GPT-5.4)
| カテゴリ | Opus 4.7 | Opus 4.6 | GPT-5.4 | 変化 |
|---|---|---|---|---|
| Agentic coding(SWE-bench Pro) | 64.3% | 53.4% | 57.7% | ⬆️ +10.9pt |
| Visual reasoning(XBOW) | 98.5% | 54.5% | — | ⬆️ +44.0pt |
| Visual acuity(XBOW) | 82.1% | 75.1% | — | ⬆️ +7.0pt |
| Multidisciplinary reasoning | 46.9% | 40.0% | 43.9% | ⬆️ +6.9pt |
| BigLaw Bench(法務) | 90.9% | — | — | 🏆 新記録 |
🎯 ユースケース — 実用レベルに到達した4つの領域
長手数の自律型コーディング
リポジトリ横断のリファクタリング、複雑なバグ調査、CI/CD自律構築。自己検証でAIに任せきり、人間の監視不要。
Agentic coding CI/CDDesign to Code完全自動化
Claude DesignでUI生成 → TweaksでGlow・余白調整 → Claude CodeでTailwind/Reactとして実装。PMでも数分でプロトタイプ。
Claude Design Tailwind高精細画像・図面解析
解像度3倍で化学構造式・システム図・金融ダッシュボードをピクセル単位読み取り。Computer Use(PC自動操作)の精度も向上。
Vision Computer Use医療・金融・法務(エンタープライズ)
HIPAA/ICD-10対応、MS Office/S&P Global/FactSet MCPコネクタ。BigLaw Bench 90.9%で契約条項の厳密な読み分け。
HIPAA MCP BigLaw 90.9%🚨 移行に関する重要事項(Migration Check)
⛔ API破壊的変更 — 移行前に必ず対応
- サンプリングパラメータ廃止:
temperature/top_p/top_kをデフォルト以外に指定すると400エラー。挙動はプロンプトで制御 - 思考モード変更:
budget_tokens廃止 →adaptive thinkingに一本化(モデル自動調整) - プレフィル廃止:アシスタントメッセージ書き出し指定が400エラー → Structured Outputsへ移行
- トークン消費増加:新トークナイザーで同入力でも1.0〜1.35倍に増加(価格は$5/$25据え置きだが実質コスト増)
⚠️ 注意:MRCR v2スコア低下 — 用途によってはOpus 4.6を継続検討
超長文脈の単純検索ベンチマーク「MRCR v2」でOpus 4.6からスコア低下。Anthropicは「意図的なノイズで騙す実務と乖離した指標」とし「Graphwalks」(コードベース探索のような実務的推論)への移行を推進。ただし、大量の雑多な文書からの単純検索用途ではOpus 4.6の方が適している場合あり。
1.
temperature/top_p/top_kパラメータを削除2.
budget_tokens → adaptive thinkingへ書き換え3. プレフィル利用箇所をStructured Outputsへ移行
4. トークン消費量を1.35倍で再見積もり、レート制限バッファ確認
5. プロンプトを「曖昧→明示的」に書き換え(literal解釈対応)
6. MRCR型の単純検索用途はOpus 4.6継続を検討
本日のまとめ
Claude Design
テキスト→UI→Tailwind/ReactをAIで完全自動化
自己検証 +10.9pt
SWE-bench Pro 53.4%→64.3%、就寝中AIに任せきり
3倍ビジョン
2,576px、XBOW視覚98.5%でCompute Useも進化
API破壊的変更
temperature/prefill廃止、トークン1.35倍、MRCR低下