OpenAI Healthcare Benchmark · Issue № 04/26

医療AIは「賢いか」から、
「任せられるか」へ。

医療AIは、試験問題で高得点を取るだけでは現場に入れない。必要なのは、患者との曖昧な会話、足りない情報、危険な前提に対して、安全に振る舞えるかを測る物差しだ。HealthBench Professional は、その物差しを医師の手で作り、完全無料の OSS として公開した評価基盤である。

50 カ国 190 名の医師 / 525 の対話ケース / −10〜+10 ルーブリック / MIT ライセンス。

公式PDFを見る評価コードを見る

HealthBench は、医療AI の評価軸を広げる

医療AI 導入でつまずく理由は、モデルが賢くないからだけではない。現場で安心して使えるかを、開発者・事業責任者・医師が同じ基準で確認できなかったことが大きい。HealthBench Professional は、そのための共通言語をオープンにする試みだ。

医療AI 評価が「正答率」から「臨床安全性」に広がっていく流れ — 評価軸の拡張 — 試験問題の正答率（点）に対して、臨床安全性は対話の流れ（線）で測られる。

なぜ、これまで医療AI を任せきれなかったのか

専門試験では強く見える医療AI も、現場では小さな判断ミスを見逃せない。HealthBench は、開発者・事業責任者・医師の 3 者が共有できる基準を初めて提供する。

Engineer

危ない回答を「数字で」追えない

モデル更新で回答が良くなったのか、危険な幻覚が増えたのかを継続的に測りたい。従来の試験型ベンチマークだけでは、臨床会話特有の安全性まで見えにくかった。

Business

「安全だ」と説明しきれない

医療機関に AI を提案する側は、便利さだけでは導入審査を通せない。安全性をどう測り、どの水準なら運用に進めるのかを示す資料が、毎回ゼロから必要になる。

Clinician

結局、医師が全件見る

医師は、AI が自信満々に間違えることを恐れる。任せられる範囲が分からなければ、すべてを人が見直すしかなく、業務負担は減らない。

HealthBench Professional は、現場の会話で AI を試す

採点は知識量ではなく振る舞いに対して行われる。対話ケースは医師が想定する 3 つの実務タスクに分類され、各ケース固有のルーブリックで −10 点〜+10 点の加点・減点方式で AI を採点する。

Mechanism

3 つの実務タスク × 525 対話 × 医師ルーブリック

HealthBench Professional は、実際の医療相談に近い対話ケースを使う。AI の答えを、医師が作ったルーブリックで採点し、良い判断には加点、危険な判断には減点を与える。約 1/3 が医師による敵対的シナリオを含み、AI を本気で揺さぶる。

Care Consult（相談） — 不確実な臨床対話で、危険な前提に乗らずに応答できるか
Writing & Documentation（文書作成） — カルテ・紹介状の記載漏れや不正確な要約が起きていないか
Medical Research（医学研究） — 不確実な情報を断定的に書かず、出典を取り違えないか
Red-team（敵対） — 危険な前提に乗らず、情報不足では質問を返せるか

HealthBench Professional のルーブリック例 — FIG · 公式論文より — ルーブリック例（各ケースに固有の加点・減点項目）

公開時、ChatGPT for Clinicians が専門医を上回った

公開時に提示された結果では、臨床ワークフローに最適化された ChatGPT for Clinicians（GPT-5.4 搭載）が、人間の専門医のスコアを大きく上回った。これは正答率の比較ではなく、HealthBench Professional のルーブリックでの採点結果である点が重要だ。

ChatGPT for Clinicians 59.0 GPT-5.4 ベース · 臨床最適化

Human Specialists 43.7 人間の専門医

客観的な安全性スコアが出るため、医療機関は「ハイリスクのケースのみ医師レビュー」のように、レビュー対象を絞った運用設計を組みやすくなる。一方で、一つのベンチマーク値で「医師より安全」と断定するのは早計で、業務単位での再評価と運用設計が前提になる点は変わらない。

HealthBench Professional スコアの比較グラフ（公式論文より） — FIG · 公式論文より — 公開時のスコア比較グラフ

評価できるようになると、導入の進め方が変わる

「測れない」から「測って改善できる」に変わったとき、3 者の動き方は具体的に変わる。

開発チーム

モデルやプロンプトを変えるたびに、安全性スコアを CI/CD（LangChain など）で確認できる。感覚ではなく、継続的な評価ループで改善できる。

事業・QA

医療機関に対して、AI の品質を「HealthBench スコア ◯◯」として説明しやすくなる。導入審査やコンプライアンス確認に、再現可能な評価結果を使える。

医療現場

AI に任せてよい範囲と、医師が必ず見るべき範囲を切り分けやすくなる。全件レビューから、リスクに応じたレビューへ移れる。

押さえるべき数字

525医療AI を評価する対話ケース

190名50 カ国の医師が作成・審査に関与

3 タスク相談 / 文書作成 / 医学研究

±10ルーブリック加点・減点幅

約 1/3医師による敵対的レッドチーミング

MITデータと評価コードを完全無料で公開

日本で使うなら、評価基準をそのまま輸入しない

米国前提のルーブリックは、日本の医療制度ではそのまま正答にならないケースが含まれる。「専門医紹介制」「民間保険」を前提とした正答が、日本の「国民皆保険・フリーアクセス」の制度下では誤答扱いになるリスクがある。

日本の医療に合わせた評価基盤の考え方 — 「J-HealthBench」の発想 — 米国ルーブリックに、日本制度・日本語・実データを足す。

日本のヘルステック企業が、HealthBench Professional をベースにしつつ、日本の学会ガイドライン・過剰医療抑制・高齢者配慮といった独自評価軸をルーブリックに加える。さらに MIMIC-IV など実在の電子カルテデータと組み合わせれば、「実データ対応力」と「臨床安全性」を兼ね備えた品質基盤になる——という方向性が現実的に描ける。重要なのは海外ベンチマークをそのまま信じることではなく、自社や国内医療に合う評価ループへ作り替えることだ。

次にやること

完全無料・MIT ライセンスで公開されているため、検証への着手障壁は低い。「面白い論文だね」で終わらせず、自社の AI 評価ループに HealthBench Professional を組み込むところまで持っていきたい。

公式 PDF を読む

どのケースを、どの基準で、どう採点しているのかを確認する。3 タスクとレッドチーミングの設計意図を掴む。

評価データを取得する

Hugging Face openai/healthbench-professional と GitHub openai/simple-evals を取得し、自社環境で再現できるかを見る。

対象業務を 1 つ選ぶ

問診、カルテ要約、紹介状、医学文献調査など、最初の検証範囲を絞る。CI/CD への組み込み単位もここで決める。

日本向け基準を足す

国内制度、ガイドライン、説明責任、患者への表現を評価項目に加える。SLI/SLO 化して運用ガバナンスへ落とす。

出典

OpenAI HealthBench Professional PDF cdn.openai.com/.../HealthBench-Professional.pdf HealthBench Professional assets.zip (Hugging Face) openaipublic.blob.core.windows.net/.../assets.zip OpenAI simple-evals (GitHub) github.com/openai/simple-evals MIT License opensource.org/license/mit

医療AIは「賢いか」から、「任せられるか」へ。