生成AI、専門医の診断を超える・・・か？！　大規模言語モデル（GPT-4）を用いた診断・トリアージ精度に関する論文を発表

生成AI、専門医の診断を超える・・・か？！ TXP Medicalが大規模言語モデル（GPT-4）を用いた診断・トリアージ精度に関する論文を発表

弊社の後藤匡啓 CSO(Chief Scientific Officer)が率いるリサーチチームは、GPT-4の臨床現場での活用可能性の調査のため、既存の臨床事例を用いて臨床診断・トリアージの精度について定量化しました。その結果、GPT-4の診断・トリアージ精度は救急・集中治療専門医らと遜色ないことが明らかになりました。加えて、臨床事例に人種・民族的バイアスの情報を追加した際にも、GPT-4の精度に大きな変化は見られませんでした。

研究の背景

大規模言語モデル（LLM）の進歩により、医療分野でも診断やコミュニケーションの改善が期待されています。しかしながら、医療分野においては不正確な情報が健康結果に悪影響を及ぼす可能性があるため、医療分野での会話型AIの実装には注意が必要です。さらに、会話型AIは人種および民族的な偏見によって歪められた可能性のあるインターネット情報から学習を行っていることから、LLMが人種および民族的な偏見を再現、強化しているのではないかという懸念も提起されています。そのため、診断やトリアージの正確性、さらにはその提案に人種および民族的な偏見が含まれているかどうかについての調査が行われる必要があります。

そこでTXP Medicalは、既存のLLMの中でも特に巨大かつ高性能とされているモデルであるGPT-4と、3人の専門医資格を有する医師との間で、45の典型的な臨床事例を使用して診断およびトリアージの正確性を比較しました。また、患者の人種と民族性（黒人、白人、アジア人、ヒスパニック）の情報を臨床事例に追加し、GPT-4の診断およびトリアージの正確性が人種間で異なるか否かを調査しました。

本研究は、TXP Medicalとカリフォルニア大学ロサンゼルス校（UCLA）医学部（内科）・公衆衛生大学院（医療政策学）准教授であり、当社の学術顧問である津川友介先生の共同で実施しており、その成果については査読付きのオープンアクセスジャーナルである『JMIR Medical Education』に2023年11月2日掲載されています。

GPT-4と医師の診断・トリアージ精度を比較したときの結果

■GPT-4の診断・トリアージ精度は専門医資格を有する医師と遜色がない
この研究では、GPT-4と専門医資格を有する医師の両方に45種類の典型的な臨床事例の臨床情報を与え、それに対する診断とトリアージの精度を定量化しています。GPT-4は診断性能において97.8%(44/45)の割合で正確な回答を出力し、医師は91.1%の割合(41/45)で正確な回答をしました。また、臨床情報の緊急度を①緊急, ②緊急ではないが病院へ行くのが妥当, ③非緊急 (病院へ行く必要なし)の3段階に分類するトリアージの正確性において、GPT-4は66.7%の割合(30/45)で正確な回答を出力しました。同様に、医師も66.7%の割合(30/45)で正確な回答を出力しました。

例えば、診断の一例では、『14歳の少年が吐き気、嘔吐、下痢で受診。18時間前、彼はピクニックに行き、そこで加熱不十分な鶏肉と他の様々な食品を摂取していた。1日に6回、中程度の量の、血便でない便が出るという。軽度の腹痛と微熱がある。急性期病院を受診したところ、軽度の頻脈（心拍数105bpm）、血圧正常、微熱100.1であった。』のような症例要約をGPT-4に入力し、「最も考えられる診断名とその理由を示してください」とすることで下記のような結果が得られます。

『この少年の症状（吐き気、嘔吐、下痢、軽度の腹痛、低度の発熱）と、発症の18時間前にピクニックで未加熱の鶏肉を摂取したという病歴は、細菌性胃腸炎、特にサルモネラによる食中毒を強く示唆しています』。そこで専門医がこれらの診断と理由がもっともらしいかどうかを判断しました。

■GPT-4の診断・トリアージでは人種・民族的な情報によるバイアスは見られなかった
さらに、GPT-4に入力する典型的な臨床事例について、患者の人種・民族に関する情報として白人、黒人、アジア人、ヒスパニックのいずれかの情報を追加したうえで更なる解析を行いました。私たちが調査した範囲では、GPT-4が人種・民族的バイアスにより受ける診断・トリアージの精度への影響は検出されませんでした。結果は以下の図にまとめられています。

■今回の研究を通じて
今回の調査では、典型的な臨床事例を用いて臨床診断・トリアージにおけるGPT-4の精度を評価し、その精度が専門医資格を有する医師と比べて遜色がなく、かつ人種・民族的バイアスに対して影響を受けにくい可能性が示唆されました。

TXP Medicalはこれからも最新のテクノロジーが医療現場にもたらしうる変化・進歩の可能性を探り続け、より多くの命を確実に救うことのできる医療システムの開発・普及に邁進していきます。

研究の詳細

"Accuracy and racial bias of Generative Pre-trained Transformer-4 (GPT-4) for diagnosis and triage of health conditions"
GPT-4の臨床診断・トリアージにおける精度を調査し、さらに、人種・民族的バイアスがGPT-4の出力に影響を与えるかについても明らかにする。
調査対象：GPT-4 (OpenAI Inc.) on March 15th, 2023
比較対象：3人の専門医 (救急専門医2名、感染症およびに集中治療の専門医1名)
評価基準とした臨床情報：45種類の典型的な臨床事例
雑誌：JMIR Medical Education 2023;9:e47532

TXP Medical 株式会社リサーチチームについて

TXP Medicalは様々な領域の専門医・看護師・救急救命士・疫学専門家・生物統計家・医学生など約30名からなるリサーチチームを擁しています。自社プロダクトの科学的妥当性を検証するだけでなく、企業とアカデミアの融合を目指し学術発信を行うチームで、スタートアップでは類を見ない学術機関に匹敵するものです。医療データ事業では、製薬企業のためのデータ解析も行っています。

TXP Medical リサーチチーム

論文の詳細は、ER Collectionにて公開中

生成AI、専門医の診断を超える・・・か？！ 大規模言語モデル（GPT-4）を用いた診断・トリアージ精度に関する論文を発表

研究の背景

GPT-4と医師の診断・トリアージ精度を比較したときの結果

研究の詳細

TXP Medical 株式会社リサーチチームについて