電子医療記録 (EHR) には、新しい広報マネージャーが必要です。10 年前、米国政府は、医療の改善と合理化を目的として、電子医療記録の採用を強く奨励する法律を可決しました。これらの現在デジタル化された記録の膨大な量の情報を使用して、臨床試験の範囲を超えた非常に具体的な質問に答えることができます。この身長と体重の患者に対するこの薬の適切な投与量はどれくらいですか? 特定のゲノムプロファイルを持つ患者についてはどうですか?
理想的なシステムは、多くの種類の情報を抽出し、複数の病院でうまく機能し、少量のラベル付きデータから学習できる単一のモデルを使用するものです。しかし、どのように?電気工学とコンピューター サイエンスの PhD 候補であるモニカ アグラワルが率いる MIT のコンピューター サイエンスと人工知能研究所 (CSAIL) の研究者は、データを解きほぐすには、より大きな何か、つまり大規模な言語モデルを呼び出す必要があると考えていました。その重要な医療情報を引き出すために、彼らは非常に大きな GPT-3 スタイルのモデルを使用して、過負荷の専門用語や頭字語を拡張し、投薬計画を抽出するなどのタスクを実行しました。
たとえば、システムは入力(この場合は臨床メモ)を受け取り、「この略語を展開して、CTA」など、メモに関する質問でモデルを「促します」。システムは、CT 血管造影とは対照的に、「聴診にクリア」などの出力を返します。チームによると、このクリーンなデータを抽出する目的は、最終的にはよりパーソナライズされた臨床上の推奨事項を可能にすることです。
当然のことながら、医療データは自由にナビゲートするのが非常に難しいリソースです。データ使用制限のために、大規模モデルのパフォーマンスをテストするために公共リソースを使用することに関しては多くの官僚主義が存在するため、チームは独自のものをかき集めることにしました。彼らは、公開されている一連の短い臨床スニペットを使用して、小さなデータセットをまとめ、大規模な言語モデルの抽出パフォーマンスを評価できるようにしました。
「すべての人のニーズを解決し、健康データセット全体で見られる膨大な変動に対して堅牢な単一の汎用臨床自然言語処理システムを開発することは困難です。その結果、今日に至るまで、ほとんどの臨床記録は下流の分析や電子カルテのライブ意思決定支援には使用されていません。これらの大規模な言語モデルのアプローチは、臨床の自然言語処理を潜在的に変革する可能性があります」と、マサチューセッツ工科大学の電気工学およびコンピューター サイエンスの教授であり、CSAIL および医療工学科学研究所の主任研究者であり、研究に関する論文の監督著者でもある David Sontag は述べています。これは、自然言語処理における経験的方法に関する会議で発表されます。「ゼロショット臨床情報抽出における研究チームの進歩により、スケーリングが可能になります。何百もの異なるユース ケースがある場合でも、問題はありません。特定のタスクのために大量のデータにラベルを付けるのではなく、数分の作業で各モデルを構築できます。」