知能行動情報学研究室

知能行動情報学研究室は、医療情報をテーマとし、病院情報システム、および、実世界のセンシングデータをもとに、医療従事者の行動理解、支援、行動変容を研究していきます。

自然言語解析

電子カルテは、医師が自分の診断・計画を書き出していくために、文章の形になっており、病名やその判断理由は全て文章の中に埋め込まれています。これはカルテ利用においては十分な形式ですが、統計解析や、大規模なデータを用いた自然言語解析においては構造化されたデータこそが必要です。自然言語解析プロジェクトでは、電子カルテ文章の解析技術の開発を進めていきます。

深層学習を用いた要約技術

PEGASUS (Pre-training with Extracted Gap Sentences for Abstractive Summarization)は、Google Researchが開発した自動要約のための深層学習のフレームワークです。元々の論文は "PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models" として2020年に発表されました。

PEGASUSは、Transformerベースのモデルで、テキストを要約するために訓練されています。これは、原文から最も重要と考えられる部分(文)を選び出し、それらを抜き出した('gap-sentences'と称する)状態から元のテキストを再構築することによって行われます。このプロセスは、自己教師あり学習による事前訓練フェーズで行われ、その後具体的な要約タスクについての微調整が行われます。

医療文章の要約において、PEGASUSは特に有効と考えられます。医療分野では、研究論文や診療記録など、大量のテキストデータを要約し、医師や医療従事者が迅速に情報を把握することが重要です。PEGASUSは、そのような大量のテキスト情報を短い要約に変換することで、医療従事者が必要とする情報を効率的に把握できるよう支援します。

ただし、医療分野のテキストには、特有の専門用語や略語といった固有表現が多く含まれているため、モデルがこれらを正しく理解し適切な要約を生成するためには、医療分野のテキストに対する事前訓練と微調整が必要です。本研究室では、このような一般自然言語解析で開発されたモデルの医療適用を目指します。

提携

本研究プロジェクトは以下の科研費の元、実施されています。

  • 放射線診断学の画像とレポートを用いた深層学習の応用

    日本学術振興会 科学研究費助成事業 基盤研究(C) 基盤研究(C) 2022年4月 - 2025年3月

    西尾 瑞穂, 藤本 晃司, 杉山 治, 倉田 靖桐