データレイク研究開発センター

データレイク研究開発センターの概要

近年の人工知能(AI)技術は数年で大きく進展し、ChatGPT等の生成系AIのサービスが提供され、現代社会の在り方に多大な影響を与えています。大量・多様なデータを学習するAIモデルでは、利用する立場からの分かりやすさ、透明性、安心・安全の担保が求められます。当センターでは、進化するAIモデルとデータを一つの情報基盤として管理し、モデルおよびデータの来歴を明示し、最新のコンテンツ参照が容易なフレームワークを構築します

データレイク情報基盤フレームワークとは

データレイクでは、構造化データ、非構造化データを問わず、多種多様なデータを一元的に参照、利用が可能とし、コンテンツの収集、管理を容易にします。当センターでは、さらに、データから学習されたAIモデルも、コンテンツと同様に管理し、参照可能とします。コンテンツとモデルの一元的管理環境を提供することで、データの利活用とAI技術の研究、開発を共に促進するフレームワークを構築し、我が国に将来の情報基盤として、以下のような機能を実現します。

  • コンテンツの継続的蓄積とコンテンツの来歴管理、ベクトル索引技術の確立
  • モデルの持続的管理とモデルの学習コンテンツ情報、学習過程も含めた来歴情報の管理等モデル運用時に関する先端的技術の提供
  • 大学共同利用機関として、セキュリティ技術に支えられた堅牢なシステムを構築し、産学官における様々な最先端研究分野へ安心・安全な利用環境の提供
  • データ利活用における社会的な課題への対応として、個人情報保護法、著作権法等の法律課題、生命に関連した社会倫理課題を洗い出し、安全、安心な人工知能技術およびコンテンツの利用環境の提供

メンバー

  • 中野 美由紀 センター長
  • 伏見 信也 特任教授
  • 合田 憲人 教授
  • 高倉 弘喜 教授
  • 田村 孝之 特任教授
  • 林 正和 特任研究員
  • 柴山 悦哉 特任教授
  • 吉田 浩 特任教授

医療用LLM/LMMの研究開発を促進する医療データ基盤

我が国では医療分野の研究促進に加え、適正な医療技術の提供等、学術的・社会的に、医療データの共有、生成系AIの利活用が求められています。当センターでは、データレイク情報基盤を具体化し、SIP「統合型ヘルスケアの研究開発」2023年度補正予算により、医療データ基盤の研究開発に着手しています。10ペタ規模の大規模利用データ基盤を実装し、大規模医療LLM/LMMモデル管理機構および医療DBを構築しています。また、医療データも含めた学習用データの系統的収集を行うと共に、医療データの適正利用管理を行います。

医療データに関する告知


2024年度 研究成果

2025年4月30日 SIP第3期「統合型ヘルスケアシステムの構築における生成AIの活用」公開シンポジウム

「テーマ4:医療データ・医療LLM/LMMの利活⽤を促進する医療データ基盤」成果報告
シンポジウムについての情報(外部リンク:国立健康危機管理研究機構(JIHS)のページ)

テーマ4 医療データ基盤の構築と運用手法の検討 ELSI 実務家チーム 報告書

はじめに
第1部 Executive Summary - Society 5.0 に向けた医療生成AIの課題
第2部 ELSI 研究会報告