「ROIS-DS-JOINT 2023」成果報告一覧表

「ROIS-DS-JOINT 2023」成果報告一覧表

一般共同研究

001RP2023 吉野 諒三 (同志社大学)
意識の国際比較研究のためのオープンデータサイエンスの促進

本研究では、統計数理研究所を中心に過去40年ほどにわたり収集してきた「意識の国際比較」データの一般公開促進とデータ解析の促進を通じて、人文社会科学のオープンデータサイエンスを展開する。本計画では統計的に信頼性の高い調査データ群を公開すると同時に、単なる回答分布数字の大小比較に出すことなく、各国固有の標本抽出調査や、各国の文化や歴意を背景とした言語の差違(質問文の表現)などを念頭に、統計数理研究所を中心に過去半世紀以上に渡り蓄積してきた「国際比較可能性」についての深い知見を国内外に啓蒙すべく、共同研究を展開する。これにより、官民学の社会調査研究者・利用者にデータ活用の利便を供与し、また活用における法律・倫理等の啓蒙をも図り、結果として、一方で実証的調査データに基づく学術研究の発展と、他方で実証的証拠に基づく政策立案の促進につながることが期待される。
 2023年度は、「意識の国際比較」データの中で、「アジア太平洋価値観国際比較調査(APVS- 010-2014)」、「環太平洋価値国際比較(PRVS) 2004-2009」、「東アジア価値観国際比較(EAVS 2002-2004)」について、まず詳細集計表の整備と一般公開を進めた、さらに、個票レベルのデータ公開の手続き(申請、審査、許可,公開)を定め、データの公開範囲について個人情報や適切な社会調査データの取り扱いへの配慮をしながら、学生教育用を含めた一般公開データと専門家向けのデータ公開の区別を考慮した。

002RP2023 鄭 躍軍 (同志社大学)
Web調査による社会データ収集のバイアスの実験的検証

本研究の目的は、登録モニター型Web調査を焦点に、1)Web調査の特徴の論理的整理;2)他の調査モードとの対比によるWeb調査の各種バイアスの検証;3)Web調査における回答結果の信憑性の影響要因の特定などの研究取組を遂行することで、Web調査を用いた社会データ収集の固有のバイアスの影響検証と回避方法を模索することにある。
 第一に、Web調査の欠点を回避する方法を発見し、Web調査を信頼できるデータ収集方法に発展させるための新たな学術的な探索がデータサイエンスの「情報収集」方法の発展に大いに寄与することが期待できる。第二に、Web調査の欠点を回避するための手がかりを実証的に発見するという、発想のもとでWeb調査の有効活用を妨げるバイアス問題の解決に不可欠な情報を提供する点では、質の高い社会調査データの蓄積にデータ駆動型研究の意義がある。第三に、本研究の成果及び一連の調査データの公開を遂行することにより、Web調査法の標準化を図るための具体的なヒントを与えることができる。
 2023年度は、 2022年度に実施した3つの登録モニター型Web調査データの分析を進めた上で、大学生を対象とした価値観Web調査、生活と環境に関する意識Web調査を新たに遂行することで、標本抽出の仕組み、トラップ質問導入の効果及び不良回答検出方法などを中心に研究を推進した。一連の成果は学術論文、研究発表などの形式で公表されている。
 また、共同研究者とともに、全国範囲の生活意識郵送調査をも実施し、約500人分のデータを回収した。今後、比較分析を進め、Web版と紙筆版による実験調査の特徴を抽出する予定である。

003RP2023 藤 浩明 (京都大学)
機械学習による地磁気永年変化推定

 現在の地球主磁場の時間一階微分で表される狭義の「地磁気永年変化」は,磁気異常の定義や宇宙天気予報の基礎となる地球主磁場基線値の将来予測に重要な役割を果たす。本研究では,五年内外の地磁気永年変化短期予測に機械学習法がどの程度有効か,という問題を解くために,ニューラルネットワークの一つであるEcho tate Network (ESN)を地磁気永年変化予測に応用し,1840年以降の内部ガウス係数を与えるCOV-OBS.x2モデル(Huder et l., 2020)を教師データとして地磁気永年変化の再予報を2006年から2015年に対して行なった。
 その結果,以下の三つの成果が得られた:
① ESNは,地磁気永年変化の短期予測に対しても有効であった。地磁気ダイナモの数値シミュレーションに基づくデータ同化法(Minami et l., 021)と比べても,精度的に優るとも劣らないことに加え,予測の過程で扱わなければならない状態ベクトルの自由度を,地球主磁場の球面調和関数展開に必要なガウス係数の個数程度(13次だと約200)まで減らすことができた。
② 教師データとして1840年〜2005年にわたるCOV-OBS.x2モデルを使用した所,ESNは長い教師データを要しないことが明らかになった。これは,ESNの定義とも言える”Echo tate roperty”が,そもそも長期記憶を前提としないという特性を持っていることと矛盾しない。むしろ,長い教師データを使用した再予報の方が若干予測精度が悪くなるという結果が得られた。
③ また,予測誤差の次数依存性について調べてみると,全体の傾向として時間が経過するにつれて予測誤差が増大するのは当然であるが,高次の内部ガウス係数ほど増大の仕方が鈍ることも分かった。これは,高次(短波長)の主磁場分布ほど短いタイムスケールで変動する(Hulot nd Le Mouël, 1994)という経験則と良い一致を示す。
ただし,機械学習を地磁気永年変化予測に応用することにした際の期待の一つであった「地磁気ジャークの再現」は,ESNを以ってしても実現するに至らなかった。今後は,観測された「顕著な地磁気ジャーク発生年」に焦点を当てた再予報により,地磁気ジャークの再現とその物理過程の解明が課題となる。

004RP2023 高田 豊行 (理化学研究所)
疾患モデルマウス系統のゲノムアセンブル情報高度化とゲノムアノテーション

 本申請研究の目的は、5種類のマウス疾患モデル系統より得られた長鎖ゲノム解析結果を用いて、ROIS-DSゲノムデータ解析支援センターの高度な解析技術を活用した共同研究により、各系統の高品質な染色体レベルのゲノム配列とゲノム多型情報を得ることである。また、染色体レベルのゲノム配列研究に有用な情報解析環境の構築、ゲノム解析用アルゴリズムの適切選択、さらにはゲノム多型検出手法の最適化など、マウスのゲノム解析全般におけるデータサイエンス研究の推進にも貢献する。
 今年度は、昨年度のROIS-DS-JOINTにより対象のマウス系統5種類の全ゲノムレベルのスキャホールド配列情報を使用して、新たな情報解析を行い、各系統のスキャホールド情報を20種類のマウス染色体(常染色体1-19およびX)に対応させ、参照配列と染色体レベルで比較可能な新たな配列を構築することに成功した。次に、表記疾患モデルマウス系統の疾患や表現型に関わるゲノム基盤情報の整備を行うため、全ゲノムを対象にしたゲノム多型の検出を行い、これまで解析が困難であった構造多型、および多重遺伝子族の遺伝子やコピー数多型領域などにも解析対象を拡張して新規のゲノム多型を検出することができ、高品質で新しいゲノム情報基盤を整備することができた。これらの結果の一部については、国際学会(The llied Genetics Conference, Washington DC, 2024/3/6-10)などで報告した。

005RP2023 関 宰 (北海道大学)
機械学習を用いた南極域の気温・水温復元手法の開発と高精度化

南大洋は全球気候変動や炭素循環を駆動する海域として全球気候変動を駆動する重要なプレーヤーとみなされている。過去の気候変動に伴うこの海域の古海洋変動を知ることは、気候システムのメカニズムの理解と将来予測の向上において不可欠である。しかしながら、南大洋高緯度域に適用可能な信頼性の高い水温の復元手法が開発されていないため、古環境研究の発展が低中緯度地域に比べて立ち遅れている。
そのような背景の中、近年、海底堆積物中の6種のテトラエーテル化合物(GDGT)組成の機械学習に基づく水温の復元手法(通称OPTiMAL: ones et al., 020)が提案され、注目を集めている。この手法は南大洋高緯度域にも適用可能であるが、南大洋高緯度域における教師データ不足のため、現状では南大洋高緯度域の水温復元精度は低いという問題を抱えている。
そこで本研究では、堆積物中の6種のGDGT組成の機械学習に基づく過去の温度復元手法をさらに発展・高精度化し、南極における信頼性の高い過去の温度の復元手法を確立することを目的に、新たな教師データの収集・生成と検証を行った。そして、より充実化された教師データに基づき、南大洋堆積物コアのGDGTデータから過去の水温の復元を行い、教師データの追加により水温復元の精度がどの程度向上したのかを検証した。
教師データ数が不足している南大洋高緯度域における表層堆積物のGDGT組成の新たな報告を徹底的に調査し、新たに100サンプルの教師データ収集することができた。新データを追加した教師データに基づき、スコシア海で採取された堆積物コア(U1537およびU1538)のGDGT組成データにOPTiMAL法を適用し、過去80万年間の水温変動を復元した。その結果、南大洋の教師データを追加した場合は、追加しなかった場合に比べて水温の推定が1.5度ほど低い値を示し、現実の水温により近づく結果となった。この結果は、研究対象海域における教師データの拡充がOPTiMAL法による水温復元の精度を高める上で重要であることを示唆する。引き続き教師データの拡充を行うことで、OPTiMAL法の精度はさらに高まると考えられる。今後も引き続き新たな教師データを収集・生成していく予定である。

006RP2023 井本 桂右 (同志社大学)
マルチメディア時空間データ分析のためのイベントトランザクションデータ構築技術の検討

本研究の目的は,位置,音,画像などのマルチメディアを用いた時空間データ分析のためのイベントトランザクションデータ構築と,その応用方法に関する検討である.近年,スマートホンやIoT機器などの普及により,複数のセンサ情報を同時にモニタリングできる環境が整ってきた.それに伴い,時空間データの解析技術も多数研究されているが,その多くは,GPSによる位置情報や交通機関の利用履歴,購買履歴など,比較的ノイズの少ない情報源を用いるものが主流であった.他方,近年の深層学習技術の発展により音や画像からも様々な時空間情報が得られるようになってきた.例えば,スマートホンで収録した環境音を分析することで,ユーザがいる場所や行動を推測できる可能性があるが,環境音は複数のシーンやイベント,また,ノイズが重畳されやすいため,これまで時空間データ分析に十分に利用されてきたとは言い難い.そこで本研究課題では,音メディアデータから,時空間データ分析に資する情報の抽出技術の確立を目指した.また,時空間データ分析を行うため,複数のセンサから得られた情報を共通の形式に変換して,イベントトランザクションデータとして記述する方法についても検討した(後者については非公開成果を参照のこと).
とりわけ,本年度は,音データを実際に計測し,時空間情報の分析に寄与する情報の取得が可能か検討を行った(研究成果3件目).その結果,音データにおいては,ラベルを付与するアノテータによるばらつきが大きいため,ばらつきを考慮したアノテーション付与と,音響モデル化が必要であることが明らかになった.また,音データから,シーンや場所などの時空間データ分析に活用可能な情報の取得が可能であることを示し,深層学習を用いたシーンとイベントの同時分析手法を提案した(研究成果1件目).本成果は国際会議論文としてAPSIPA SC2023での発表を行った.さらに,近年研究が活発に進められている大規模データの事前学習済みモデルから,時空間データ分析に活用可能な情報を取得する手法についても初期検討を行い,国内学会での発表を行った(研究成果2件目).

007RP2023 坊農 秀雅 (広島大学)
ゲノム編集ターゲット選定のための公共データベース利用技術開発

2023年度は、DBCLS主催のTogothon(毎月開催)やBioHackathon2023(6月)、国内版バイオハッカソン(9月)への参加により公共データベース利用技術開発のために必要な情報収集と研究ディスカッションを行った。2回のバイオハッカソンでは、非モデル生物でのパスウェイ情報利用に関するシステム構築に関して議論し、ゲノム編集ターゲット選定に資するリソースづくりのデータ解析基盤技術としてそれぞれBioHackrXivへのプレプリントとしてすでに公開している。
また、公共データベースを利用する技術も並行して開発した。広島大学ゲノム編集イノベーションセンターで行ってきた公共遺伝子発現データベースからの酸化ストレス刺激前後におけるRNA-Seqデータのメタ解析をさらに拡張した技術開発を行った。酸化ストレスと深く関連するパーキンソン病をターゲットにこれまで研究が進んでいない遺伝子を探索するパイプラインを構築し、nuclear rotein 1 (NUPR1) と ubiquitin-like with PHD and ring finger domains 2 (UHRF2) その候補の遺伝子として発見した。この研究の詳細についてもすでにbioRxivにプレプリントとしてアップロードし公開している。

008RP2023 田村 啓太 (広島大学)
オルソログ推定を利用した植物のリファレンス遺伝子発現データセットの作成

前年度 (2022年度) シロイヌナズナについて公共RNA-Seqデータからリファレンス遺伝子発現データセットを作成したが、今年度はほかの主要植物種について大規模なRNA-Seqデータの探索を行った。特にイネに関しては、リファレンス遺伝子発現データセットの候補になるような単一の研究グループが同一プラットフォームで取得したデータセットが複数見出された。一方で、JGI lant Gene Atlas ( doi: 10.1093/nar/gkad616 ) やPlant Expression Omnibus ( doi: 10.1111/tpj.16566 ) など多数の植物種の遺伝子発現データを網羅したデータベースに関する論文が本研究期間中に発表され、リファレンス遺伝子発現データセットの対応植物種を増やすことの意義が以前よりも薄れてきた。そのため、植物種を追加する方向での研究開発は中断することとした。なお、すでに作成していたシロイヌナズナのリファレンス遺伝子発現データセットについては、広く使えるようfigshareにて公開した doi: 10.6084/m9.figshare.25458847.v1, doi: 10.6084/m9.figshare.25458850.v1 )。オルソログ推定ツールの比較検討に関しては、前年度シロイヌナズナとダイズの5つの遺伝子を対象として、OMA、OrthoDB、Ensembl lantsのツール間でオルソログと推定される範囲が遺伝子によっては大きく異なることを示し、BioHackrXivに報告した。今年度は、これを発展させる形で、上記3ツールに加えてOrthoFinderでの計算結果を一覧で比較できるウェブツールを作成し、シロイヌナズナとダイズの任意の遺伝子IDを入力することで、4つのオルソログ推定ツールから得られるオルソログ遺伝子を相互に一覧表示できるようになった。現時点でこのウェブツールは非公開であるが、今後結果の表示方法や解釈について検討したうえで、一般公開することを目指したい。またデータベース構築の一環として、植物の代謝産物の一グループであるトリテルペンの生合成関連酵素および転写因子を網羅的に収集したデータベースをRDFで構築し、bioRxiv doi: 10.1101/2024.01.08.574260 にて報告した。

009RP2023 中前 和恭 (広島大学)
公共遺伝子発現データに基づいたCRISPR-Cas9におけるRNAオフターゲット予測ソフトウェアの開発

CRISPR-Cas9等を利用したゲノム編集技術は任意のゲノム領域を改変することができる技術として知られ、ゲノム情報の解明や疾患治療研究において不可欠な存在になりつつある。しかしながら、Base ditorなどのCRISPR-Cas9応用ツールでは、遺伝子発現を担うRNA分子に結合して意図しない悪影響を与える「RNAオフターゲット作用」という現象が報告されており、その特性については深く理解されているとはいえない。本課題においては、このようなRNAオフターゲット作用を予測して安全なCRISPR-Cas9標的設計を提示するウェブツールの構築を目指した。具体的には、公共データベースSRAを活用したデータ駆動型研究を、以下(1)-(3)の3つの目標のもと実施した。
まずRNA-seqデータからRNAオフターゲット作用を検出するスタンダードなメタ解析系が存在していないことから、(1)RNAオフターゲット作用専用メタ解析パイプラインを構築し、SRA等の公共データベースに登録されているCRISPR-Cas9・Base ditorサンプル由来のRNA-seqデータからRNAオフターゲット作用の法則性を観察、定量化する。さらにこの解析データはCRISPR-Cas9アプリケーションの安全性検査の指標として利活用できる情報となるため、(2)RNAオフターゲット作用が発生しやすい領域をデータベース化し、公共データベースとして公開する。さらに、将来的に新規にCRISPR-Cas9アプリケーションを設計するうえで安全性に対する懸念を最小化するべく、(3)スコアリング・アルゴリズムの構築によって一般化し、RNAオフターゲット作用を極力抑えたCRISPR-Cas9標的設計新規ツールを構築し、無償で提供する。
進捗としては、(1)についてRNA-seqデータから生じた塩基置換を解析して、RNAオフターゲット作用の頻度とモチーフを同定するツール「PiCTURE」を開発した。このPiCTUREを遺伝学研究所のスーパーコンピュータ上で利用することで56件のRNA-seqデータを解析した。そこから出力されたデータの一部からRNAオフターゲット作用の痕跡を可視化し、WCWモチーフで多発することに加え、モチーフ以外の配列にも多く作用することを見出した。この作用の法則性を捉えるために、核酸言語モデルDNABERTを用いた機械学習モデルを作成し、入力配列に対するRNAオフターゲットの発生確率を予測するプラットフォームを構築した。学習モデルはaccuracy=0.834, UC=0.71を記録したことから、背後に配列依存的な法則性があることが示唆された。今後、作成した学習モデルに基づいた法則性の解明をより推進する予定である。上記の成果についてはプレプリント(1)にて報告を行った。

010RP2023 堤田 成政 (埼玉大学)
空間集計単位と空間スケールに着目した地理空間モデリング

本研究の目的は、対象の地理的現象(空間プロセス)を適切に表現するための、空間集計単位と空間スケールに着目した地理空間モデリングの提案としている。そのうえで、データ・プロセス統合型アプローチの提案を目指した研究に取り組むものである。
2023年度は、主に以下の3点に着手した。
1. 連続型空間データモデリングに対して、空間プロセスを柔軟にモデル化するためのGAMモデルの開発に取り組んだ。空間変動モデルの新たなアプローチとして、ガウシアンスプラインを取り入れたGAMを開発し、ベンチマークモデルであったMultiscale eographically Weighted Regression MGWR)よりも精度が良いことを確認した。また、より汎用性を評価するため、様々なシミュレーションデータに対して同手法を適用し、多角的に評価を実施した。本成果は国際学術誌へ投稿中である。
2. 計数型空間データモデリングに対して、ポアソン回帰モデルを空間データに適用する際に課題であった、疎なカウントデータに対応するための新たな地理的加重ポアソン回帰の手法開発に取り組み、大規模カウントデータの空間モデリングを実現した。また、mixed ixel問題に対応する研究課題に対して組成モデルの結果を空間的に評価するための誤差分析手法を開発し、国際誌に投稿準備中である。さらに、異なる分析者が制作した分類図より、頑健かつ高精度の分類図に統合するためのMultiple lassifier Systemを開発し、分類問題におけるmixed ixelの低減手法を提案した。本内容は国際誌に投稿中であり、preprintをarxivにて公開している。
3. 空間データ分析に際して、対象とする空間範囲が変更したとしても頑健な結果が得られる分析手法としてBoD (Benefit of oubt)に着目した。しかしながら、空間範囲の選択が、結果に影響を及ぼす影響は依然として課題であった。そこで、異なる空間範囲で選択したデータに対して適用したBoDの結果を統合するためのベイズ分析手法を開発し、地理情報システム学会で口頭発表した。

011RP2023 田中 和明 (麻布大学)
全ゲノム解析によるニホンカモシカの遺伝的多様性の調査およびY染色体遺伝子マーカの開発

ニホンカモシカ(Capricornis rispus)は日本列島に固有のウシ科動物で、集団遺伝学的研究はミトコンドリアDNA(mtDNA)を除き十分に行われていない。本研究はニホンカモシカの父系調査を目的にY染色体遺伝子マーカーの開発を2022年度のROIS-DS-JOINTから継続中である。2022年度はニホンカモシカの雄1個体の全ゲノムのショートリードNGS(360.5Gb)配列情報のゲノムアセンブリを行った。RagTagを用いて、ゲノムデータが公開されている最も近縁なヤギ(Capra ircus)のリファレンスゲノム GCA_015443085.1)と参照しコンティグ整列と結合を行い、各染色体(常染色体29本と性染色体XY)に対応するscaffoldsを構築、ニホンカモシカの参照配列とした。また、群馬県内を流れる利根川を挟み、関東平野の東西地域間のニホンカモシカでmtDNA型の集団構成が大きく異なることに注目し、西側から14個体、東側から11個体の合計25個体のマルチプレックスNGS解析を行った。1個体平均38Gbのデータを取得し、bwaを用いて参照配列へのマッピングを行い、GATKでグループごとの多型を同定、東西の2集団間で異なる遺伝子型に固定された多型を抽出した。
2023年度は多型抽出の基準をマイナーアレル頻度20%以上として、上記の東西2集団データの再解析を行い、全長3998KbpのニホンカモシカY染色体scaffold内で2~5塩基を単位とする縦列型反復配列(STR)構造を持つ多型67カ所を検出した。これを対象にして、STRマーカーを得るために増幅産物の大きさが100~350bpとなるPCRプライマーを設計した。結果、25カ所のSTR多型に対応した24組のプライマーが得られた。これらを用いて複数地域からのニホンカモシカ雄7個体と雌3個体のDNAを鋳型としてPCRを行うと、15組で試験に用いた全ての雄個体で所定の大きさのDNA断片が増幅された。これらPCR増幅断片のサンガー法による配列決定の結果、Y染色体scaffoldsの配列に従った配列と、内部に存在するSTRの反復回数の個体差を確認した。以上より、ニホンカモシカのY染色体に特異的な新規STRマーカーを15遺伝子座で開発することに成功した。また、本研究におけるデータ解析の過程で、みつかった群馬県のニホンカモシカ集団内のmtDNAの多様性について、日本動物学会で発表した。

012RP2023 中溝 葵 (情報通信研究機構)
磁気圏電離圏エミュレータおよびデータ同化による宇宙天気予報技術の開発

本研究では,様々な太陽風の条件に対する磁気圏電離圏グローバル磁気流体モデル(magneto-hydrodynamic odel; 以下MHDモデル)の出力を再現するエミュレータ (SMRAI2; Surrogate Model for REPPU Auroral onosphere version )の開発を行った.エミュレータの構築には,これまで情報通信研究機構で実施したMHDモデルによる長期間のシミュレーション結果を使用し,太陽風の時系列データとそれに対する電離圏物理量の応答をecho tate network ESN)と呼ばれる機械学習モデルに学習させることにより,任意の太陽風入力に対して,電離圏の電場や電流分布を低リソースかつ高速で出力できるようになった.さらに,結果の妥当性を確かめるため,様々な太陽風磁場条件を定常的に入力として与えたときにエミュレータが出力する電離圏の電場,沿磁力線電流分布の空間パターンを調べた.その結果,経験的に知られている電離圏電場,沿磁力線電流分布パターンの太陽風磁場依存性などがエミュレータでよく再現できることを確認した.また,オーロラジェット電流の強さを表すAU/AL指数のhindcastを行い,実際に観測されたAU/AL指数の変動をよく再現することを確認した.このことは,エミュレータの元となるグローバルMHDモデルが電離圏環境をよく再現しており,かつMHDモデルの出力をESNが精度よく予測できることを示している.以上の成果は,Space eather誌に論文として発表した.
また,開発したエミュレータにデータ同化を適用できるようにするために,エミュレータの出力を極域電離圏を観測するSuperDARN Fレーダーの視線方向速度データと比較する観測モデルの開発も行った.今後,開発した観測モデルを用いてデータ同化システムの開発を進めていく予定である.

013RP2023 辻 雅晴 (旭川工業高等専門学校)
南極産菌類の菌株データベースの構築と公開

南極域の菌類は、近年の急激な地球温暖化により生息域の大幅な縮小が懸念されているが、その低温に特化した特徴から新たな微生物資源としても注目を集めている。しかし昭和基地周辺から分離された菌類は日本の微生物保存機関にわずか5種8株しか保存されていない。
そこで本研究では、微生物資源として注目を集めながらも日本では、ほとんど保存されて来なかった南極産菌類について、統一した菌株番号を付与したのちに保存する。さらにその菌株は誰がいつ、どこの試料から分離したのかという基礎的なデータを本研究はR5年度〜R7年度の3年間をかけて、南極・昭和基地周辺の試料から分離した菌株の種名、菌株番号と併せて管理し、データベースの構築し、共同利用、データサイエンスへの利活用の促進を図ることを目的とした。
R5年度は、南極・昭和基地周辺の試料から分離した菌株のうち、当初の計画より多く600株について、微生物のマーカー遺伝子であるITS領域および26S RNAのD1/D2領域の塩基配列をPCR法により増幅を試みた。その結果、600株中584株について遺伝子の増幅に成功した。PCRにより遺伝子の増幅に成功した584株をキャピラリーシーケンサにより、塩基配列を決定した。
その結果、42株は子のう菌類であり、15属15種に分類できた。142株は担子菌類であり、9属19種に分類できた。残り400株は細菌類であったため、細菌類のマーカー遺伝子である16S RNAをPCR法により増幅し、その遺伝子配列を決定することで、細菌類であることを確認した。
種同定した菌株については、イーストペプトンデキストロース液体培地(YPD、Difco)およびポテトデキストロース液体培地で10℃、1週間攪拌培養した。攪拌培養した各菌株は、2mLクライオチューブに1mL分注し、そこに1mLの5%トレハロース含有20%グリセロール溶液を加え、NIPRから始まる4桁の菌株番号を付与した後、-80℃のディープフリーザに保存した。
菌株番号、種名、試料の採取場所、マーカー遺伝子の配列情報を1つにまとめ、データベース化している。データベースは、2024年度に国立極地研究所 生物圏研究グループのHP上で公開する予定である。

014RP2023 門叶 冬樹 (山形大学)
新たなアプローチによる宇宙線生成核種のデータセット構築とデータ解析

本研究は、地球に入射してくる高エネルギーの宇宙線が地球大気と衝突して生成する宇宙線生成核種Be-7の長期連続観測データの整備によりデータセット化を進めてデータ解析環境を整え、太陽活動による変動について調べることを目的としている。宇宙線生成核種Be-7は主に大気上層の圏界面で生成されエアゾルに付着して地表に降下して来る。観測は地表にエアーサンプラーを設置して大気を吸引して大気中浮遊塵をろ紙に日単位で捕集し、ろ紙サンプルをゲルマニウムガンマ線検出器により核種分析しBe-7の放射能を測定してデータとしている。従って、データセットは単位体積(m3)当たりの放射能(mBq)の時系列データとなっている。本年度は以下のように研究を進めた。
1. アイスランドデータセットの整理:
2003年から2020年9月までの17年間の連続時系列データの整理、現地サンプリング収集サイトの事故による2020年10月から2022年8月までのデータ欠損および2023年2月から9月までのエアーサンプラーの故障によるデータ欠損の確認を行った。新たなエアーサンプラーの設置により2023年10月よりサンプリング収集を再開し順調にデータセットの更新を進めている。図1にBe-7濃度の日変動時系列データと太陽黒点数の日変動を示す。
2. 大気輸送モデルHysplitによる流跡線計算:
Be-7濃度の時間変動は大気の移流・拡散の影響を受けて季節変動等を示している。NOAAが提供している大気流跡線シミュレータHysplitにより、2005年から2022年までの期間のサンプリングサイトへの流跡線を計算し流跡線データベースを作成した。今後Be-7濃度変動と流跡線の比較を行う。
3. データの管理・公開についての学習会:
国立情報学研究所のResearch Data loud関係者も招き、共同研究者によるオンライン学習会を行った。主な学習項目は、①データの管理・公開についての考え方②公開場所についての情報(IUGONET、機関リポジトリ等)③公開場所によるデータフォーマットとデータ解析ソフトの特徴等についてである。

015RP2023 大久保 慎人 (高知大学)
微小な地殻ひずみ信号検出のための解析技術の確立と超精密観測記録の活用

2021年度課題:015RP2021と2022年度課題:018RP2022に引き続き,HHT(Hilbert-Huang ransform)に利用される経験的モード分解法(EMD, Empirical Mode ecomposition)を用い,様々な地殻活動観測機器(ひずみ計)による微小な地殻ひずみ連続観測記録から有意な信号の検出を試みた.2022年度課題:018RP2022で有用性が認められたEnsemble mpirical Mode Decomposition(EEMD)をひずみ記録のみならず,超伝導重力計による重力の時間変動記録に適用した.地震動帯域の変動と潮汐変動とをある程度分離でき,長期にわたる重力場の変動(例えば、氷河性地殻均衡 Glacial Isostatic Adjustment; IA)の議論に邪魔な地震時変動を取り除くことができた.従来のEMDで生じていた,モード間の信号の染み出しはEEMDによって概ね改善されたことを確認した.一方,振幅が飽和したデータ時系列や非対称な振幅を持つ時系列に対しては,いまだにメキシカンハットウェーブレット状の偽像が生じるが,この偽像の性質は瞬時的に振幅・周波数が変動するためHilbert変換と相性がよく,時間窓を限定したイベント抽出手法としての応用が示唆された.これらの研究成果は,日本地球惑星科学連合(JpGU)2023年大会(5月21日(日))および,測地学および地球物理学関連国際連合(IUGG)2023年ベルリン大会(7月18日(火))において発表を行った.2023年度課題:015RP2023としての大きな進展は,複数の固有モード関数間への信号の染み出しとその際に生じる偽像を,変動開始時間決定のために利用し効率よくイベント抽出を行うことで本課題の解析手法が持つ更なる可能性・有用性を示したことである.
また,一連の課題015RP2021,018RP2022,015RP2023による成果として,EMDの得手不得手を整理した上で,EEMDを用いることの計算コスト増を超えるメリットを示すことができた.その上で,多数の現象が同等の振幅・周波数帯域で重畳している記録から興味のある個々の現象のみを抽出する,信号分離の処理ストラテジとして,近々,信号処理関連学会のジャーナルへの論文投稿を予定している.
また,本課題で試行した解析ツールは,一応さまざまな時系列データに対して適用可能な形をとっているが,誰にでも利用できるとは言い難い.一般的な時系列データの解析ツールとして利用可能で,より汎用化したアプリケーションとして公開できるよう,ソースコードの可読性の向上とシステムチューニングを行うべく,研究資金獲得を今後行う予定である.

016RP2023 原 圭一郎 (福岡大学)
南極エアロゾル・雲観測データの長期変動解析とデータライブラリーの整備

昨年度から引き続き,長期の観測データとなるエアロゾル・雲のモニタリングデータを中心としたデータの質の確認,再解析,公開データの整備を進めた.以下に各項目の状況を示す.
(1)Black carbon(BC)濃度の補正と整理(2022年まで)
https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=400
(2)マイクロパルスライダー(MPLとPMPL)観測:2022年まで。
MPL: https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=140
PMPL: https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=398
(3)偏光OPCによる粒子数濃度と鉱物粒子連続観測(昭和基地・しらせ)
http://popcarn.yamanashi.ac.jp/
(1)については,データの補正・スクリーニング作業が終了し,補正データを公開した.公開データに関する論文をPolar Data Journalへ投稿し,改定稿を投稿した(Hara et al., PDJ, Revised). 2)のMPL, PMPLについては長期観測データの再解析を進め,気象学会(秋)に成果発表(矢吹ほか,2023)を行った.またデータの公開とデータ論文の準備も進めている. 3)については,データの解析を進め,南大洋~昭和基地にかけての鉱物粒子の空間分布と昭和基地における鉱物粒子の変化について解析を進め,気象学会(秋)に成果発表(小林ほか,2023)を行った.
記の(1)~(3)に加え,CN(凝結核)濃度データを海外の研究者へ共有し,解析した結果が学術論文として発表された(Heintzenberg et al., Tellus, 2023). 和基地で観測されたCN濃度の季節変化,長期トレンドの解析を進め,学術論文の投稿準備を進めている.
らに,OPCにより計測されたエアロゾル数濃度の解析を進め,南極ヘイズの出現状況と大気化学過程との関係に関する解析を進め,気象学会(秋),大気化学討論会において成果発表を行った(原ほか,2023).
た,昭和基地で実施されていた全天カメラ観測で得られたデータについても,データ論文として発表した(Hirasawa et al., PDJ, 2023). 月上旬に研究会を開催して,解析を進めてきた結果に関する討論・データの相互比較を進め,今後の予定を確認した.

017RP2023 金 尚宏 (名古屋大学)
カリフォルニアマウス(Peromyscus alifornicus)における概日時計の光同調変異体Free runnerの原因遺伝子の探索

本研究は、睡眠・覚醒などの約一日周期の生理リズムである概日時計の制御機構の解明の一環として、カリフォルニアマウス(Peromyscus alifornicus)における概日時計の光同調変異体Free runnerの原因遺伝子の探索を目的としている。
今年度は、概日時計に関する形質として正常な野生型個体群と光同調変異体Free unner個体群をF0集団として、これらを掛け合わせたF2集団から概日時計が正常な個体群(16個体)、光同調変異体Free unnerの表現型個体群(4個体)、光同調に長時間を要する中間的な表現型の個体群(11個体)を選抜し、これら合計31個体のF2集団のゲノム情報の取得に取り組んだ。昨年度に、F0集団の正常な野生型個体と光同調変異体Free unner個体の各1匹ずつからゲノム情報を取得し、公開されているカリフォルニアマウスのドラフトゲノム情報も参考にした比較解析から約1000万箇所のSNP情報を整理した。
当初の計画より、F2集団からの正確な表現型の選抜に時間を要した関係から、今年度に得られた31個体分のF2集団のゲノム情報とF0集団における約1000万箇所のSNP情報との関係性の整理は今後の課題である。
別途、F0集団の正常な野生型個体と光同調変異体Free unner個体からのRNA-seq.等のデータ解析を研究参加者(大学院学生)が担当したが、ゲノムデータ解析支援センターにてバイオインフォマティクスの技術指導を受けた。
また、本研究と深く関係する概日時計の分子発振メカニズムに関し、研究参加者(大学院学生)および研究代表者らは、セカンドメッセンジャーシグナルの活性化による減衰性の概日振動の誘導について本研究課題の一環として日本睡眠学会第45回定期学術集会・第30回日本時間生物学会学術大会合同大会(9/15日および17日、横浜)にてポスター発表を行った。
なお、本研究課題の3年目にあたり、上記の研究成果について論文作成にかかる経費(打ち合わせ旅費、追加のデータ解析に関する技術指導の旅費、英文校正費)を予算計上していたが、全体の研究計画の遅れにより年度内の執行に至らず、予算執行率が70%を下回る結果となった。

018RP2023 澤柿 教伸 (法政大学)
遠隔地におけるオンプレミスデータプロセッシングに関する実証実験的研究ー昭和基地における地圏モニタリング観測と基地マネージメント情報共有システムを事例としてー

 高速回線の利用が困難なリモート地が抱える問題とクラウド利用が当然となったモダンスタイルルとのギャップを埋める実効性を伴う運用システムの試行ケースとして、3つの実証的試行を実施した。

1.VLBI観測の信号遅延キャリブレーションデータの取得プロセスをモダン化し、フォーマットを国際規格に合わせるアルゴリズムの検討を行った。その際、昭和基地も参加して国際連携で実施されているVLBIキャンペーンに参加し、国土地理院・石岡測地観測所での最新観測設備の皮革などを行い、国内に昭和基地側の観測機器のデジタルツインを構築するなどして、遠隔地にある観測現場と国内とで連携対応できる基盤を整備した。
2.オンプレMapサーバーの一種である「国連ベクトルタイルツールキット」の昭和基地版を構築した。
3.第63次越冬隊で蓄積した「昭和基地Wiki」のデータを再検討して、システムの問題点を洗い出して改良を施した。また、現在昭和基地で越冬している第64次隊が「昭和基地Wiki」の運用を試行中すすサポートを行い、この利用者からのフィードバックを得つつ、問題点の抽出・バグ出し・最適化を継続し、出発準備中の第65次隊への引き継ぎ利用を支援した。

 以上の試行により、リモート地における利便性が高まるだけでなく、そこから発信・集約されてくるデータの利活用においても、タイムラグが解消されたりストックデータの検索性や再利用が促進されたりすることを確認した。
 昭和基地のようなリモート環境での観測においては、帰国後に持ち帰ってはじめて検証・確認できるようになるデータが多々存在するが、現場作業者への支援が即応的になることが実証できた。これにより、観測の妥当性チェックに関するものだけでも事前に取得して観測現場の改善にフィードバックできるようになることが期待される。
 また、ナビゲーションや地図検索などの地理情報サービスをリモート地域でも可能とすることで、特殊な装置や技術によらずとも、すでに文明圏ではコンシューマー化している手段を安価・大規模に導入できる可能性を実証した。
 本研究は昭和基地を対象として実施したが、途上国や海洋上などの高速回線の利用が困難な状況におけるデータの利活用においても汎用的に適用されることが期待され、データサイエンスを推進していく上での盲点ともいえるリモート環境での対応に関して、クラウド隆盛の裏面を支える技術・方策として広く貢献できるものと考えられる。

019RP2023 賀茂 道子 (名古屋大学)
「日本人の国民性調査」にみるジェンダー平等意識の定着とその促進要因

本年度の成果としては、主に次の2点があげられる。第一に、保守的な意識を問う項目と「ジェンダー平等」意識の関係を中心に,「日本人の国民性調査」のデータの分析を行い,過去の時点と近年の比較等を行った。その結果、「伝統的な家」意識と「ジェンダー平等」意識に、連関を示唆する結果が得られた。戦後、男女平等を定めた憲法の施行に伴い家制度は廃止されたが、その後も「嫁に行く」「長男だから」といった言葉が使われているように、人々の観念として「伝統的な家」意識は根強く残っていた。父権主義、すなわち男性優位を基礎とする「伝統的な家」意識が継続したことが、日本のジェンダーギャップ指数が先進国最下位となっている要因の一つではないかとの仮説に対し、矛盾しない結果が得られたことは大きな成果と考えられる。
第二の成果として、前兵庫県豊岡市長の中貝宗治氏にインタビューを挙げたい。今でこそ、若い女性の流出と地方の衰退の関連性は指摘されているが、いち早くそれに気が付きジェンダーギャップの解消に努めてきたのが中貝氏である。中貝氏のインタビューから、男性だけでなく女性もこれまでの慣習を変える必要性を感じていないという、問題点を知ることとなった。つまり、地方では問題に対する意識が低いのではなく、問題意識を持つところまでもいっていないということである。そのため、来期は、家意識以外の「ジェンダー平等」意識に影響を与える要因として、地方性に注目したい。

020RP2023 野津 了 (広島大学)
魚類のゲノム編集育種を加速するためのオーソログ情報の整備

本研究課題は、非モデル生物である水産有用魚種において、ゲノム編集の標的遺伝子の探索・選定の効率化に資するオーソログ情報の整備を目的としている。本年度は、ゼブラフィッシュ、メダカおよびトラフグのチロシナーゼ遺伝子を実例として既存のデータベース上のオーソログ対応関係を評価し、推定手法について検討した。オーソログ情報が登録されている複数のデータベースにおいて、ゼブラフィッシュのチロシナーゼ遺伝子をクエリーとし2魚種のオーソログを検索した結果、NCBI rthologsとOMAでは、クエリーに対して1対応で取得できた一方で、OrthoDBではクエリーに対し両魚種において2配列を取得する結果となった。このことから、取得できるオーソログ情報はデータベースに依存することが確認された。次にNCBI efSeqに登録されている3種のプロテオーム配列を用いて、オーソログ推定手法を検討した。オーソログは配列類似性に基づき推定することとし、推定には各遺伝子の最も長いペプチド配列を代表として選抜したプロテオーム配列セットを用いた。ゼブラフィッシュのチロシナーゼ配列をクエリーとし両魚種のプロテオーム配列に対してBLAST検索をおこなった。ヒットした配列のうちe-value 0 示す配列が両魚種ともに2配列確認され、この2配列はパラログの関係であると考えられた。オーソログを推定する上でパラログの存在は誤った結論に導く可能性がある。そこで、ゼブラフィッシュのチロシナーゼ遺伝子周辺とBLAST検索から得られた2配列周辺のマイクロシンテニー情報を活用することでパラログの問題を解消し、オーソログ対応関係を割り当てた。なお、チロシナーゼのオーソログとは認められなかったメダカおよびトラフグのチロシナーゼ様配列は、配列類似性およびシンテニー解析の結果から、両配列がオーソログの関係であると推定された。このように配列類似性結果を基にシンテニー情報を考慮したパイプラインを構築することで正確なオーソログ推定が可能になると考えられた。次年度は、本年度に検討した推定手法をパイプライン化し、3魚種の全遺伝子を対象に、大規模な遺伝子群でのオーソログ推定を実施する。

021RP2023 村田 健史 (情報通信研究機構)
過去に学び将来に活かす地域災害情報WebGISアプリケーション開発

本申請「2021-2023地域災害情報WebGISプロジェクト」では、2022年度までに①ROIS-DS人文学オープンデータ共同利用センター(CODH)が作成した1920年~現在までの歴史的行政境界データをバイナリベクタタイル化した。②2020年の国勢調査に基づいた町丁目境界データをバイナリベクタタイル化し、町丁目ごとの人口と世帯数をメタデータとして付与した。さらに、過去に発生した自然災害情報を新聞記事から読み取り、記事に含まれる地理情報(行政境界情報)を用いて災害発生時のエリアにマッピングを行うためのWebGISアプリケーションを試作した。これにより、各時代の災害が現在の行政区画におけるどの位置で発生したかを可視化できるようになった。そして2023年度は、3年間プロジェクトの最終年度として、CODHが作成した歴史的行政区域データセットを用いて、過去の災害情報を発生時点の行政区域とリンクしながら入力できる「時空間データ入力インタフェース」を新たに開発した。
3年間の研究開発を通じて得た成果は以下の通りである。様々な地域・自治体では、自然災害事象に関する記録を作成しているが、独自形式で管理する過去災害データベース(たとえば日本の雪崩災害データベースや長野県千曲市災害データベース)をすべて取り込んで系統的で標準的な全国規模の過去災害データベースを実現することは困難である。また、防災科研などの研究組織も過去災害情報のWebサイトを公開しているものの、各年代の行政境界と過去の災害情報をWebGIS上で直接比較できるアプリケーションはなかった。そこで、CODHの歴史的行政区域データセットを活用した時空間データ入力インタフェースを本研究で開発することで、過去の災害データの時空間およびテキスト情報を、各自治体や個人が独自に入力できるようにした。また、本WebGISアプリケーション開発では、情報通信研究機構(NICT)が開発したJavaScriptベースのライブラリTimeline(Githubにて公開済み)を用いることで、Webアプリでの時間軸の可視化を容易に実現した。
本研究で設計・実装した時空間データ入力インタフェースを用いることで、情報を有する自治体などが自力でデータ入力を行い、温故知新型自然災害WebGISアプリケーションを構築することが可能となった。また時空間データ入力インタフェースは、当初は過去の災害データの入力を想定して設計したものの、その後は一般的な時空間データの入力も可能となるように拡張したため、今後は地域の歴史的なデータを入力して共有するアプリケーションにも利用が拡大することが期待できる。

022RP2023 大塚 道子 (気象庁気象大学校)
気象衛星ひまわり高頻度観測と地上観測等を利用した霧判別の特性と精度評価に関する研究

昨年度からの継続として、 本域の霧発生の地理的特徴の分析と、あらたに今年度は、霧画像を用いた自動判別手法の開発を主に実施した。5分間隔の高頻度衛星観測と数値モデルの予測値から得られる霧の月別発生頻度と地形との関係を分析した。沿岸、 陸、 平地の都市、 盆地、山地といった立地によって、発生頻度の季節性がある程度まで特徴付けられることを見出した。 これらの結果について、 本気象学会の秋季大会と 【ROIS-DS】 第4回成果報告会で成果発表を行った。
画像解析による判別手法の開発については、まず、 像認識に用いる霧画像の収集を行うため、茨城県つくば市にカメラを設置した。 1kmから数km 視程距離の範囲で適当な目標物を設定し、主要な4方向を2分間隔で撮影・保存するようにした。 10月~2月にかけて、 回程度の霧事例を収集することができた。 今後、詳細な解析を行う予定である。
カメラ画像からの霧の自動判別のプロトタイプとして、 i et al. (2021) の畳み込みニューラルネットワーク(CNN) を Tensorflow ライブラリ Python 語によるモデルで作成した。 この CNNは、全結合層 (FC)が3回と比較的浅めで、リアルタイムの判別に適していると考えられる。Laboratory or Image &Video (LIVE, キサス大学)から入手したデータセットを教師データとし、江戸川河川事務所の12地点のライブカメラ画像で霧判別を行った。 結果は、 適合率 7.9%、再現率 97.0%、 正解率 71.2%となり、 霧の有無判別はある程度可能なことがわかった。 の手法では、地点ごとに学習データを必要とせず、 どの地点でも汎用的に霧判別が可能といった特徴がある。 一方で、さらに予測精度を上げるための工夫や、 港のような場所で視定距離による定量的な予測を行う必要性も検討する必要がある。 れらの結果については、2023年度の気象大学校の卒業研究の一部として実施され、 成果の一部は、 【ROIS-DS】 第4回成果報告会でも報告した。

023RP2023 波多 俊太郎 (北海道大学)
空中写真や衛星画像データを用いた宗谷海岸氷床縁辺部湖沼のインベントリ作成

研究では、以下の項目を実施した。
【神の谷池の突発排水現象】
1969–1971年、2017年に生じた神の谷池の突発排水現象を発見した。南極地域観測隊の撮影した空中写真と多数の衛星データを組み合わせて解析し、1962–2021年の神の谷池の表面高度変化を明らかにした。日本の南極地域観測隊が撮影を継続してきた航空写真に対してSfM(Structure-from-Motion)技術を適用し、地表面の標高モデルを多年にわたって作成した。さらに航空写真の解析に加え、高解像度な人工衛星画像を解析して得られる数値標高モデル(REMA)や、衛星レーザー高度計ICESat-2の取得データ、さらに排水後の地形データから得られる湖底地形と衛星画像を併せて解析した。
1962–2021年の期間における解析の結果、神の谷池では1969~1971年と2017年に突発的に氷河湖の湖面が低下したことが分かった。各イベントで湖氷の表面高度の低下量はそれぞれ66mと55 mに達した。排水量は7.1×107 m3に達し、神の谷池の決壊イベントは南極地域の氷河湖決壊としては最大の排水量を伴う決壊イベントであることが明らかとなった。さらに、二つの決壊イベントの間隔は約50年間であり、南極以外の他地域の氷河湖で発生する氷河湖決壊の周期と比べて非常に長いことが判明した。
神の谷池近傍の氷床表面に流出河川は見られず、近傍の他の湖でも決壊イベント前後で大規模な変化は確認されなかった。湖に貯まった水によって、湖をせき止めていた氷の底面に水路が開き、排水したと考えられる。またレーダー衛星画像の観察から、2017年の決壊イベントは4~5月(南極の冬季)に発生したことが判明した。当該発生時期には気温は常に氷点下であり、降雨や強い降雪は確認されていないことから、湖への突発的な水の供給は考えられない。したがって冬季の氷河湖決壊の発生は氷河底面からの継続的な(あるいは持続的な)水の供給を示している可能性があり、この地域の氷床底面に活発な水文環境の存在を示唆している。
上の成果を原著論文として国際学術誌に出版した(Hata et al., 2023 Scientific Reports)。この論文に際して構築したスカルブスネス地域の数値標高モデル、神の谷池の表面高度変化と相対体積の時系列データセットは、ADSにて公開した。
【宗谷海岸に位置する氷河湖の検出】
南極・宗谷海岸に位置する氷河湖の検出を試みた。新たに衛星レーダー高度計Cryosat-2のデータ解析を神の谷池の排水現象に適用して検証を行った他、公開データセットを解析して氷河湖検出に適した手法の検討を進めている。

024RP2023 横井 翔 (農業・食品産業技術総合研究機構)
カイコにおけるシルクタンパク質発現量調節に関わる新規遺伝子の同定のためのリファレンス遺伝子発現データセットの取得およびオーソログ推定

2023年度の計画予定に沿って成果を示す。
1. 2022年度で解析した終齢幼虫0日目から7日目の個体から得た絹糸腺の網羅的発現量データ(⑥を参照)を成果として取りまとめて論文化・データの公開を行う。
昨年度までに取得した終齢幼虫0日目から7日目のカイコのw-1 nd系統(ゲノム編集に使用する系統)の後部絹糸腺、中部絹糸腺後部、中部絹糸腺中部、中部絹糸腺前部、の4種の部位合計32種類x3反復の合計96サンプル分のRNA-Seqデータを取得し、それぞれのサンプルに対する網羅的発現量を算出した。網羅的発現量データを用いた階層クラスタリングおよびシルク遺伝子群を対象にした、RNA-Seqに用いたtotal NAを利用したqPCRによる発現データと網羅的発現量データの比較によって、算出した網羅的発現量データの信頼性が高いことを示した。これらの一連のデータを公開した。発現量データに用いたRNA-SeqシーケンスデータはDDBJ RA(Accession ID: DRA017543)に、網羅的発現量データDDBJ GEA(Accession ID: E-GEAD-662)に登録・公開した(詳細についてはMauoka t al., 2024 DOI: 10.1101/2024.03.02.582034 を参照。)。発現量算出に用いたツールであるkallistoのoutputデータ、および階層クラスタリングの結果データなどの解析や中間ファイルはfigshareにて公開した(DOI: 10.6084/m9.figshare.c.6978654 )。これらの一連の解析や検証を論文にまとめてBioRxivにアップロードした。現在査読付きのジャーナルに投稿中である。

2. 上記の絹糸腺の網羅的発現量データをKaikoBaseとRefExへ収載・公開する。
3. efExの収載に関しては、他のモデル生物のデータとのリンクについて担当者と議論をしながら、進める。
上記の網羅的発現量データについて、KaikoBaseへの収載・公開について検討を行った。すでに公開済の他のデータとのバランスを考えながら、公開方法を検討している段階である。Refexについては担当者に発現量データを公開するために譲渡した。Refex収載に関しての、他のモデル生物のデータとのリンクについてはTogothonに参加して担当者と議論・検討を行った。

025RP2023 野村 俊一 (早稲田大学)
保険数理データ解析のための現代的数理手法の開発

(野村)自動車損害賠償責任保険の都道府県別支払件数の推移を時空間ベイズモデルにより分析し、都道府県間のクレーム頻度較差を推定するとともに、自動車走行距離を共変量に導入することで交通量の減少がクレーム頻度に与えた影響を議論した。
(大塚)全労済協会の「共済・保険に関する意識調査結果報告書(2019年版)の個票データから低所得世帯の生活リスクの準備行動について構造的に分析を行い、生活リスクに対する準備を行っていない場合の要因として、家計もしくは就業形態と、相談相手の有無があることを特定した。さらに、保険と共済での違いを議論した。
(清水)サイバーアタックによる情報漏洩に対するリスク管理として、複合点過程モデルを用いて、情報漏洩量に対するVaRやETCなどを、過去の情報に対する条件付きリスク尺度として推定・予測する研究を行った。サイバーアタック件数に対する確率モデルとして、負の二項分布や幾何分布に基づく点過程、ポアソン過程、Hawkes過程などを用い、漏洩量はIID確率変数として扱ったが、その分布は裾の重い(heavy ail)分布の代表的なモデルとして一般化パレート分布を基にVaRやETCの近似式を導出した。
(清水)死亡率の予測モデルとしてShimizuz et al. (2020)で提案されたSurvival Energy Model SEM)を、関数データ解析の手法を用いたノンパラメトリック法によって推定・予測し、従来法との比較を行った。この手法はSEMの構成で重要になる関数をノンパラメトリックに推定するため、従来のパラメトリックモデルよりも柔軟なモデルを構築でき、さらに関数データ解析による予測によって、従来法よりも高い精度でより長期の死亡率予測が可能になった。
(清水・白石)サープラス過程がレヴィー過程に従う場合の最適配当境界に対する統計的推定問題について、離散時間観測データから疑似過程を発生させて構成したM推定量の最大化解として、最適配当境界の推定量を定義するとともに、その漸近的性質を導出した。また、複合ポアソン過程の場合で、この手法の有効性を評価した。
(白石)保険業界におけるIBNR備金の代表的な推定手法の一つであるチェーンラダー法を用いて、感染症の流行度合いを評価する代表的な指標の一つである実効再生産数の推定手法を提案した。感染症データにおける報告遅れの問題をチェーンラダー法を用いて補正した実効再生産数の推定量を提案し、その漸近的性質を明らかにした。また、COVID19データを用いて本手法の有効性を評価した。

026RP2023 川畑 拓矢 (気象庁気象研究所)
アンサンブルデータを用いた気象現象の理解

 今年度は、アンサンブルシステムの改良としてハイブリッドEnKFの開発と側面境界摂動の改良を行った。さらにアンサンブルデータ解析として、非ガウス解析を行って側面境界摂動の確率予測への影響を明らかにし、またアンサンブル感度解析によって豪雨の発生過程が概ね線形として理解できることを示した。
 まず災害をもたらす線状降水帯などの激しい気象現象は非線形性が強いが、局所アンサンブル変換カルマンフィルタ(LETKF)は、非線形性に対して脆弱であることが知られている。それを緩和するために、LETKFと摂動観測法によるアンサンブルカルマンフィルタ(EnKF)を、小さい追加計算コストで組み合わせるハイブリッドEnKFを開発し、観測演算子が非線形な場合についてLorenz 6モデルによるデータ同化実験を行って、LETKFより高い解析精度を示すことを明らかにしてきた。今年度は、LETKFの脆弱性の理由を理論的に明らかにするとともに、データ空白域がある場合についてもデータ同化実験を行い、LETKFより高い解析精度が得られることを確認した。
 つぎに令和元年東日本台風における1000メンバーアンサンブルシミュレーションを用いて、大アンサンブルにおける側面境界摂動ランクの重要性を調べた。従来、50通りの側面境界摂動を1000メンバーに適用していたが、摂動のランクの不足により、アンサンブルのばらつきが不十分となり、メンバーのグルーピングが発生することが分かった。そこで50通りの側面境界摂動に正規分布のノイズを加え、1000通りの側面境界値の摂動を作成した。これにより摂動のランクが改善され、グルーピングが解消された。また非ガウス解析などからグルーピングは不適切な確率分布の推定につながることが分かった。
 最後に、2018年西日本豪雨の予測が初期条件によってどのような影響を受けたのかを調査した。この豪雨をもたらした気団の起源を特定するために、後方軌道解析とアンサンブル感度解析を行った。これらの結果によって風上にある湿った気団が太平洋気圧によって運ばれたことを一貫して示した。さらに風上情報の重要性を確認するために観測システム実験を行い、その結果の検証では、風上観測を含まない場合には降水量予測精度が低下することが分かった。すなわちこの豪雨の発生過程が概ね線形であることを示唆している。

027RP2023 鴨川 仁 (静岡県立大学)
大気電場と超高層大気データの比較による全地球電気回路研究の新展開

昭和基地の大気電場のデータについてIUGONETへの登録に向けて必要なメタデータを検討・作成した。
IUGONETで広く用いられている解析ソフトウェア PEDASでの取り扱いが容易にできるように、データをASCIIからCDF/netCDFへ変換した(役務による外注)。
大気電場観測値から、気象と人為的な排出物(煤煙等)の影響を受けない晴天静穏時を抽出するための条件についてまとめ、論文を執筆した。
大気電場値と、超高層大気・電磁気観測データを比較・解析して論文を執筆した。
以上2件については、英文稿をまとめるも投稿に至らなかった。

028RP2023 栂 浩平 (広島大学)
セイヨウミツバチのデータ駆動的研究に資するリファレンス遺伝子発現データセットの作成

はじめに
本研究では,有益な農業昆虫であるセイヨウミツバチの公共RNA-seqデータを統合・再解析し,得られた結果をRefEx2 モデル生物を中心とした遺伝子発現量を容易に検索・閲覧できるシステム)へ収載することを目指している.一方で,公共データベースにあるRNA-seqデータの利用に関しては課題がある.それはデータが様々な実験環境(バッチ)によって取得されている点である.そのような場合,単純に実験環境間で遺伝子発現を比較できないことがある.これはバッチ効果と呼ばれ,その効果を除去する手法も開発されてきている.昨年度検証したバッチ効果を除去する手法を探索し,ComBat-seqが最適であることがわかった.
本年度はRefEx2に収載するデータセットの選定として,ミツバチの生理状態の制御に重要な役割を担い,かつ公共データベースに豊富にあった脳・脂肪体・卵巣に由来するRNA-Seqデータを利用した発現解析を実施した.
研究方法
発現定量プログラム(salmonおよびStringTie )およびComBat-seqを組み合わせ,発現値データを取得する.長寿である女王で発現が変化する遺伝子を中心に,発現が変動する遺伝子を整理する.
結果
公共データベースにある女王とワーカーにおける脳・脂肪体・卵巣のRNA-Seqデータを収集した(合計112サンプル).Salmonによる発現定量の結果をComBat-seqで補正し,DIANE https://diane.bpmp.inrae.fr/ やiDEP(http://bioinformatics.sdstate.edu/idep96/を用いて,発現パターンで遺伝子をグループ分けし,各組織や女王またはワーカーで特徴的な発現パターンを示す遺伝子を整理できた.
卵巣発達や寿命と関連が予想される遺伝子として女王で発現が高いことが知られるVitellogenin(vg)がある.iDEPを用いた共発現解析により,多数の共発現遺伝子を探索できた.これらの遺伝子は女王において卵巣発達や寿命の両者に関わる遺伝子である可能性がある.
今後の展望
これらのデータセットから寿命と産卵能力の両者の発達に関係しそうな遺伝子を探索する.

029RP2023 藤井 陽介 (気象庁気象研究所)
海洋データシステムにおけるアルゴフロート観測データやその誤差の ンパクト評価に関する研究(2)

海洋データ同化システムとは、データ同化手法により海洋数値モデルに観測データを融合させ海洋の状態を推定するシステムであり、海洋予測や季節予報において数値モデルに与える海洋の初期状態を作成するのに利用される。そして、海洋データ同化システムで利用される最も重要なデータの一つがアルゴフロートによる観測データである。アルゴフロートは全球の海洋に展開されており、10日毎の水温・塩分鉛直プロファイルを自動で観測している。観測されたデータは衛星を通じてフロートを管理する機関に通報され、厳重な品質管理を受ける。しかし、2015-2021年に製造されたフロートの15%程度が投入から1、2年後に故障し、高塩の系統誤差を生じていると報告されている。
本研究では昨年度までに、上記問題の影響を受けたデータの除外など品質管理のレベルが異なったデータを用いた同化実験を、気象研のほか、ヨーロッパ中期予報センター(ECMWF)と、ナンセン環境リモートセンシングセンター(NERSC)で実施したが、本年度は、実施機関による同化されている観測データの違いなどを確認し、より正確な評価を行うために一部の実験を再実施した。その結果、品質管理のレベルがより高い観測データを用いた実験ほど、高塩分バイアスが抑えられることが再確認された他、観測後数か月以上たってから実施する高レベルの品質管理の効果が昨年までの結果と比べ大きく評価された。
本研究では、また、気象庁季節予報用の海洋データ同化システムを用いて、「国連海洋科学の10年」プロジェクトSynObsで推奨される設定で観測データのインパクトを調べる感度実験を実施し、解析を行った。その結果、アルゴフロートのインパクトは、全球の海洋に広がっており、特に熱帯域の塩分変動の再現に対して大きなインパクトを持つことが示された。今後は、他機関で実施された同様の設定の実験結果と合わせて解析し、アルゴフロートのインパクトのより厳密な評価を実施する予定である。
本研究では、アルゴフロートの品質管理に関するインパクト評価について1件の国際学会での研究発表を行ったほか、論文の作成を進めた。また、SynObsの設定で実施した感度実験についても、ROIS-DS報告会のほか、2件の国際学会での研究発表を行った。本研究の成果はSynObsにも貢献するものであり、今後その推進に活用される。

030RP2023 加藤 千尋 (信州大学)
宇宙天気研究に利用する昭和基地宇宙線観測データ公開方法の拡張とデータ解析手法の改良

中性子計計数率のモニタリング用データをよりリアルタイムで取得するためのシステムで最大で2分毎程度の頻度でモニタ用データを取得できることを確認し,受け入れ側の整備後に転送頻度を上げることとした。その他,昭和基地での観測データについて年毎のアーカイブデータの公開を行っている。
中性子モニターとミューオン計による観測データの統合解析ならびに解析手法の改善で一定の成果が得られ,暫定結果ではあるが,解析した宇宙天気現象(StarLink衛星を墜落させたことからStarLinkイベントと呼ばれている)について,先行論文で延べられていた「2本のフラックスロープが時間差で地球に到達した」という説を補強する結果が得られている。これを含む解析結果は昨年名古屋で開催された宇宙線国際会議等で報告された。
本年度は2024年度に拡張を予定している南極昭和基地ミューオン計の実機試験に注力したこともあり,作業が遅れている。しかし,データ公開の安定性確保を目的として,公開データ作成にあたって使用しているDB/ファイルサーバーの冗長性を確保するために新規PCを購入し,整備に着手することができた。来年度は新規PCがの整備に加え,DAQシステムで使用しているFPGA回路との通信方法改良のため,評価キットを使った試験を行う予定である。
研究グループとして,南極昭和基地の宇宙線観測データの管理や処理、公開方法について現状を把握・整理し、今後のシステムアップグレードについて打合せを行った。予算執行についてはサーバーの改修が小規模であったため,昭和基地での観測装置の拡張にかかる打ち合わせ旅費とDBサーバーの機能拡張にかかる費用に変更,ほぼ全額の執行となった。

031RP2023 高橋 彰 (大阪大学)
メモリーグラフを用いた京都の町並み変化に関する地域学習教材に関する研究

京都では地域住民を主体とした町並み保全・創出の活動が活発に行われており、地域の景観形成の方針を考える上で、その現状や変化を客観的に伝える資料は重要であると考えられる。一方で、戦後から高度経済成長以降の京都の町並みは急激に変化したため、現在に至る景観形成の過程を把握できる資料は希少となっている。本研究はメモリーグラフ(以下、メモグラ)を用いてデジタル・アーカイブされた古写真と現在の町並みを比較することで、地域の景観形成の歴史的文脈を学習する方法を検討するとともに、コミュニティの記憶を引き継ぐための地域学習資料の構築を目的とする。 021年度は、地域まちづくりの活動主体3団体に対して、ワークショップ形式のヒアリング調査を実施し、メモグラの地域学習とまちづくりでの利点や課題を検討した。結果、メモグラをまちづくりのツールとして展開する意義として、景観のアーカイブの意義、現状把握と景観分析ツールとしての意義、地域の良さを伝える普及・啓発ツールとしての意義、コミュニケーションツールとしての意義が明らかとなった。一方で、狭い地域の範囲で古写真を収集することが難しいなどの資料的な課題も指摘された。2022年度は、特定の地域で町並み写真資料を収集することが難しいことから、京都市が所蔵する町並み調査写真に着目し、それらを町並み写真の基盤資料としてデジタル資料化するとともに、iOS、Androidの両OSに対応した(2021年度はAndroid版のみ)新メモグラの評価実験を行った。2023年度は、メモグラの基本的な枠組み(メモグラの使用方法とその意義、両OSへの対応、町並み調査写真のデジタル化)が整ったことから、だれでも簡単に使用できるような一般的な普及を目指し、メモグラを用いたイベントの企画・運営マニュアルを作成するための実証実験を行った。具体的には、メモグラを使用したまちあるきを学生2人に企画してもらい、企画・運営方法を議論しながら、マニュアルに反映した。また、参加者に許可を得たうえで、実証実験中の様子を撮影し、広報用の写真資料を収集した。結果、3年間の取組として、メモリーグラフの町並み変化に関する地域学習教材としての意義と課題の整理、町並み調査写真のデジタル化、メモグラを使用したイベントの企画・運営マニュアルの作成が成され、社会実装への準備を進めることができた。

032RP2023 杉浦 幸之助 (富山大学)
機械学習を用いた南極氷床における表層積雪の堆積削剥パターンのデータセット構築

南極氷床の沿岸から頂部にかけて,表面には堆積と削剥によって様々な雪面パターンが存在している.南極氷床の表面質量収支を推定するためには,各地点の雪面パターンの実態を把握する必要がある.そこで本研究では,南極氷床の沿岸部から頂部のトラバース上で撮影された表層積雪の堆積と削剥による雪面パターンを分類して,画像のデータベースを構築した.
使用した画像データの観測期間は,JARE(Japanese Antarctic Research xpedition,南極地域観測隊)59次隊の往路の2017年11月13日から12月9日まで,復路の2018年1月11日から24日まで,そしてJARE60次隊の往路の2018年11月18日から12月10日まで,復路の2018年1月3日から19日までである.大型雪上車SM100Sの側面に設置されたインターバルカメラ(JARE59ではHERO3+(GoPro),JARE60ではTough G-5(OLYMPUS))により,表層積雪の堆積と削剥による雪面パターンが記録されている.記録された雪面画像にはいくつかの雪面パターンが混在していたことから,画像手前部分を1枚の画像につき最大で8マス(130×130ピクセル)に分割した.その結果,雪面パターンの分類枚数は,JARE59では34,071枚,JARE60では8,525枚となった.さらに雪面画像の記録状況を精査し,JARE59復路では26,181枚,往路では11,640枚となった.画像撮影日と緯度経度とを対応づけてデータベースを構築した.
Ubuntu搭載パソコンに実装した画像分類モデル utoDL(NTTデータ数理システム)を用いて,堆積と削剥を反映する4種類の雪面模様(サスツルギ大,サスツルギ小,デューン/バルハン,リップル)に分類した.使用したAutoDLには事前に雪面パターンの学習用画像を用いて学習させており,検証用画像に対する精度が約60回の読み込みで収束していた.分類の結果,雪面パターンの出現頻度として,JARE59復路では,大サスツルギ及びデューン/バルハンが出現する標高が先行研究とおおよそ一致していた.
この雪面パターンのデータベース構築により,南極氷床における表面質量収支の推定精度の向上や,南極での雪上車によるさらなる安全安心なトラバースルート策定のための知見の蓄積が期待される.

033RP2023 臼田 裕一郎 (防災科学技術研究所)
歴史ビッグデータを活用した災害可視化研究

2023年度は、計画していた3点(①、過去の日記や文書に記された地震や気候の記録を時空間的に集約、②、歴史地名を活用した古文書地名の抽出、③、①②をふまえ、安政江戸地震を対象に、古文書からのテキストデータを抽出し、地名、日時、災害の様態、被害実態について整理)を計画どおり実施し、以下の成果を得た。
①については、歴史災害のなかから日記や文書などの史料が豊富な安政2年10月2日の安政江戸地震を対象として災害可視化を開始した。まず、安政江戸地震の切絵図に記された場所を明確にするため、江戸時代後期(1800〜1840年ごろ)の江戸の空間を想定・再現した「れきちず」(https://rekichizu.jp/map/)上に、安政江戸地震切絵図に記された町家部分(人口密集地域)を着色した。安政江戸地震切絵図は29枚存在するが、2023年度はそのうちの3枚(「築地八町堀日本橋南絵図」「駿河台小川町」「内藤新宿千駄ヶ谷」)を着色・可視化した。
②については、江戸切絵図に記載されている歴史地名を日本歴史地名大系(https://geoshape.ex.nii.ac.jp/nrct/resource/)を用いて、当時の地名(古文書地名)に記載されている場所の特定を行った。今回着色した3枚の切絵図に記載された築地八町堀、日本橋南、駿河台小川町、内藤新宿、千駄ヶ谷には、安政江戸地震で大惨事が起こった神田小川町が含まれている。この地が小石川沼の埋立てによる地盤の悪い地域で幕臣の屋敷の倒壊・出火とともに、被害のもっとも激しい所であったため、松平豊前守上屋敷も火災に巻き込まれ、上屋敷内で65 もの死者を出したとの記録がある。また、小川町に隣接する神田司町については「二日夜亥の一点、或二点大地俄に露出し、家は犇々と鳴響き、逆浪の船のたゞよふ如く、即時に家屋を覆し、間もなく頽たる家々より火起こりて、」(「武江地動之記」『日本地震史料』、千代田区神田司町二丁目の斎藤月岑(市左衛門 神田雉子町名主))と地震発生時の様子が記されていることが確認でき、この地域に大きな被害があったことを空間的なスケールからも明らかにすることができた。このように地名と日時、災害の様態、被害実態についての整理(③)をはじめた。
今後、「みんなで注釈」(https://ansei2.vercel.app)とも意見交換を行い、情報の精度を高めるとともに、J-SHIS(全国地震動予測地図)の揺れやすさ情報等の現代の知見とも重ね合わせ、安政江戸地震を多角的な視点から理解し、今後発生が予想される首都直下地震の事前対策にも活かしたい。

034RP2023 櫛田 達矢 (理化学研究所)
哺乳類表現型語彙の日本語整備とオントロジーアライメントおよびそれを活用したバイオリソース検索システムの構築

(1)哺乳類表現型オントロジーMPの日本語訳の整備と更新
 14,396件のMP語彙の全件に対して,機械翻訳を実行,表記の揺らぎの処理の後,医師,医学研究者が修正を加え,2,791語の日本語訳を完成させた(新規追加285語および修正2,506語).これらの日本語訳はMP正式の日本語訳として,米国ジャクソン研究所のダウンロードページ(https://www.informatics.jax.org/downloads/reports/index.html)から公開された.また日本語化で使用した作業ファイルは,MP日本語化プロジェクトのGitHub https://github.com/dbcls/MP_Japanseから公開した.上記の研究成果は,プレプリントサーバーBioHackrXiv プレプリントを公開(2024年1月),ROIS-DS第4回成果報告会(2024年2月)でポスター発表を行い,2024年5月開催予定の第71回日本実験動物学会総会で口頭発表の予定である.
(2)MPを用いたバイオリソースの表現型アノテーション
(3)MP表現型語彙を用いたバイオリソース検索システムの開発
 上記のMP日本語訳を用いて,理研BRCのバイオリソースカタログに登録されている6,244件の実験マウスの内,1,602件の実験マウスにMP語彙のアノテーションを行った.これにより昨年度までに完了した2,836件に加えて合計4,438件の実験マウスに対するMP語彙のアノテーションが完了した.これらデータをRDF化して,理研BRCのRDFストア(https://knowledge.brc.riken.jp/)に格納,バイオリソース検索システム(https://web.brc.riken.jp/)で, P語彙(例,osteoporosis, 粗鬆症)を用いたキーワード検索およびダウンロードを可能にした.これらの研究成果は,第70回日本実験動物学会総会(2023年5月)で口頭とポスター発表を行い,第71回日本実験動物学会総会でもポスター発表の予定である.
(4)整備したMP表現型語彙の評価とフィードバック
 整備したMPの日本語訳の妥当性を確認した.さらに上記のバイオリソース検索システムの動作確認,検索結果に不具合がないかなどの検証,新規の検索機能の検討を行った.
(5)表現型語彙の利活用の検討
 上記の実験マウスと表現型語彙のアノテーション結果のデータと,外部機関が提供する疾患と表現型語彙の関係データを用いて,表現型語彙を要素とする集合の類似度,およびTF-IDFによる特徴抽出の結果からコサイン類似度を計算し,実験マウスと疾患の関係性を予測する教師なし学習を行った.その結果,203種類の疾患に対応する239件の疾患モデルマウス候補を発見した.これらの研究成果は,第46回日本分子生物学会年会(2023年12月)でポスター発表,BioHackrXiv プレプリントを公開し(2024年1月),2024年5月開催の人工知能学会全国大会(第37回)で口頭発表の予定である.

035RP2023 宮川 創 (国立国語研究所)
日琉諸語の言語類型アトラスLAJaRの開発と分析

 まず、本研究課題の目的を簡潔に述べる。本研究課題は、日本で話される言語(日琉諸語)の地域的変種(方言)の文法データを既存の研究から抽出し、機械可読な形式でデータベースとして公開することによって、データ駆動型の言語類型論研究を促進することが目的としていた。昨年度にデータベースの立ち上げと作業工程の確立を行ったため、今年度はデータベースに収録する文法データの拡大と公開を目標としていた。
 本研究課題の今年度の成果は、収録データ量の増加と公開の準備とまとめることができる。まず、収録データ量に関して、収録方言の数を約30地点分拡大した。また、地点数の増加よって多地点での文法特徴の比較が可能となった。Kato t al. (2023) では、本データベースの紹介を行った上で、本データベースを利用した多地点比較のケーススタディを示した。
 公開の準備に関しては、各データの正規化とメタデータの整備を行った。各データは既存の研究からの抽出作業を行う作業者が手作業で入力することになっており、作業者ごとの異なりが生じる。使用に耐えうるデータベースとして公開するためには、ばらつきのあるデータを正規化する必要があるため、正規化を進行した。また、各方言の緯度経度情報、各文法特徴の言語学的な定義などのメタデータを付与する作業も進行した。正規化とメタデータの付与は、未だ進行中である。
 年度当初の計画では、今年度中にデータベースを公開する予定であったが、公開を行うことはできなかった。その理由は、既存の研究からの文法データ抽出が、当初の見通しよりも作業時間を要したため、公開に耐えうるデータ量が確保できなかったためである。この遅延を受けて、文法データの抽出作業を大学院生のアルバイトに依頼していたのを、専門の業者に依頼した。その結果、業者に依頼した方が作業が効率的に行えることが分かった。そのため、次年度以降は業者に作業を外注する計画である。
 以上で述べたように、本年度はデータベースの拡充と公開を目標としていたところ、作業がやや遅延し、データベースの拡充はある程度達成したが、メタデータの作成とデータベースの公開は完了しなかった。

036RP2023 箕輪 昌紘 (北海道大学)
汎用型氷レーダーによるデータ取得, 解析, 可視化手法の確立

本研究では,南極氷床の氷厚や基盤地形,氷床内部構造を測定するのに重要な氷レーダーによるデータ取得,データ解析,データ可視化手法を目的とするものである.本年度は,ハードウェア,ソフトウェアの開発を実施した.新規でソフトウェア無線や送信アンプ,受信アンプ,アンテナを購入し,レーダーシステムを構築した.ソフトウェアについては,ソフトウェア無線のAPIを使ってソフトウェアの開発を進め,レーダーの制御や信号処理,GNSSとの同期,データ出力などの開発を実施した.取得データは,ノートパソコンに送られpythonで開発をしたGUIでリアルタイムで確認可能である.ハードウェア,ソフトウェアの開発を推進するために,2022年10月,2023年6月,8月,9月には信楽や札幌に集まり議論,実験を行った.研究進捗は極域シンポジウムや国内研究集会で発表した.
 JARE68においては現場で開発したレーダーの動作試験を実施した.ハードウェア,ソフトウェア共に動作を確認したものの,送信アンプの送信波形に歪みが大きく,氷床下の基盤からの反射が不明であった.既存のレーダーで使用していた送信機に置き換えて再度データを取得したところ,基盤からの反射を観測することに成功した.おおよそ300 の氷厚まで測定することに成功している.
 今後送信アンプの変更をし,開発中のシステムで観測が実現することを目指す.また,航空機搭載に向け,処理能力やサンプリング速度の高いソフトウェア無線に置き換えるなど改良を進める.今回現場で取得したデータをもとに,信号処理についてもアルゴリズムの開発を進め,周波数フィルタリング,空間フィルタリング,マイグレーション,振幅補正といった処理関数の実装を行う予定である.

037RP2023 伊藤 伸介 (中央大学)
大規模データの利活用に関する方法的な可能性についての実証研究

本研究は、大規模データのさらなる利活用の可能性を追究することによって、わが国における大規模データの利活用に関する展開方向を模索することを目的としている。そのため、本研究では、大規模データの秘密保護に対する法的・制度的措置あるいは技術的措置について国際比較を試みるだけでなく、利用可能なわが国の公的統計のミクロデータを主な対象として、ミクロデータに対する秘匿措置の方向性を探究することを指向している。
 2023年度については、研究代表者の伊藤が、共著論文「公的統計に対する差分プライバシーの適用と有効性の評価に関する検討―国勢調査を例に―」を刊行した。アメリカセンサス局は、複数の公表された人口センサスの統計表の組み合わせによって個体情報を特定しようとする再構築攻撃への対応策として、2020 人口センサスを対象に、差分プライバシーの実現方式が適用された統計表の作成・公表を行った。本稿では、このようなアメリカにおけるプライバシー保護における攪乱的手法の適用に関する動向を踏まえつつ、わが国の国勢調査の個票データから作成された統計表に適用した、各種の差分プライバシーの実現方式について比較・検証を行った。また本稿では、差分プライバシーの有効性に関するこれまでの実証研究をもとに、公的統計における差分プライバシーの適用に関する方法的な可能性についても論じている。
さらに、研究代表者の伊藤は、共著論文「イギリスにおける大規模データの二次利用の新たな展開―スコットランドの事例を中心に―」も刊行した。本稿では、イギリスを主な対象として、海外における学術研究目的のための公的統計の二次利用や行政記録情報の利活用が進展している状況を明らかにした。具体的には、イギリスで現在行政記録情報の利活用を進める上での法的根拠となっているDigital conomy Act に基づくデータリンケージの展開、さらにはミクロデータ提供に関する方法的な枠組としてのFive Safes Model もとで、イギリスで展開されている大規模データの利活用の方向性を洞察するだけでなく、スコットランドを事例とした上で、主として行政記録情報を対象にしたデータリンケージの方法的な特徴を明らかにした。
こうした公的統計データの秘匿措置に関する海外の動向を明らかにするだけでなく、わが国の公的統計における秘匿措置の適用可能性を追究することは、わが国における公的統計を対象にした統計表の公表やミクロデータの作成・提供を議論する上で有意義であると考えられる。

038RP2023 齊藤 昭則 (京都大学)
南極昭和基地大型大気レーダーによる電離圏沿磁力線不規則構造の観測

南極昭和基地大型大気レーダー (PANSY レーダー) 用いた南極電離圏における沿磁力線不規則構(Field Aligned Irregularity; FAI)の研究を行っている。本研究では、FAI 空間構造を高分解能に推定できるイメージング手法を検討・適用し、FAI の解析を行う。その結果、実データに適用できるレーダーイメージング手法の確立、及び AI の高分解能な空間構造推定が可能になり、先行研究では明らかにされなかった南極域 FAI の空間的性質の解明が期待される。
 2023年度は イメージング手法の検討、及び ②イメージング手法の実データへの適用 を行った。
①イメージング手法の検討
 イメージング手法としてマッチング追跡を採用した。マッチング追跡では、観測イメージと送受ビームパターンの積の相関係数に着目し、観測イメージから送受パターンの積を繰り返し差し引く処理を行う。そのため、グレーティングローブやサイドローブのビームパターンの影響を抑圧しながら、FAI 高分解能にイメージングすることが可能である。また、PANSY レーダーの FAI 測ではビーム形状の異なる3つの送信ビームを用いている。観測イメージから FAI 空間構造を推定する逆問題において偽像の発生をより防ぐため、3つの送信ビーム全てで一貫する解を探索する処理とした。
 上記手法の妥当性評価を行うため、点ターゲットによるシミュレーションを行った。その結果、ビームパターンの影響を抑圧しつつ擬似ターゲットの位置において解を得ることができ、従来手法からの推定精度の向上を確認した。
②イメージング手法の実データへの適用
 2021年11月に実施した FAI 測のデータに対して上記のマッチング追跡を適用した結果、実データに対してもシミュレーション同様に FAI 解を得ることができた。また、時間方向に対して空間的に連続であったため、得られた解は妥当であると考えられた。
 上記のとおり、イメージング手法の検討及び実データへの適用を実施することができた。一方で、マッチング追跡はビームパターンを繰り返し差し引く方式のため計算コストが高いという課題が残存している。今後は上記手法を足がかりとして、より効率的な解法への変更を検討する。

039RP2023 土肥 栄祐 (国立精神・神経医療研究センター)
症状・所見に重きをおいた非典型例も含めた徴候データベースの開発と、生成AIを用いた公開・共有可能な症例データベース構築

(1) 症例蓄積管理システムCaseSharingの利活用
 ROIS-DSの藤原豊史先生が取り組まれている症例データ蓄積・管理システムCaseSharing(https://pubcasefinder.dbcls.jp/casesharing)の開発協力を通し、症例情報の蓄積に利活用する方針とした。CaseSharingは年齢・性別・主訴など基本情報と、他は現病歴、既往歴、社会歴などデータの構造化蓄積と、JSONデータ出力が可能であり、batch処理が可能である。また構造化JSONデータ化により簡便なデータ移行が可能となるため、変換システムも開発中である。この成果は、第68回日本人類遺伝学会にて発表した。
(2) 症状・所見のアノテーションに用いるオントロジーHPOの課題と解決法の模索
 症例テキストデータに症状・所見のアノテーションを、LLMを用い行ったが、症状・所見の抽出は時系列・また症状の有無も可能であったが、HPO(Human henotype Ontology)によるアノテーションは困難であった。この理由として、1) アノテーション機能が不十分、2) POに適した語句が無い、この2つの可能性が考えられた。HPOはエンドユーザーである臨床医には理解し難い構造なため、Phenotypic bnormality内の26カテゴリーにある語句を複数の臨床医で解析し①病名、②状態、③所見、④検査値、の4つに大別できると考え、新たなタグ付けと可視化を開発中である。2024年1月のBLAH8にて提案・発表し、またGenomics nd Informaticsへ出版予定、2024年5月の神経学会にて発表予定である。
(3) 症例データの時系列・重症度を合わせた3次元グラフデータの構築
 患者データにおいて、症状・所見の時系列変化や重症度の扱いは困難であった。症状・所見、時間、重症度、この3つを3次元3軸に置き、グラフデータによる患者情報の可視化と新たなデータ創出を開発中である。グラフ化による情報量の増加や、患者間での類似度推定、また患者―医療者間のコミュニケーション障壁の低減が可能な可視化法と広範囲に展開が可能と考えている。この成果は、2024年5月の人工知能学会全国大会(第37回)、6月のメディカルAI学会にて口頭発表予定である.

040RP2023 名和 一成 (産業技術総合研究所)
重力観測研究のための機関横断型情報交換サイトの構築

本研究の目的は、現存また新規に取得される重力データを、機関を横断して利活用できるインターネット上のプラットフォームを開発すること、そのプラットフォームからアクセス可能な、かつ、機械判読可能なデータを充実させることであった。
本研究で試作したプラットフォーム(情報交換サイト)は大きく2つの構成要素からなり、1つは既存のデータベース・システムのリンク集であり、もう1つは論文や報告書を単位としたデータセットのリンク集である。データを可視化するポータルサイトの役目とし、実データはデータの帰属先、あるいは、データ作成者が所属する機関に置くこととした。
既存のデータベース・システムとして収集したのは、国内各機関が公開しているデータベース・文献リポジトリ等の情報である。また、掲載対象としたデータセットは、基本的には論文公開済みのデータとし、先ずは共同研究者が所属する国立極地研究所と産総研地質調査総合センターの研究に関連するデータを扱うこととした。
重力データは大きくは以下の2種類の形式にまとめられる。時間変化を知るための重力連続観測データと空間変化を知るための重力サーベイ・探査データである。超伝導重力計連続観測データは極地研・産総研ともに保有しており、極地研では独自のWEBサイトから公開し、産総研では北海道大学地殻変動データベースに登録・公開している。産総研では時系列データから変換したスペクトル画像等を重力観測データ集として公開しているが、試作したリンク集にそれらの公開ページアドレスを掲載した。
サーベイ・探査データについては、論文・報告書単位のデータセットページを用意し、それらのデータセットページを学術雑誌や機関リポジトリ毎にスプレッドシート上で整理できるようにした。Microsoft社のクラウドサービスであるOneDriveを用いて共同で編集できるようにし、その内容がWEBサイト(データセットページ)上に即時反映されるような仕組みとしたが、実際の運用方法については、データが帰属する機関・研究グループやデータセットの作成・編集者の意向も汲んでルールを検討する必要がある。

041RP2023 金澤 雄一郎 (国際基督教大学)
パンデミック後の時代の信頼・信頼に値することとは?楽観と現在の幸福感とともに考える:国際共同研究

次年度以降に本調査を実施する準備として,さまざまな対象についての(Trust)/信頼性(Trustworthiness)をテーマとする国際比較調査の構想を練り,調査仕様策定の準備を進めた。
(1) 調査の基本的な枠組
金澤-Kwantes間で理論的な枠組の準備を進めた。ここでは主に日本とカナダの間の国際比較を想定した検討を行った。
(2) パイロット調査仕様の検討
2024年2月にはKwantesが来日し,金澤を含めDS受入教員の前田との間で,パイロット調査仕様検討や,その調査票内容に関する打合せを行った。
(3) 調査票内容の再検討(カナダ)およびパイロット調査の実施(日本)
(2)の検討に基づき,カナダ側では大学院生等に調査票素案の詳細な検討を依頼し,調査票の改善に関するフィードバックを得た。他方日本側では,今後の調査設計や本調査の際の統計的な分析法の検討に資するべく,専門ウェブ調査会社に委託したパイロット調査を3月下旬に実施した。
 現状での成果は,パイロット調査の実施を行ったところまでであり,24年度以降にパイロット調査の分析および,本調査の仕様検討等を進める。
 2024年度にも同じテーマでの共同研究の申請を検討している。

042RP2023 久保田 好美 (国立科学博物館)
後期更新世における全球表層水温データベースの構築と水温変動の要因解明

後期更新世は、氷期・間氷期に特徴づけられる時代であり、こうした大規模な全球変動に伴う水温変動の俯瞰的な解析は、海洋の長期変動の理解につながるとともに、気候モデルの評価に必須である。そこで本研究では,プロキシ(間接指標)データのより深い理解を目指し,これまでに公表された後期更新世(過去40万年間)の表層水温データを統合し、気候モデル等での比較が容易なデータベースを構築することに加え、水温の長期的な変動要因について明らかにすることを目的とする。プロキシデータは同じ海域で得られたデータであっても、プロキシ(有孔虫や円石藻)の違いによって水温の変動幅や位相が異なることが知られている。2023年度は,こうした違いを季節や水深、年代モデルの誤差等を考慮して解析する。過去40万年の表層水温データが蓄積されている地点は,43地点存在する。これらの地点について,まずはプロキシデータが持つ季節性を評価することにした。観測記録水温の年平均と堆積物の最表層部であるコアトップ(=堆積物の最も新しい時代)の古水温を比較し,特徴を精査した。一般的に,高緯度に行くほど水温の季節性は大きくなるが,同じ緯度帯でも海盆の東西で寒流・暖流の影響の違いや湧昇により表層水温の季節性は異なる。こうした地球上の海水温分布と季節性の特徴が,古水温にどのように影響をするかに着目した。
本研究では,円石藻が合成する化合物であるアルケンノンの不飽和度を指標にした古水温と,プラクトンである浮遊性有孔虫殻のマグネシウム・カルシウム比から求められた古水温の2種類を対象とした。月平均の観測水温とのコアトップ古水温を比較した結果,アルケノン古水温は約半数が10〜11月の月平均に近い値を取るがそれ以外は季節が様々であった。また,浮遊性有孔虫についても,約半数が秋期(10月)の水温を示したがアルケノンと同様にそのほかの地点は示す季節が様々であった。2つのプロキシに共通する特徴としては,観測年平均からの古水温のずれが,年平均水温の高さに依存せず,年間の水温の変動幅に依存していた。 まり,高緯度に行くほど古水温の季節性(年平均からのずれ)も大きくなるだという狭い海域での予測は,全球での比較では成り立たず,東西方向,あるいは地域的な水温の年間変動幅やそのパターンによってより強く影響を受けることが示唆された。

043RP2023 新堀 淳樹 (東海国立大学機構 名古屋大学)
研究データの可視化・検索向上を目指したメタデータマネジメントの実践

2021年4月に、内閣府・統合イノベーション戦略推進会議によって、「公的資金による研究データの管理・利活用に関する基本的な考え方」がまとめられ、大学における研究データ管理体制を整えることが急務の課題となっている。そのような背景にあって本研究では、デファクトスタンダードに近いメタデータスキーマを用いて、メタデータ整備が比較的進んでいる宇宙地球科学分野をテストベッドとして、1. タデータスキーマのマッピングと変換、2. 機関リポジトリへのメタデータの登録、3. 他機関への適用可能性の探索について重点的に実施した。
 まず、これまでの事前調査結果に基づいてメタデータマッピングテーブルや変換のためのXSLTファイルのプロトタイプを作成し、SPASEメタデータから学術リポジトリに登録に必要なJPCOARメタデータに変換を行った。そして、変換したメタデータを学術リポジトリに登録する際にこれまでは手動で行っていたが、比較的多くのデータファイルを自動で一括登録できるようにするために、名大図書館側で専用のパソコンを用意して自動登録用のスクリプトを作成した。その結果、名古屋大学宇宙地球環境研究所が管理している太陽地球物理学分野の地上観測データに自動登録スクリプトを適用したところ、特に大きな問題なく自動で機関リポジトリに登録機関リポジトリ上に登録され、さらにそこから国内外の検索サイトにハーベストされてそこでも検索できるようになったことで、観測データそのもの、SPASEメタデータ、また研究に特化したデータ検索システムに関する知識がない方でも、比較的容易に広い範囲の研究データを見つけられるようになった。この時に登録したメタデータの件数は、284件であった。一方、最近になってSPASE、JPCOARメタデータスキーマともにバージョンアップが行われたため、SPASE2.6.0とJPCOAR2.0のメタデータスキーマに対応してマッピングテーブルのアップデートとXSLTプログラムの改修に向けた検討を開始した。
 次に、名古屋大学で開発したメタデータマッピング手法の他機関に適用できるかどうかを探るため、九州大学の宇宙科学分野の共同研究者および図書館職員と議論を開始した。その結果、同大学においてメタデータマッピング手法を適用することができ、180件の研究データを九州大学機関リポジトリに登録することができた。その際、本取り組みを実施するにあたって、大学・研究機関によって機関リポジトリへの登録システムが異なることが判明し、その環境に合わせた自動登録スクリプトの作成を行った。今後、他機関・他分野に本取り組みを展開する際に留意しなければならない点であることが分かった。

044RP2023 増田 耕一 (立正大学)
東日本に凶作をもたらした天候の時空間構造の文書記録を活用した解析

受入れ教員の市野氏がとりくんできた日記の天気記述からの日射量の復元推定について、その方法と東京の1720年からの時系列の結果を、国際学会で発表し、年度末に論文投稿に至った。また、1830年代の天保の飢饉の期間について、経済史家 神戸大学) 高槻泰郎氏とともに、日本全国18地点の日射量と大阪米価をあわせて検討した。その結果、1836年に関東から北九州に至る帯状領域で5月から9月まで日射量の少ない状態が続き、米だけでなく他の作物も不作だったことが、1837年7月をピークとする米価高騰につながったと考えられた。1838年も日射の少ない冷夏だったがその期間が短く、米価高騰も小規模ですんだ。解析の時間分解能を1か月にしたことで、それが1年であった先行研究ではわからなかったことが明らかになった。この件は水文水資源学会で発表するとともに論文にまとめ、まもなく投稿予定である。
今年度の作業としては、東北・関東の複数の災害年表の江戸時代の記録をディジタイズした。そのうちとくに、積雪地方農業経済調査所 (1935) 東北地方凶作に関する史的調査』の東北6県の凶作の年表を可視化した。これによって、1836年の7-8月の東北地方北部が 天気から推定した日射量は平年なみであるにもかかわらず) 寒冷であったことの確証が得られた。
並行して、近代の機器観測記録に基づいて、日射量に関連した気象要素の時空間パターンを把握する研究を進めている。日照時間の観測は1890年代からあるが、毎日の値が気象庁から公開されているのは1961年以後だけなので、「デジタル台風」の原簿アーカイブに収録された手書き原簿画像からディジタイズを進めた。ただし、品質チェックがまだできておらず、それを利用した解析には至っていない。
手はじめに、気象庁から公開されている月ごとの値により、1901-2021年の日照率の主成分分析をおこなって日本全国規模の日照の分布パターンを見た。東北の凶作年のうちに、第1主成分が示す東北南部から北九州にかけて日照不足の夏 1902, 1905年など) と、第2主成分が示す東北で日照不足だが西日本では日照の多い夏 (1913, 1934年など) ある。この件は日本地理学会で発表した。
また、天気記述から復元推定した1821-1850年の日射量を大気上端の日射量で規格化したものについて同様な主成分分析を試みた。データ欠損が多いのでまだ確信がないが、夏の第1主成分のパターンは近代の日照率のばあいと同様であった。

045RP2023 大田 達郎 (千葉大学)
大規模言語モデルとセマンティック・ウェブ技術を活用した生物試料データ基盤の開発

本研究では「データ収集と評価の準備」と「大規模言語モデル(以下LLM)によるオントロジーマッピング」の2つを目的とした。

データ収集と評価の準備に関しては、良好な成果が得られた。まず我々はBioSample ータベースに対するLLMでの自動キュレーションの結果を比較・評価するため、人手によるキュレーション(以下、マニュアルキュレーション)データを探索した。その結果、BioSample ータベースに含まれる細胞株の情報をマニュアルキュレーションしたデータを含む ChIP-Atlas データベースの情報が最適と判断した。我々は hIP-Atlas のマニュアルキュレーション結果100サンプルを元に111の正解セットを作成した。この正解データを元に既存の自動キュレーション手法 MetaSRA, MN Bernstein, et al. 2017) を評価した結果、精度 0.93, 再現率 0.72 あった。扱う属性名に関する既存手法の限界から、LLMによって再現率の改善が可能であるという仮説を得た。

LLMによるオントロジーマッピングに関しては共同研究開始時と終了時においてLLM技術の状況が大きく異なった。研究開始時には、学習済みのLLMモデルを専門性の高いテキストによって追加学習(ファインチューン)することで性能が向上するとされていた。しかし現在では AG (検索拡張生成) 呼ばれる技術が本研究のようにID文字列を扱う問題に適していることがわかっている。そのため、まずモデルのパラメータ数(大きいほど高い計算性能が必要)を元に、小型〜大型のモデルの実行に必要な計算性能と、本研究のタスクに対する性能を評価した。その結果、高性能GPUでのみ動作する大型のモデル Llama2 70b) と、比較的安価なGPUでも動作する中規模のモデル (Llama2 13b) を比較すると、 規模のモデルでもサンプル情報を扱えるという結果を得た。そこで対象とするエンティティをLLMによってテキストから抽出し、文字列の類似度を元にオントロジーマッピングするという手法を実施した。LLMによって正しく抽出できた場合、再現率は .856 に向上した。
次の課題として 1. ドメインの専門家の意見を元に正解セットを改善する 2. ロンプトを改善することで再現率をより向上させる 等が挙げられる。これらの課題を解決するため、引き続き共同研究を進めたい。

046RP2023 針尾 大嗣 (摂南大学)
人文社会科学系学生のためのデータサイエンス教育スキームに関する研究

 本共同研究では、人文社会科学系の学生でもプログラミングが不要でGUI操作で機械学習・ディープラーニングができるH2O-3 lowを使ったデータサイエンス教材を作成した。成蹊大学経営学部の2~4年生9名を対象に実施した小規模セミナーでの利用結果では、学生は概ねH2O-3 lowでの機械学習とデータ分析の操作に問題を感じず、データ分析ができると評価し、データサイエンス教育のツールとして有用性があることが示された。
 一方で、統計や機械学習、ディープラーニングに関する前提となる知識が無いと、結果やモデルの解釈に困難が伴う、あるいは、データ分析の手順や操作方法は問題なく習得できても、H2O-3 lowの操作が機械学習のどのプロセスに対応しているのかが理解できない、そのため、今後自分の研究などで、どのように機械学習を活用できるかがイメージできないなどの課題が指摘された。
今回の学習教材はH2O-3 lowによる機械学習でのデータ分析手順を習得することを主眼とし、今後一連のデータサイエンス教育の中で、Pythonで行っているデータ分析を補完することを想定している。そのため、機械学習やデータ分析に関する知識の学習には対応していないため、参加した学生が機械学習の全体像を理解し、学習に活かすことが困難だと感じたという学生の評価につながったと考えられる。そこで、本研究では、例えば、標準的な半期15回のデータサイエンス教育科目を想定した機械学習の一連の学修スキームに対応した教材の開発と拡充に2024年度以降課題として取り組む。なお、本セミナーで試用した教材については社会データ構造化センターを通じて公開を予定する。
また、本研究では、テキストデータの可視化手法に関する教育教材の検討として、国立情報学研究所IDR事務局を通じて、ヤフー株式会社から提供を受けた「Yahoo!知恵袋データ(第3版)」を活用し、テキストマイニングの手法を用い。Yahoo!知恵袋データをテキストマイニングで解析し、共起ネットワークによる可視化手法(吉見)やChatGPTプロンプト開発への応用(岩井)に関する研究を行っている。吉見を中心に本共同研究で得られた知見を、学生の研究指導などで学生教育で活用が、今後本共同研究で得られたデキストマイニングや可視化分析に関する研究と教育に関する知見を生かし、データサイエンス教育のための教材化とその公開に取り組む。

047RP2023 塩田 さやか (東京都立大学)
実環境下における時系列情報のプライバシー匿名化に関する研究

本研究の目的は,音声を扱う様々な識別システムにおけるデータのプライバシー保護に関する基盤となる枠組みの確立である.音声を扱う識別システムには音声から発話内容の書き起こしを行う音声認識や音声から話者を推定する話者認識、性別や年齢を推定する年齢推定、年齢推定など様々なタスクが存在する.これらのタスクにおいて,収集に必要な情報は音声のすべてとは限らない.音声認識では発話している話者が誰なのかを示す話者性は不要となる一方、話者認識においては発話内容に依存せず発話者が誰なのかを推定する情報のみが必要となる.そのため包括的なデータのプライバシー保護技術を検討することは難しく,システム毎に適切な保護技術が必要となってしまうという問題がある.そこで本研究では,秘密鍵を用いた音声の暗号化手法について提案し,様々なシステムで利用可能であること,さらに高い攻撃耐性を持つことを報告した.
提案手法である秘密鍵を用いたプライバシー保護法では,秘密鍵としてランダム直交行列を用いており,クラウドサービスなどの安全ではない第三者が提供するサービスを用いる際に,音声に暗号化を施すことでそのまま音声を聞いても何を話しているのか,誰が話しているのかを判別することが困難になるという手法となっている.またサービス上で暗号化された音声を復号化することなくそのままサービスに用いても暗号化を施さない場合と全く同じサービスを提供することが可能となるようにサービスで用いる深層学習に基づくモデルを設計している.そのためクラウドサービス上では音声を復号できず,モデルも正しいユーザでなければ本来の目的どおりに使用できないことから第三者がデータを覗き見ようとしても情報を得ることができない.また,秘密鍵の交換が非常に容易であるため,鍵が漏洩してしまった場合には鍵を交換するだけで再びプライバシー保護をかけることができるという特徴がある.提案法の有効性を示すための実験では,提案法が目的どおり適切に用いることを示すだけでなく,提案法の頑健性をより客観的に評価するために多くの秘密鍵のパターンを生成し,秘密鍵の頑健性を示した.さらに,プライバシー保護法の適用範囲の広さを示すために音声認識,話者照合,環境音認識3つのシステムにおいて評価をし,提案法の汎用性の高さについても示した.

048RP2023 マルコフ コンスタンティン (会津大学)
深層学習を用いたデータ同化による熱中症リスクの分析と予測

本研究では、気温から熱中症の重症度(死亡、重症、中等症、軽症)の解析・予測するための機械学習手法を開発し、その精度や有効性を検証した。本研究では、日々観測される気温と熱中症患者数データを用いた時系列予測を扱う。Recurrent eural etwork(RNN)やTransformerなど、時系列モデリングに適した様々なディープラーニングモデルがあるほか、データ間の時間関係と空間関係を同時に捉える高度な時空間モデルも提案されてきた。本研究では、予測性能に対する時間と空間の寄与度を調査するために、時空間モデルと時間モデルの両方を使用した。使用したデータは、神奈川県、東京都、埼玉県、群馬県、栃木県、茨城県、千葉県の7都県における熱中症による死亡者数、重症者数、中症者数、軽症者数(2008 2021年、7 - 月)、ならびに都道府県別の各日の最低気温、平均気温、最高気温である。モデルの学習には8年分のデータを使用し、バリデーションとテストには異なるそれぞれ2年分のデータを使用した。最初の実験ではGRU-cell NN、Transformer、Temporal Convolution Recurrent etworkを含む時系列データに対する深層学習により熱中症患者数の予測モデルを構築した。その際は都道府県毎の個別の学習、および全都道府県を用いた合同の学習の2パターンを検証した。また、拡散畳み込みRNN(DCRNN)や適応グラフ畳み込みリカレントネットワーク(AGCRN)のような時空間グラフモデルによる予測についても実装した。ここでも、都道府県毎の学習と、全都道府県を用いた学習の2通りを検証した。最後に以上で構築した各モデルの予測精度を平均絶対誤差と平均二乗誤差で評価した。その結果、DCRNNの精度が最良であったことや、各モデルの予測精度に統計的に有意差が認められないことなどを確認した。また、都道府県毎に学習をすることで予測精度が改善する傾向も確認した。

049RP2023 橋本 真美 (地震予知総合研究振興会)
地震計アレイ観測による南極昭和基地周辺の微小地震及び氷震の震源推定

本研究の目的は、昭和基地周辺での微小地震・氷震活動の規模・性質を明らかにすることである。解析に使用したデータは,申請者が東オングル島に2017年から2018年に設置した2ヶ所の地震計アレイ観測点で収録された地震データである。対象データについてはこれまでに予備解析としてセンブランス解析を行い、震動源の推定を試みている。震動イベントを検出するパラメータや震源位置推定方法に改善すべき点があったため,1. 象とする震動の検出,2. 震動源の位置推定,3. 他の観測データとの比較,4. 波形テンプレート作成という流れで進めることとした。
1については新たにウェーブレット変換を導入した。収録データには地震や氷震の他にしらせやヘリコプターによるノイズも含まれている。これらの特徴を抽出することで,ノイズとイベントの切り分け、及びこれまでの手法では検出されなかったイベントの判別が可能となった(図1)。今後は機械学習を取り入れた画像解析に取り組み,膨大な連続データから自動で判別できるようにすることを検討している。
2については予備解析で行った震源推定手法の改善を試みた。STA/LTAでトリガーしたイベントに対して,センブランス解析により得られた波の到来ベクトルから震源位置を推定するにあたり尤度関数を用いた。本研究では簡単のために媒質の地震波速度は一定と仮定し,各アレイでの尤度分布L(A),L(B)をすると,尤もらしい震源位置はL(A∩B)=L(A) (B)から推定される。結果の一例を図2に示す。
3,4については1,2をより多数のデータに適用することで今後検討を進める予定である。また本研究の成果は地震学会(2024年)もしくはJpGU(2025年)で発表を予定している。データはリクエストに応じて提供し,特に3に関わるが多視点での南極の振動現象の理解に努める。

図1. ウェーブレット変換の結果.左:ヘリコプターノイズ.右:新たに検出されたイベント. 図2. 左:3次元空間の尤度分布.左からL(A),L(B),L(A∩B).右:L(A∩B)が最大値をとる時の水平断面図.

050RP2023 吉沢 明康 (新潟大学)
オミクス解析のための自動簡易アノテーションツールの開発

 本研究は、共同研究者の熊本大学医学部荒木准教授からアノテーションの依頼を複数回受けたことが契機となっている(なお本課題の申請時期、申請者は所属組織の異動が重なっていたが、本申請提出直後に新ラボの教授と談話していて、教授も類似の依頼を別の研究者から受けていたことが判明し、需要の大きさが改めて確認された)。
 荒木グループは現在、申請の背景で述べた太平洋クロマグロのプロテオーム解析を行っており、本開発はそれと並行して進めた。この結果、BBH法に基づくオーソログ推定とアノテーションのためのスクリプトは完成し、web ool化したときにCGIとして実行するための枠組み部分のスクリプトも完成した。またマグロタンパク質のアノテーションも完成しており、当初予定では共同研究者がプロテオーム解析結果を23年度中に論文発表する予定だったが、これは今年度に繰り越しになった。
 このように今年度は概ね、実施計画に従って開発を進めることができた。但し共同研究者の研究に現時点では直接必要にならないことから、計画の2)で示したオーソログ間での残基の対応付けは実装を先送りし、代わりに次年度に予定したNCBI axonomyデータを階層表示するための関連ライブラリの調査を行った。
この過程でDBCLSのTogoGenomeの内容について管理者と情報交換し、これはTogoGenomeの表示内容の改善(通常、ヒトの遺伝子とは約2万個のprotein oding eneを指すが、TogoGenomeでは約4万個となっており、打ち合わせの末これは約2万個に修正された)につながった。この情報交換は継続中である。
 また本課題審査員の「アノテーション手法に関しては、様々な工夫があると良い」という指摘には完全に同意するものであり、今回改めて調査を行い、DDBJの担当者とも情報交換した。この結果、DDBJでのアノテーションは遺伝子予測と同時に行っており、予測済みの遺伝子セットに対する汎用的な機能予測としては、オーソログクラスターを利用するものとBBH法を用いるものに大別されることが確認できた。前者は過去の研究課題で利用しており、今回の課題で後者を用いるのは概ね妥当と考えられる。また、この情報交換の際に、出力結果の ID寄せ”によって本ツールの結果を容易にDDBJに提供できるようにすることで合意した。

051RP2023 立川 雅司 (名古屋大学)
新興科学技術の食品への応用に関する消費者調査の分析とアーカイブ化に関する研究

本共同研究は、大きく以下の3つの目的を掲げて3年間に亘る研究を実施した。
(1)既存データの活用とその分析によるゲノム編集技術の食品応用に対する消費者意識にかんする研究成果の創出
(2)既存のデータの分析による社会調査方法論の開発と研究成果の創出
(3)既存データのアーカイブ化による社会科学分野のオープンサイエンスへの貢献
本年度は特に(1)と(3)に関する活動について報告する。
(1)データ分析による成果創出
本共同研究においてこれまでに蓄積した複数回の調査データには、調査時期は異なるものの、調査モードやデータ収集方法をできるだけ統一したうえで、同一の質問項目を繰り返し測定している部分が含まれている。具体的には、ゲノム編集技術の食品への応用に対する消費者の全体的な(Allover)価値意識やリスク意識、そしてベネフィット意識を問う質問項群目である。それらの質問項目の調査回ごとの分布の違いを比較検討することによって、日本におけるゲノム編集技術の食品への応用に対する消費者意識の動向の特徴をとらえることができる。今年度の分析では、繰り返し実施した項目の分布が調査回ごとに異なっていることが示唆されたため、今後はその変動がどのような要因によってもたらされているのかについて、他の変数との統計的な関連をはじめ、調査時点での政策的背景や経済事情など定性的な要因も含めて検討を進める予定である。
(3)データ寄託の準備
 本共同研究では、ゲノム編集技術の食品応用に対する消費者意識を測定した複数のデータセットをすでに保有しており、これらのデータを用いた成果発信先には海外のジャーナルも含まれる。このため日本語版だけでなく英語版でも公開用データセットを作成し,社会データ構造化センターの「社会調査データ提供事業」での公開用に寄託することを構想した。今年度は,一連の調査について,日英両語によるコードブックおよび付帯情報文書の整備,調査票の英訳等の作業を進め,特に2016年度実施調査についてデータセットの公開準備がほぼ整った。当面は秘匿すべき項目がないかなどの最終的なチェックを経て,2024年度中には社会データ構造化センターへのデータ寄託を進められる見込みである。

052RP2023 浅利 晴紀 (気象庁地磁気観測所)
即時情報活用のための地磁気短周期変化自動判別システムの開発

本研究の主題は、地磁気定常観測により得られる連続データから地磁気活動に関する特徴を抽出する処理を自動化し、24時間体制で即時配信するシステムを構築することである。抽出の対象となる地磁気活動現象は、規定の特徴を有する一方、自然現象であるが故に個々の事象の発現形態はかなりの多様性を呈する。そこで、気象庁に蓄積された過去の手作業による読み取りデータベースを活用し、機械学習による柔軟で客観的な自動判定法の導入を目指す。計画の初年度となる今回は、地磁気活動度を表す「K指数」の判定を対象とした。K指数とは、1日を3時間ごと8区間に分け、各区間における地磁気変化のうち静穏日曲線からの較差を準対数的に0~9の10階級に分類するものである。ここでは従前の手動読み取りの特性を継承しつつ、正答率の高いK指数を出力する機械学習モデルの開発を試みた。その結果、総合正答率においては80%を超える高い水準で正答を出力させるモデルを構築することができた。これは、判定に熟達した者同士の読取り値の一致率に匹敵する精度であり、実用に資する自動判別システムの構築が可能であることを示唆する。開発の過程で得られた知見は以下の通りである。①K指数の判定において、静穏日曲線の具体的な形状を与える作業プロセスを省略することが可能である。地磁気観測の現業で普及している判定手法では、手動・自動にかかわらずK指数の定義に忠実に従い、静穏日曲線の具体的形状を何らかの仮定により与えている。一方、今回開発したモデルの判定アルゴリズムは根本から異なっており、静穏日曲線を直接参照していない。即ち、既存手法の欠点とも言えた「本来は不確な静穏日曲線」の同定は、判定の実践においては必ずしも本質ではない。②勾配ブースティング決定木アルゴリズムを採用した今回の開発では、複数のK指数を一括で分類するより、モデルをK指数に応じて分割し、個別に判定する(大きい順にふるいにかける)手法が有効である。個々のK指数に従って、判定に要する枝の深さや最も寄与する入力データが異なることもあり、各々にチューニングされた個別モデルの導入が判定精度の向上に大きく資する。ただし、K=1と2の判定については、他よりもやや低い正答率を得るに留まった。③入力する特徴量のうち判定に大きく寄与したものは、比較的シンプルに導出されたスムージング曲線からの較差である。特に多項式(2次と3次)回帰による特徴量は、K=0,1,2の判別に対する寄与率が突出して高い。一方、ガウシアンフィルタ、サポートベクター回帰(SVR)、畳み込みニューラルネットワーク(CNN)を用いた特徴量の追加は正答率向上に寄与しなかった。以上は、K指数判定の更なる精度改善のほか、今後も継続する他の地磁気現象の自動読み取りアルゴリズムの開発において有用となるものである。

053RP2023 今城 峻 (京都大学)
宇宙科学・超高層大気科学分野データのデータ駆動型研究への利用促進のためのPythonベースのデータ取得・解析ツール開発

本研究では、宇宙科学・超高層大気科学分野データのデータ駆動型研究への利用促進を目的として、Pythonベースのデータ取得・解析ツール開発をおこなった。前年度の学生アルバイトを主体とした開発体制から、今年度はソフトウェア開発業者への依頼に切り替え、未完成のデータロード関数の開発を進めた。依頼前に各関数の仕様書テンプレートを作成し、各機関の研究メンバーで分担して仕様書を作成した。データファイル読み込みに関わる一部モジュールに関しては、研究メンバーの側で作成を行い、業者は基本的にファイルのダウンロードと変数の整理・格納の部分を担当した。1月に中間報告をうけ、不明点の対処法などに関して指示を行った。結果として、研究期間終了時点で、依頼した8関数のうち6関数(京大Rish PS・流星レーダー・ラジオゾンデ、東北大HFレーダー、GAIA netcdf読み込み関数の修正が必要))は完成し、残りの2関数もデータファイル読み込みのモジュールの開発も含めて開発継続中である。全体としては、約2/3 19関数/30関数)の関数が完成した。開発中のツールはhttps://github.com/iugonet/pyudasで一般公開されている。11月11日には2023年度研究集会「太陽地球系物理学分野のデータ解析手法、ツールの理解と応用」において、β版ツールを用いたデータ解析講習会を京都大学でおこない、約30名の学生・研究者 工学系大学・学部の学生も多数)が参加した。講習では多様な太陽地球物理学分野のデータにpythonの最新の解析ツールを適用できる環境の構築をサポートした。
開発未完了のプログラムは元となるIDLの関数やデータそのもの構造が複雑なため開発の難易度が高いが、IUGONETのメンバーによる直接の開発を中心としつつ、該当データを使って研究をしている学生などに依頼することも検討して開発を継続する。

054RP2023 塚原 東吾 (神戸大学)
オランダ系航海日誌の研究:気象記録の復元を中心にしたデータ科学的研究

本研究の目的は、オランダ船による航海日誌から、特に天候記録をデジタル化し、それを利用して古気候復元の精度向上をはかるものである。オランダのログブックから得られたデータは、統計的、計算的、人間的視点から俯瞰できるものであり、オランダ史についての具体的な現場的知識(人間的視点)については塚原が、気象学・気候学的な解析(計算的・統計的視点)については松本が検討を行い文理の専門家がコラボしてデータ駆動型研究を行っているものである。
この目的を達成するために、本年度2023年10月の採択以降、オランダ(国立文書館)・北海道(江差開陽丸記念館)などで得られたデータのデジタイズおよびその検証を進めた。これについては、神戸大学塚原研究室院生学生らに単純労働のための謝金が充てられた。現在、「日亜気候データプログラム(JCDP)」にアップして、オープンソースとして公開するための準備中であり、次年度予算での検証作業も継続する予定である。
また佐賀をはじめとする国内各地での調査を行った。中でも長崎での気象学関係の会議、特にシーボルトの気象観測についてのデータなどを検討するシンポジウムにも松本・塚原・前田が参加し、今後の方向性を模索検討した。
またこれと並行して19世紀中盤に日本に船籍を移した咸臨丸や開陽丸を含め、新規に発見された佐賀藩の日進の航海日誌も分析の対象に加えて、その記録を可能な限りデータベース化を進め、これも塚原研究室での単純労働のための謝金が充てられた。
佐賀については11月に塚原が調査で訪問し、佐賀・三重津海軍所跡(佐野常民と三重津海軍所跡の歴史館)および幕末海軍の蒸気船の専門家である佐賀大学・坂本卓也史との協力関係を構築した。
前田は長崎でのシンポジウム参加の後、鹿児島(薩摩藩)海軍の文献資料などの調査を行なった。年度末には松本が神戸に来て、再度、デジタイズの検証および研究知合わせを行なった。なお海上における日射量の変動について、共同研究者・市野による復元方法を適用し、オランダ船の航跡とその季節性を考察することで、当時の交易に対するモンスーン気候の影響についての知見を得られることが期待され、来年度以降、取り組むための準備を行った。

055RP2023 戸張 靖子 (麻布大学)
ジュウシマツの家畜化に伴う行動進化の遺伝的基盤の解明

鳴禽類ジュウシマツは、中国から輸入されたコシジロキンパラからの家畜化(仮親として子育て上手な形質や白の羽色への育種選抜など)が推測されている。本研究では、野生系統コシジロキンパラと家畜系統のジュウシマツの形質の違い(攻撃性、新規なものへのストレス耐性、歌のバリエーション)に関連する分子的・遺伝的な基盤整備を目的としている。

ジュウシマツにおける人為選択による選択的一掃の痕跡を探るため、研究代表者が取得したre-seq data ジュウシマツ、コシジロキンパラ各1個体分)に加えて、公開されているジュウシマツ5個体分、コシジロキンパラ2個体分のdata(ジュウシマツ合計6個体; シジロキンパラ合計3個体)、ならびにジュウシマツの参照ゲノム配列を用いて、各集団の多型(SNP)dataを取得し、塩基多様度(π)に関するゲノムスキャン法を適用することで、コシジロキンパラ集団に比べてジュウシマツ集団で塩基多様度が著しく低下しているゲノム領域を探索した。その結果、当該ゲノム領域が約15Mb分(上位1% indow分)検出され,  その上に349遺伝子が存在し, のうち263遺伝子でそのCDS領域がoverlapしていた。上記263遺伝子には、thyroid hormone receptor lphaが含まれ、上位5% window上の1178遺伝子ではchemokine受容体が有意にenrichされていた。 類では甲状腺ホルモンが学習能力の向上に関与していることが報告されており、ジュウシマツの家禽化と複雑な歌の学習能力の獲得に関連する遺伝基盤の一つである可能性が考えられた。
ジュウシマツの家禽化に関係する因子をさらに絞りこむため、研究代表者はさらに、ジュウシマツの3集団から雄ジュウシマツ18個体分、1980年代に日本で作出された和パールジュウシマツ(複数のキンパラ属とのハイブリット)5個体分、台湾野生由来の雄コシジロキンパラ15個体分のre-seq ata(150PE、8Gb分)を取得した。今後は、全38個体分のre-seq ataに関するデータ解析を行い、先行研究のニワトリにおける家禽化関連遺伝子(例えば細胞間・細胞内情報伝達などの脳関連遺伝子群)の情報も手掛かりにしながら、より高精度にジュウシマツの家禽化関連遺伝子の探索を計画している。

056RP2023 寺内 菜々 (筑波大学)
褐藻類の走光性・走化性の系統プロファイリングによる複合的走性の制御因子の探索

先行研究ならびに研究代表者による褐藻配偶子の鞭毛運動解析により、走光性および走化性はCa2+/cAMPシグナリングによる制御が示唆されている。しかし、褐藻類の走光性・走化性を制御するタンパク質群の実体は未解明であり、本研究で以下のアプローチを行った。
褐藻類の一部では雄性配偶子が走光性を示さず、葉緑体内に存在する眼点を失っている。配偶子が走光性を示す2種(シオミドロ、モズク)、走光性を示さない3種(マコンブ、ワカメ、Macrocystis)の全ゲノム情報を用いてオーソログ(オルソグループ)推定を行い、バイナリー(0/1)表現による離散値系統プロファイル法を適用することで、走光性を示す種に存在し、走光性を示さない種で消失している遺伝子群(グループAと呼ぶ)を探索した。その結果、全オルソグループ15627個のうち、462個がグループAとして検出された。さらに、走光性を示さない種のアノテーション情報の再検証により、430個は走光性を示さない種で確かに消失しているものと考えられた。さらに、走光性を示す褐藻ムチモの雌雄配偶子のトランスクリプトーム情報に基づくフィルタリングを行った結果、212個(グループBと呼ぶ)がムチモ配偶子で発現していることが明らかになった。グループB遺伝子群には、先行研究で報告された後鞭毛に局在する新奇青色光受容体タンパク質(ヘルムクローム)や、Ca2+/cAMP/リン酸化シグナリング関連遺伝子群が含まれていた。その内、新奇Ca2+結合タンパク質(CABAF1)は、研究代表者の実験的検証により、ムチモ雌雄配偶子の前鞭毛の軸糸に存在していることが示された。さらには、緑藻クラミドモナスで眼点形成に関与するタンパク質に類似度の高い遺伝子が含まれていた。以上の解析から走光性で協調して働くと考えられる鞭毛および眼点で機能する遺伝子群が検出されている可能性が示唆された。
今後は実験的アプローチとして、グループB遺伝子群を標的とした特異的抗体による細胞内局在の検証、遺伝子破壊による走光性・走化性への影響の検証を計画している。また、情報科学的アプローチとして、新たに公開された数十種の褐藻類および近縁種の全ゲノム情報を活用し、離散値系統プロファイル法に加えて連続値系統プロファイル法やミラーツリー法により共進化情報を抽出し、走光性・走化性関連の候補遺伝子の推定も検討中である。

057RP2023 川田 健太郎 (産業技術総合研究所)
遺伝子制御ネットワークダイナミクス解析の基盤となるデータセットの構築

遺伝子は細胞状態を決定する最も基本的な因子のひとつであり、遺伝子制御ネットワーク全体の振る舞いをシステムとして見ることで、初めて細胞の挙動を理解することが可能となる。近年の計測技術の発達により、遺伝子制御ネットワークの網羅的な構築が可能となった。一方で、そのほとんどが特定の細胞状態における静的なネットワークを予測するものであり、状態変化に伴う遺伝子制御ネットワークの時間的な振る舞いを明らかにした例はない。そのため本研究では、single-cell NA-seqデータを用いた一細胞レベルでの転写量推定と情報理論を統合することで、細胞の状態変化に伴った遺伝子制御ネットワークのダイナミクスを再構成する手法を開発して、これを用いたデータ整備を実施する。具体的には、scRNA-seqデータにより遺伝子発現量および転写量を一細胞レベルで推定し、また公的データベースから抽出した各転写制御関係において、遺伝子間を伝達する情報量を算出するツールの実装を行う。
本支援期間において申請者は、主に前年度までに取得したscRNA-seqデータを用いた転写および分解速度の推定プログラムの実装に従事した。本研究においては、4sUによるRNA標識を施した細胞内RNAについてのscRNA-seqデータを取得している。ここで4sU標識はRNA内におけるT-to-C置換を惹起する為、リードに含まれる塩基置換を同定することで標識中に新規合成されたRNAと標識以前から存在するRNAを分別することが可能である。また標識中に新規合成されたRNAの割合は遺伝子特異的な転写および分解速度により決定されることが知られている。従って本研究で実装したプログラムは、NGSリードのアラインメント、細胞固有の一塩基置換の同定、各リードに含まれるT-to-C置換の計上をシームレスに行う。また各リードで計上されたT-to-C置換の数を入力とするベイジアンネットワークモデルを構築することで、転写および分解速度を細胞毎にゲノムスケールで推定した。
今後の予定としては、得られた成果を論文として公開するとともに、実装したプログラムにより推定された転写および分解速度が個々の上流遺伝子発現量とどのように連関するかを情報学的な指標を用いて定量する。これを基に、遺伝子制御ネットワークのダイナミクス解析を可能とするデータセット構築および整備を行う。

058RP2023 邵 帥 (法政大学)
19世紀以降の気象変化に対する日本古民家の適応史

今年度の研究成果の3点を以下のとおりまとめる。①古民家に関する一次資料や文献の収集。②二点目は古民家資料のデジタル化と整理。③古民家と気候・環境の相関関係の確立。
① 本研究では、『日本の民家調査報告書集成』シリーズおよび古民家の修復・改修に関する書籍、報告書を中心にして資料収集を行った。なお、データベースの多様性と正確性を確保するため、上記文献に記載される事例に加え、44件の文化財もデータベースに追加した。今年度は四国地方を主に調査対象とし、合計268件を選定した。一部の事例の情報不備により、2024年3月に香川県へ現地調査を行い、具体的な立地や現状を把握して、データとしての信憑性を確かめた(図1)。
図1 間島家住宅(筆者撮影)
② 古民家のデータを整理する際には、より厳密な地理情報の分析を進めるために、正確な座標や建築年代を確認する必要がある。具体的な建築年代が不明である建築物が多いので、17世紀から20世紀までの各世紀を上期、中期、下期に分けて考察していく。そのほか、建築図面を収集したものの、1980年代に行われた実測として、記録方法はすべて手書きであり、寸法の不備、誤差、詳細の欠如などの問題が多く判明された。デジタル化を実施するなかで、実測図を修正しながら書き直した(図2)。現在、徳島県の56件の図面が完成しており、各民家について、床高、外廊下の長さ、建物の全長、開口部の長さ、屋根勾配を計算してからリストアップした(図3)。
図2 1980年代の実測図(『日本の民家調査報告書集成』による)
図3 徳島県の情報リスト(筆者作成)
③ 古民家の地理情報に基づき、四国地方の古民家の標高(Elevation)、傾斜方向(Aspect)、傾斜角(Slope)の分布特徴を分析した(図4は、徳島県の古民家79箇所の傾斜角分布を示している)。同時にQGISを利用して民家の分布状況を把握し、立地環境を踏まえた事前分析を行った。その結果、四国地方における民家の分布類型は海岸型、河川型、平野型、山林型の4つに分類されることがわかった。一方、古民家形態の変化と気候変動との関係を明らかにするために、古民家が立地する地域の気候の特徴を調査した。気象庁55年長期再解析データのモデル面データ(水平解像度約55km)を利用し、1991-2020年の気温、風速、比湿および総降水量の平均値を計算し、その特性を分析した。
図4 徳島県古民家の地理位置分布及び傾斜角分布

059RP2023 金井 雅之 (専修大学)
多様な調査方式に対応した国際共同調査のマネジメントとデータ共有

 各国・地域における多様な調査方式の実態および社会科学データのマネジメント・アーカイブに関する世界的な動向を共有し、課題を洗い出すための研究ミーティングを、2024年2月7・8日に専修大学生田キャンパスを拠点にハイブリッド形式で開催した。日本、韓国、台湾、インドネシア、タイ、モンゴル、フィリピン、ベトナムの8ヶ国の代表者が、それぞれの国・地域の実情と課題を報告し、質疑がおこなわれた。
 日本からは、近年のオープンサイエンス/オープンデータ推進への取り組みが、欧州や英国との比較を交えつつ紹介された。韓国からは韓国社会科学データアーカイブ(KOSSDA)、台湾からはアカデミア・シニカ内のSurvey esearch Data rchiveにおけるデータ整備や公開への取り組みが、それぞれ紹介された。韓国と台湾の報告はいずれも、主として量的調査データが念頭に置かれている。
 一方、東南アジアやモンゴルからは、主に質的調査を念頭に置いた事例報告がなされた。インドネシア、タイ、フィリピンからは、本研究チームが2019~2023年にアジア8ヶ国・地域で実施した幸福に関するインタビュー調査の実査経験に基づき、国際比較が可能な質的調査をおこなう際の諸課題が報告された。具体的には、東南アジア諸国のように国内に文化的・宗教的・言語的多様性が存在する場合に共通のプロトコルにしたがって調査をおこなうことのむずかしさ、実査前にすべての国・地域の研究者がこうした多様性について十分な議論を積み重ねることの重要性、デジタル化や社会的分断が進むパンデミック後の世界において調査手法のあり方を見直していく必要性などが指摘された。また、調査データの収集や公開については、モンゴルとベトナムから、調査の依頼者、実施者、資金源などが多様でデータの帰属や公開の可否がまちまちであること、またインドネシアも含めてデータアーカイブやリポジトリの整備が不十分であることなどが、課題として挙げられた。
 全体として、東アジア諸国・地域では量的調査データを中心にオープンデータの推進に向けた取り組みが進みつつあるのに対して、東南アジアやモンゴルでは文化的・言語的多様性による質的調査のむずかしさと、オープンデータに向けた国レベル・研究機関レベルの体制の未整備が、課題として認識されていることがわかった。

060RP2023 庄 建治朗 (名古屋工業大学)
古日記天気記録の時間分解能と空間代表性に関する研究

 本研究では、近世日本の古気候復元に広く⽤いられる日記天気記録から気象・気候に関する情報を最大限に引き出すため、明治・大正期の測器による気象観測データと照合可能な日記天気記録を用い、定性的な天気記述を定量的な気象変数に変換する手法を開発するとともに、その復元精度と時間分解能、空間代表性を評価することを目的とした。
 そのため、まず前年度までの共同研究(「古日記天気記録の定量化に関する研究」2020-2022年度)で蓄積したデータに追加する形で、照合する古天気記録と気象観測データの整備を進めた。気象観測データについては、国立情報学研究所で運営するウェブサイト「デジタル台風」の歴史的データアーカイブ(http://agora.ex.nii.ac.jp/digital-typhoon/data-archive/)により、IIIFビューアで手書き気象観測原簿の画像データを閲覧しながら観測データをデジタル化する作業を進めた。対象地域は近畿(京都)および東京周辺とし、京都・大阪・彦根・東京の日別または時別(4時間ごと)の降水量・雲量・日照時間データの入力を行った。古天気データについては、明治・大正期の12日記について毎日の天気に関する記述を抽出整理するとともに、人文学オープンデータ共同利用センターが運営する歴史資料に関する知識と経験の共有システム「れきすけ」(https://rksk.ex.nii.ac.jp)への登録を行った。
 続いて古天気記録と気象観測データとの照合を行ったが、その際に「詳細率」と「重複率」という2つの指標を定義し利用した。「詳細率」は、天気記録の詳細さの程度を数値化したもので、日記に降水が記録される閾値と強い負相関が認められた。この関係を用いれば、日記による降水記録の閾値の違いを調整し、複数の天気判断基準の異なる日記を接続することが可能になると考えられる。「重複率」は、2つの天気カテゴリーに対応する気象変数の分布が重なり合う部分の割合で定義され、天気記録と気象要素との対応関係の強さを表す。この指標を用い、時間帯別の降水量および雲量のデータと比較したところ、日記の降水の有無の記録は主に昼間の状況を反映しているが夜間の状況も一定程度反映していること、「晴」と「曇」の記録は昼間の雲量と対応が良く夜間の状況はほとんど反映していないことなどが明らかとなった。

共同研究集会

001RM2023 横井 翔 (農業・食品産業技術総合研究機構)
昆虫における次世代シーケンスデータ解析および公共データベース利用 I

2024年2/8,2/9にDBCLS柏の葉にて共同研究集会「昆虫における次世代シーケンスデータ解析および公共データベース利用 I」を開催した。18名の参加者があり、大学や公的機関ばかりではなく民間企業からの参加があり、昆虫の次世代シーケンス解析や公共データベース利用に関する講演に対して様々な立場、視点から活発な議論がされた。
松田 直樹氏(京都大)から「RNA-seqで探るアブラムシの季節適応と細菌共生」という題目で講演をしていただいた。アブラムシの季節タイマーの分子メカニズムを解析解明するためにRNA-Seqを実施したこと、周りにRNA-Seq解析をしている人が以下なったがGalaxyを使ってデータ解析をしたことをお話しいただいた。
工藤 愛弓氏(山口大)から「ヒメシュモクバエの集団遺伝学的解析」という題目で講演をしていただいた。ヒメシュモクバエの集団間の構造解析を次世代シーケンスデータを使って行った結果をお話しいただいた。シーケンスデータを解析するソフトウェアのstacksやADMIXTUREを用いた集団構造解析を行う際の苦労した点などもお話しいただいた。
千葉 和氏(DBCLS)から「公共ゲノムデータベースのサーベイから見える現状と課題」という題目でお話しいただいた。データ解析をメインミッションする研究者の立場から、データベースの中で節足動物のゲノムがどの程度占められているかをお話しいただいた。
柿沼 駿輔氏(東京農工大) らは 「コウチュウ目セダカコブヤハズカミキリの後翅退化機構の解析」という題目で講演をしていただいた。翅の退化、後翅形成のメカニズムの解明のためRNA-Seqを実施していることをお話しいただいた。
荒木 充氏(九州大)からは「畜産害虫サシバエの天敵寄生蜂キャメロンコガネコバチのゲノム解析」という題目で講演をしていただいた。畜産害虫サシバエのサシバエがもたらす問題を解決するためにその天敵のキャメロンコガネコバチを用いた防除を社会実装するための問題点や社会実装に向けてゲノム解析をどのように利用するかをお話しいただいた。
最後にデータ利活用などに関する議論を行った。様々な次世代シーケンスデータを使ったメタ解析を利用した新規知見の獲得をどのようにするかなどの議論がなされた。
全体を通じて、活発な意見が行われ、有意義な研究会になったと考える。

002RM2023 大向 一輝 (東京大学)
Linked Open Dataに基づく歴史・文化研究推進に向けたLinked Pasts Japanワークショップの開催

本研究課題では、2024年3月7日から9日にかけての3日間、軽井沢のNII国際高等セミナーハウスにおいてLinked asts apanワークショップという題目で共同研究集会を実施した。参加者は研究代表者、受け入れ教員を含めて計16名であった(「共同研究参加者」欄参照)。本ワークショップでは、Linked Dataならびに知識グラフ技術を用いた歴史・文化研究に従事した経験を持つ研究者を集め、複数のテーマを設定し議論を行った。テーマは、「パブリックとLinked Data」「言語資源とLinked Data」「人文学におけるLinked Dataの普及・教育」「総合データポータル・知識ベース」「資料の注釈・構造化」「資料情報の整備・研究」「基盤データ整備」である。本ワークショップの詳細については、共同研究集会開催にあたって開設したウェブサイト(https://sites.google.com/view/lpjkickoff/home)を参照されたい。
Linked Dataを活用した人文学研究や、データ整備をめぐっては、各々の機関やプロジェクトが個別に研究を進めてきてはいるものの、これらの研究の成果を共有し、共通の課題について議論する場が整っていなかったが、今回の共同研究集会では、場所・地名や時間といった人文諸科学が共通の土台とする基盤情報の整備から、個々の資料のアノテーションといった応用的な課題に至るまで、幅広い問題について専門家同士が熟議する「場」を提供することができた。
具体的な成果としては、主に以下の3点をあげておきたい。
1) Linked Pasts Japanワークショップの開催
2) テーマに沿って、現在のLinked Dataと歴史・文化研究における具体的な課題を洗い出し、今後の議論や研究における共通課題を見出すことができた。議論の中で提起された課題や提案については、上記ウェブサイトの「プログラム」欄から各セッション名をクリックすると、それぞれのセッションで議事録として用いたGoogleドキュメント文書を閲覧できるので、そちらを参照していただきたい。
3) 新たな人の繋がりや共同の契機を生み出すことができた。例えば、関野氏のHuTimeデータと国立歴史民俗博物館が保有するデータの連携や、参加者同士でのアプリ開発の可能性について議論を行った。
これらを踏まえて、今後、理論・技術両面からの研究を通じ、Linked Pasts Japanワークショップの開催