「ROIS-DS-JOINT 2021」成果報告一覧表

001RP2021 吉野諒三（同志社大学）
意識の国際比較データの公開と個人情報保護のあり方に関する国際連携研究

本研究の目的は、統計数理研究所を中心に戦後60年以上にわたり収集してきた戦後60年以上にわたり収集してきた「日本人の国民性調査」及び「意識の国際比較」データについて、個人情報保護など法律・倫理等考慮しながら公開利用を促進することである。そのため、主として既存の調査報告書（研究リポート）の単純集計表、属性別詳細集計表等々、関連文献等々を吟味しWEB上での公開を進めつつ、他方で個票レベルでのデータ公開に向けて、データの匿名化、関連する法律や倫理の動向を研究しながら、その一般への啓蒙を推進する。
本事業は2020年度より開始され初年度末までに、以下の進捗を見ていた。
１. WEB上での公開情報の整備：「日米欧7カ国調査データ」及び「東アジア価値観国際比較調査データ」の詳細属性別クロスデータ集計を掲載。
２. 共同研究者間での個票レベルの調査データ共有：「アジア太平洋価値観国際比較調査」データの共有.今後のメンバー全員での共有のあり方、国を超えた公開のあり方について、データ共有の範囲や一般公開への適切な時期などを継続検討することとした。
３. 国内外の個人情報保護法等の研究社会データ構造化センターにおけるデータ公開のあり方について、IT専門の法律家の意見などを通して教育啓蒙を続けた。
４.東アジア・東南アジアの社会調査ネットワーク連携において、各国でのデータ収集、研究者間でのデータ共有、データ一般公開について、法律的・技術的課題を検討した。
５. その他、既存の「米国西海岸日系人調査」の現地調査監督者カシマ・テツデン（ワシントン大学名誉教授）が保管する調査回収原票及び関連する大量の資料・書類を、社会調査構造化センターへ送付してもらい長期保管する手続きを進めた。
2021年度は、1については、「環太平洋価値観調査」及び「アジア太平洋価値観比較調査」の詳細属性別クロス集計を整備し追加公開した。2については、既存の各国際比較の個票データの最新版を確認し、基本人口属性（性・年齢・学歴、収入、職業等など）との関連で、共同研究者内で共有できるVersionと近い将来一般公開できるVersionの型の検討を進めた。性別・年齢別の変数だけならば、各国データは全国規模の調査であるため個人特定はできないので、最初の一般公開データはその形式をとり、順次、属性変数をどこまで追加すべきか検討をしながら、一般公開Versionを更新していく方針を固めた。3については、前年同様、IT専門の法律家による特別講演会で、特に日本の個人情報保護関連の法律のこの2，3年中の変更と大学等の教育機関における対処の仕方を研修した。4については、アジアにおけるウェルビーイングの社会的メカニズムの特徴と多様性を解明することを目的として日・韓・台・モンゴル・インドネシア・ベトナムで実施された質的調査の成果がまとめられた。
その他、5を含め、過去の調査で蓄積されていた調査票（大量の個票の束）、調査報告書、関連資料等々を個人情報保護に配慮しながら、専門業者を活用しpdf化作業を進め、将来長年にわたる保管と、近い将来の公開資料の基となる資料づくりを開始した。作業は膨大なものとなるため、本DS共同研究予算を遙かに越えた予算が必要だが、引き続き、関連事業とも連携を取りながら、次年度以降も継続する予定である。

002RP2021 鄭躍軍（同志社大学）
継続的国際比較調査データの二次分析と公開方法の実証的検討

目的
本研究課題の目的は、アジア・太平洋諸国の価値観を中心とした継続的国際比較調査データのメタ分析により、国際協力促進の一助となる情報を抽出するとともに、情報の一般公開方法を探究することにあった。
本課題は2019年から遂行しており、最初2年間は、継続的調査データのデータベース化及び関連資料の収集を礎とする価値観計測用の指標と尺度の考案を主として遂行した。一連の研究活動により、以下の知見が得られた。
１）継続的価値観国際比較調査データの統合的解析を行った結果、異なる国・地域で暮らせている人びとの価値観を網羅する指標と尺度が確立できた。
２）既存の調査データのメタ分析を遂行した結果、アジア・太平洋諸国の価値観の実態、構造的特徴の共通点と相違点が全体的に明らかになった。
３）諸国民の価値観の集団的特徴を基に、基礎情報として有益な調査データ及び分析結果を一般公開するための方法を模索してきたが、多様な情報の統合及び公開にかかわる諸課題が浮き彫りになった。
最終年度の2021年度は、一次調査データの公開範囲、公開用データベースの構造を見直した上で、各国・地域の価値観の構造的特徴を抽出し、国際比較分析により国・地域の共通点と相違点の解明を焦点に絞った。今年度の主な成果は以下の通りである。
１）リレーショナル型データベースの構築では、同じ質問文と選択肢で継続的に調査した質問項目に対して、時系列に整理することには大きな問題はない一方、質問文や選択肢が途中から変更した場合、継続的調査項目として扱うべきかどうかを慎重に扱うべきとこが確認できた。
２）約150項目の質問の分析結果を基に、宗教観、信頼感、道徳観、家庭観、職業観、金銭観、幸福観、シンボリック文化観、ジェンダー観、リーダシップ観、科学技術観、国際関係観などの12の生活領域で価値観の中核的な範疇を網羅することができると検証した。また、価値観の表層と深層の関係を計量的に考察した結果、深層の共通点を把握した上で、表層の相違点の意味を理解することが価値観の説明にとって重要であることが検証できた。
３）価値観の形成過程と影響因子の働きを特定するための概念モデルの構築では、すべての国・地域に共通する価値観の構造はないことが明らかになったため、汎用性の高い統計モデルより、全体的な概念モデルを基に、国･地域別のモデルの特化をも視野に入れるべきことが分かった。
４）アジア・太平洋諸国の価値観の集団的特徴を様々な視点から分析した結果、地理的な近さが国際協力にプラスの働きを必ずしももつと限らず、むしろ価値観の根底にある共通性を生かすことが効果的である。
なお、総合的社会調査(GSS)、国際社会調査プログラム(ISSP)などの国際比較調査データなどの一般公開事例があるが、今後、組織的な担当窓口の確立が不可欠である。

003RP2021 能勢正仁（名古屋大学）
深層学習を用いたジオスペース環境擾乱リアルタイム監視・警報システムの開発

*** リアルタイム観測システムの構築 ***
これまでに研究代表者は、愛知県豊田市稲武町において、微小地磁気変動を測定するためのフラックスゲート磁力計を設置し、継続観測を行ってきた。この観測所では、リアルタイム処理用データ記録システム、A/Dコンバーター、モバイルルーターを導入しており、観測所から名古屋大学(愛知県名古屋市)へ観測データをリアルタイムで送信するための仕組みが準備されている。稲武観測所から少し離れた場所において、同様の地磁気観測システムおよびリアルタイムデータ転送システムを導入すれば、2か所からのデータを同時に機械学習プログラムで処理することが可能になり、グローバルな空間スケールを持つ特徴的な地磁気の変動(Pi2地磁気脈動)と観測所ローカルな人工ノイズや電化鉄道線由来のノイズを簡単に分離することができるので、より精度の高い検出が可能になると期待できる。そこで、今回の研究期間中に、リアルタイム処理用データ記録システム、A/Dコンバーターを新たに一セット購入した。候補となる観測所は、岐阜県高山市清見町にあり、そこにおけるノイズ環境の事前調査などはすでに終わっている。しかしながら、フラックスゲート磁力計およびリアルタイムデータ転送システムの設置は、新型コロナウィルスの蔓延状況を鑑み、今年度中に行うことはできなかった。機器一式はすでに揃っているので、高山観測所からのリアルタイムデータ転送の実装は次年度の課題である。

*** 深層学習プログラム開発に関する成果発表 ***
オーロラ活動や磁気圏中のエネルギー突発解放現象に伴って出現する特徴的な地磁気変動(Pi2地磁気脈動)を検出するための深層学習プログラムの開発は、2020年度から開始しており、これまでにResnet50と呼ばれるニューラルネットワークモデルを用いて、適合率=0.943、再現率=0.913、F1 score=0.927という成績を得ている。これは、Resnet50であれば、90%以上の高精度でPi2地磁気脈動が発生したかそうでないかを分類することができることを示している。こうした深層学習プログラムの設計詳細や特徴的な地磁気変動の検出精度などについて、その成果を2021年6月にオンライン開催された日本地球惑星科学連合2021年大会において発表した。

*** 地磁気観測データの管理・公開 ***
稲武観測所で得られたデータは、国際的に広く使われているIAGA2002フォーマットにてデータベースを構築しており、他の研究者からデータ利用の要望があった場合には、すぐに対応できるようになっている。また、データDOI(doi:10.48673/16281-75600 )を付与し、近年、論文出版の際に求められるようになった「データ出版」・「データ引用」へ対応できるようにした。

004RP2021 金尚宏（名古屋大学）
カリフォルニアマウス（Peromyscus californicus）における概日時計の光同調変異体Free runnerの原因遺伝子の探索

本研究は、睡眠・覚醒などの約一日周期の生理リズムである概日時計の制御機構の解明の一環として、カリフォルニアマウス（Peromyscus californicus）における概日時計の光同調変異体Free runnerの原因遺伝子の探索を目的としている。本年度は、特に概日時計の中枢である視交叉上核において発現している遺伝子に着目し、野生型集団と変異型集団それぞれ12個体分のRNA-seqデータを用いた多型解析を実施した。まずカリフォルニアマウスRNA-seqデータを近縁種であるモデルマウス（ハツカネズミ：Mus musculus）ゲノムにマッピングを試みたものの、両者間のゲノム配列の違いが大きく、定量的なデータ解析は困難であることが分かった。一方、公開されているカリフォルニアマウスのドラフトゲノムには遺伝子アノテーショッンの情報が登録されておらず、遺伝子領域のリファレンスとして使用することはできなかった。このため、まず視交叉上核において発現しているタンパク質遺伝子のリファレンス配列を得るため、野生型RNA-seqデータからトランスクリプトをde-novoアセンブルし、これをリファレンスに用いるという戦略を採用した。ここで得た初期候補トランスクリプト配列をBlastおよびP-famデータベースに対して検索することで、他の生物で報告されている遺伝子と高い相同性を持ち、あるいは既知のタンパク質機能ドメインと高い相同性を持つトランスクリプトを29,018個同定することができた。次にFree runner原因遺伝子座を同定する目的で、ここで得られたリファレンス配列に対し、野生型と変異体のRNA-seqデータをクエリーとしてバリアントコールを行い、両者を比較することにより、変異体特異的な多型候補サイトを選別した。さらにRNA-seqデータのリードデプス等の条件を検討することで、変異体特異的にhomozygousでアリルを持つと予想されるSNPsを3,690カ所、indelを118カ所同定することに成功した。この解析から得られた情報に加えて、プロモーター/エンハンサー等の非タンパク質コード領域の変異についても解析対象とすべく、さらに詳細なゲノム解析を押し進めた。具体的には、野生型個体およびFree runner変異個体から交配によるF1およびF2個体の家系を作成し、そのうちF0個体を含めた43匹についてのRAD-seq. (Restriction Site Associated DNA Sequence) データを得た。得られたRAD-seq. データ、家系情報および光同調変異の表現型情報から、カリフォルニアマウスのゲノム上での光同調変異体Free runner原因遺伝子領域の探索は、次年度での計画である。これと並行して、本研究の実験を担当している研究参加者（学部学生）がRNA-seq.等のデータ解析の一端を担うべく、ゲノムデータ解析支援センターにてバイオインフォマティクスの技術指導を受けた。具体的には、Unix系OSの基本的な操作から、ゲノムデータ解析に必要な解析環境の構築の仕方、RNA-seq.データの解析手順と解析結果の評価の仕方などの技術習得である（当初の計画では9日間の日程で調整していたが、新型コロナ感染症の影響により日程を3日間に短縮し、必要最小限の基本技術のみの習得に変更した）。また、本研究とも深く関係する概日時計に関わる他の制御機構の研究において、研究代表者らはモデルマウスの細胞内において、Ca2+制御因子が概日時計の制御機構に深く関わり、それは哺乳類やショウジョウバエなど広く生物種に保存されていることを明らかにした（発表成果：日本分子生物学会、シンポジウム「低代謝・低体温の制御：冬眠とその周辺領域」）。今後は、本研究におけるカリフォルニアマウスを用いたデータ解析においても、それらとの関連性についての検討も計画している。

005RP2021 堤田成政（埼玉大学）
空間集計単位と空間スケールに着目した地理空間モデリング

本研究の目的は、対象の地理的現象(空間プロセス)を適切に表現するための、空間集計単位と空間スケールに着目した地理空間モデリングの提案としている。そのうえで、データ・プロセス統合型アプローチの提案を目指した研究に取り組む。
本年度は、以下の３点に着手した。
- カテゴリー型空間データモデリングに対して「定数和制約と誤差相関を考慮した組成データのための地理的加重回帰」の手法開発に取り組んだ。これは、空間集計単位に応じて決定する組成比に着目し、カテゴリー値を決定づける組成情報を直接モデリングするために考慮しているものであり、カテゴリー型データの背後に潜む組成値を直接扱う。その際に空間的誤差相関により空間的なプロセスを考慮する工夫を取り入れたモデルとなっている。地理情報システム学会と、国際学会として著名なGIScienceにて研究発表を実施し、引き続き手法開発を進め、論文化を目指す。
- 計数形空間データモデリングに対して、ポアソン回帰モデルを空間データに適用する際に課題であった、疎なカウントデータに対応するための新たな地理的加重ポアソン回帰の手法開発に取り組んだ。犯罪や疫学イベントなど、突発的に空間上に発生するイベントをモデル化するため、従来の地理的加重ポアソン回帰モデルでは、イベントの位置情報とその頻度を説明変数を用いて説明する事が行われてきたが、場所によってはその発生イベントが疎であり、正しくモデル化が実現できないことを指摘し、そのうえで、この課題に対処するためにポアソン分布を対数正規分布に変換する新たな手法を取り入れ、より頑健なモデルを開発している。地理情報システム学会、と国際学会として著名なGIScienceにて研究発表を実施し、今後はCOVID19発生イベントデータに適用・応用することで、疫学的な時空間プロセスの解明にも取り組む。
- 連続型空間データモデリングに対して、空間プロセスに柔軟な空間カーネル形状を考慮可能なフレキシブルカーネルによる地理的加重回帰モデルの開発に取り組んだ。従来の地理的加重法ではモデルに対してカーネルの形状・大きさが一定であったが、近年ではmultiscale GWRが提案され、説明変数ごとに１つのカーネルが定義されるようになった。しかしながら、空間上である特定のカーネルにて空間プロセスを表現するにはデータの空間特性を十分に考慮することができないと考え、空間的に柔軟なカーネルの形状・大きさを変動することのできるモデルを検討し、地理情報システム学会で発表した。今後はAICなどで当てはまりの良さを検討する必要があり、引き続き開発に従事する。

006RP2021 鐘ケ江弘美（農業・食品産業技術総合研究機構）
育種方法に関するオントロジーの構築

品種育成や遺伝研究において育種情報を活用するためには、系統・特性情報、ゲノム情報などを提供・利用しやすいシステムが必須である。育種情報は論文の一部に記載され、紙媒体の冊子に保存されていることが多い。電子化されている場合にも試験研究機関ごとに異なる項目や語彙、フォーマットで記載されており、研究機関をまたいだ統合検索を行うためには多くの労力を必要とする。このため、各試験研究機関が所有しているデータを合わせて利用することが難しい状況であった。例えば電子化されていない系譜情報は数代前の系譜しか確認できず、系譜情報がつながらないという問題が生じていた。
育種情報を効率的・横断的に利用するためには、語彙やデータフォーマットの統一が重要である。特定の作物だけではなく、様々な作物に対応した設計が必要となる。例えば、系統についてのメタ情報を共通語彙を用いて記述することで、高い相互運用性が実現できると考えられる。本研究では海外の先行のオントロジーとの対応を取りながら、育種方法に関するオントロジーを構築した。
海外の育種方法についての語彙を抽出するために、自殖作物してコムギ・ライコムギのデータベース「Genetic Resources Information System for Wheat and Triticale(GRIS)」、他殖作物としてブドウのデータベース「Vitis International Variety Catalogue (VIVC)」を調査した。 GRISでは、交配組み合わせと引用文献が合わせて記載されており、文献によって記述が異なる場合も網羅できるように設計されていた。 VIVCでは、育成者・文献に由来する交配組み合わせ(Pedigree as given by breeder/bibliography)だけでなく、マーカーによって証明された交配組み合わせ（Pedigree confirmed by markers）も記載されていた。たとえば日本の柑橘類の場合、品種の親子関係がほとんど分かっていなかったが、DNAマーカーを活用した遺伝解析により品種の両親となる系統が特定されている。そこで、本研究においてもマーカーによって証明された系譜情報を引用文献と合わせて記述できるように整備した。また、VIVCでは育成者情報だけでなく、育成機関をコードで記述することにより、機関の名称変更にも対応可能であった。 GRISでは育成者として認定当時の機関名が入力されている。育種機関のコードでの記述については現在検討中である。
例えば小麦の農林10号の場合、NOURIN 10、NORIN10などの表記ゆれが想定されることから、各データベースにおけるシノニムの入力方法を調査した。 GRISではシノニムと引用文献を合わせて記載されていたが、VIVCでは引用文献は記載されたおらず、例えば、巨峰の場合、CHUFENG・JU FENG・JUFENG・KIOHO・KYOHO・KYOHOUなど、世界各地の別名が入力されていた。国内の遺伝資源のデータベース「農業生物資源ジーンバンク」を調査したところ、品種名登録についてのルールが設定されており、品種名と品種和名のみ入力されていた。そこで、本研究においてはprimary nameとして「農業生物資源ジーンバンク」の表記を採用し、シノニムの管理方法については今後も検討することとした。
次にデータフォーマットの統一を目的として、交配組み合わせの記載ルールを設定した。 How to write a CIMMYT maize pedigreeおよび IRRI Breeding program managementで公開されている記載方法を調査したところ、これらはいずれも Purdy et al. (1968)の記載方法を基にしており、本研究においても同様のルールを設定した（表）。また、連続的な戻し交雑など複雑な交配の場合も考慮し、1回の交配を1行に入力するルールを方式を採用した。
農研機構ではこれらの共通語彙と統一フォーマットを利用して系譜情報をRDFデータとして整備し、系譜情報グラフデータベース Pedigree Finder を試験公開している。トーゴーの日シンポジウム2021にて、”系譜情報グラフデータベース「Pedigree Finder」”というタイトルで、この共通語彙とデータのRDF化についてポスター発表を行った。 (doi:10.18908/togo2021.p050 )。また、”系譜情報グラフデータベース「Pedigree Finder」”というタイトルで論文を投稿中である。
本研究の成果である育種方法についてのオントロジー、Pedigree Finder Ontology (PFO)は公開し、育種方法を記載する際の共通フォーマットとしてコンピューターが参照する情報の基準として活用する。

007RP2021 加藤千尋（信州大学）
昭和基地宇宙線観測データのためのリアルタイム・アーカイブシステムの構築

昭和基地での宇宙線観測データを公開しているウェブサイトにおいて,表示の不具合修正ならびに視認性向上のための改正をおこなった。今回の予算を活用したウェブサイトの改修によって，より時間分解能の高い表示も可能となり，NMとMDの比較や時刻情報の取得もしやすくなった。太陽活動の新サイクルに入って明瞭な宇宙天気現象が観測されたことで，GMDNでの異方性解析との関連付けをより具体的に検討できるものと考えられる。
また,中性子計のデータについては世界的な中性子計データのデータベースであるWDC(World Data Center),NMDB(Neutron Monitor Data Base)へのデータ提供について先方と協議中である。

008RP2021 加藤太一郎（鹿児島大学）
日本産ゲンジおよびヘイケボタルのゲノム解析の完成

本研究の目的は、日本産ホタル(ゲンジボタルおよびヘイケボタル)という遺伝子資源についてゲノム情報の全体像を明らかにすることである。申請者は2014年度より貴センターの野口英樹先生と共同研究体制を構築し、日本産ホタルに対する次世代ゲノムシーケンスデータを取得、またこれらを用いたゲノム再構築およびフェージング、またRNA-seqデータの収集と遺伝子構造解析を行ってきた。特に2019年度には本支援を受けてアノテーション作業を前進させ、アノテーションは不完全ながらDDBJに登録することもできた。そこで本年度は、①これまでのシーケンス解析によって得られた日本産ホタルのゲノム配列に対する詳細な遺伝子アノテーションを完了すること、②ゲンジボタルとヘイケボタルの遺伝子構成の比較を行うことで日本におけるホタル進化の過程を解析すること、の2点を遂行することを目指した。このことにより、未解明のままだったゲンジボタルのゲノム情報の全貌を明らかにできると期待した。また本研究の進展によって、地域間および地域内の遺伝子多様性を体細胞DNAレベルで比較できるようになり、日本各地にホタルが進出していった経路をより正確に推定することができるだけでなく、発光周期の違いのような表現型を決める遺伝子解明の加速化を期待した。具体的検討結果は以下の通りである。
2019年度までの検討で、日本産ホタルはヘテロ接合度が高いことが分かっていた。特にヘテロ接合度が高いことが予想されたヘイケボタルは、ゲンジボタルに比べてゲノム配列決定に困難が予想された。そこで新たなプラッタフォームを用意し、これまでにシーケンシングされたRAWリードを用いてアッセンブリーを再構築した。その結果、最終的に得られたヘイケボタルのゲノムサイズは、993 Mb であった。また、ゲンジボタルゲノムも同様のプラットフォームにて処理することで662 Mbのサイズとなった。一方、ヘテロ接合度の高さはゲノムアノテーションの精度にも影響を与えることが予想されたため、2019年度まで利用してきたゲノムアノテーションパイプラインを大幅に改修し、両日本産ホタルゲノムスキャフォールドに対する詳細な遺伝子アノテーションを実施した。
上記の新たなゲノムアノテーションパイプラインでは3種類の生物学的データを使用した遺伝子予測を行った。つまり1. 種特異的RNA-seq、2. 既知の大規模なタンパク配列、3. 統計学に基づく予測モデル（ab initioに基づく遺伝子予測）である。「1」は最も正確な遺伝子モデルを構築できうるが発現している遺伝子しか対象にすることができない。「2」は既知タンパクと相同性を有する場合は「1」に次ぐ精度の遺伝子モデルを予測しうるが、データベースに蓄えられているタンパク配列の決定精度に強く依存する。また、ターゲットの遺伝子に対して相同性が低いタンパクしか登録がない場合は予測精度が低下する。「3」は網羅的に遺伝子を予測することが可能である一方で遺伝子に該当しない予測エラーが多い。新たに構築したパイプラインでは、このような特徴のあるデータを有機的に組み合わせることで精度と網羅性の両立を図った。得られた結果に対して、ゲノムアノテーション精度を評価するソフトウェアBUSCOによる評価を行ったところ、ゲンジボタルに対するスコアが98.5%、ヘイケボタルでは98.4%と非常に精度の高い解析結果であることが判明した。またこれらのスコアは、既報の5種類の発光昆虫ゲノム解析結果に対するスコアよりも明らかに優れていた（2018年にリリースされたヘイケボタル：90.0%、東部ホタル：95.4%、クリックビートル：96.5%。2020年にリリースされた A. terminalis：95.3%、L. yunnana：94.9%）。
ゲンジボタルとヘイケボタルは近縁種でありながら、そのゲノムサイズが大きく異なっていたため、この理由を明らかにするために遺伝子構成等の比較を行った。その結果、ヘイケボタルにおける増加したゲノムサイズの大部分はリピートと呼ばれる繰り返し配列が関係しており、それらリピート配列がゲノム中の特定の領域ではなくゲノム全域に分布していることを明らかにすることができた。
さらに、既に公開されている北アメリカ産ホタルやクリックビートル、アジア産水生ホタルのゲノム情報とも比較し、発光酵素ホタルルシフェラーゼの遺伝子進化に関わる情報をまとめることもできた。具体的には、ゲンジボタルゲノムの解析を通じて発見された4種類の新規発光遺伝子に焦点を当て、ゲンジボタルとすでに配列情報が明らかとなっている近縁種5種における比較ゲノム解析を実施した。現在までに知られている発光遺伝子は、ACS(Acyl CoA Synthase) と呼ばれる遺伝子の仲間である。そして、ACSは大きく2つのタイプに分類することが可能であり、それらはペルオキシソームと呼ばれる組織で働くタイプ（ここではPACSタイプとする）と、それ以外のタイプ（ここでは非PACSタイプとする）に分類される。これまでのホタル発光遺伝子の進化における共通認識では、PACSタイプの祖先型ACSが自身のコピーを繰り返した結果、その中のいくつかが発光能力を獲得するに至ったと理解されていた。実際に既知の発光遺伝子はいずれもPACSタイプであることが知られていた。だが、我々は新規に非PACSタイプの発光遺伝子を発見した。この遺伝子は非PACSタイプの祖先型遺伝子（ショウジョウバエのPDGYと呼ばれるミトコンドリアで働くACSの共通祖先である）に由来していた。この由来の異なる発光遺伝子の発見は、現在、広く認められている発光遺伝子の進化史について、その視点を大きく広げる重要な発見であると考えている。
研究計画当初の予定では、本年度に得られた新たな知見に関して英語論文をまとめ、本年度中の受理を目指していた。しかし新型コロナ感染症の影響により県外への移動が制限され、共同作業の調整が最後まで難航したため投稿には至っていない。ただし、次年度の早い段階で投稿を達成できる目途はつけることができたため、本事業終了後も引き続き野口英樹先生および福多賢太郎研究員と共に共同研究を継続し、査読付き論文として成果を発表する予定である。

009RP2021 坊農秀雅（広島大学）
ゲノム編集データ解析のための公共データの統合化ワークフローの開発

ゲノム編集を行うために必要な公共データを統合化し、実際のゲノム編集実験を加速する基盤技術として、特にゲノム配列が決定されていない非モデル生物種をターゲットした解析ワークフローの開発を昨年度2020年度に引き続き行った。
昨年度に開発を行った公共データベースであるSequence Read Archive (SRA) からトランスクリプトーム配列解読のデータを取得し、発現定量解析を行うまでの一連の流れが可能な統合化ワークフローSystematic Analysis of Quantification of Expression (SAQE)をさまざまな生物種のデータ解析に実際に適用してその改善を行った。その成果として、2017年のROIS-DS-JOINT(00RP2017)で得たアマミナナフシの中腸のトランスクリプトーム配列解読データに対して、近縁のナナフシ7種類の中腸RNA-Seqデータを比較解析を行った。その成果に関しては”De novo transcriptome analysis for examination of the nutrition metabolic system related to the evolutionary process through which stick insects gain the ability of flight (Phasmatodea)” として東京農工大の天竺桂教授と共同でBMC Research Notesにて査読ずみ論文として出版した(DOI: 10.1186/s13104-021-05600-0 )。引き続き天竺桂教授と共同で、トランスクリプトーム配列解読を行っており、それらのデータを対象とした解析に関しても現在進行中である。
また、2021年度は特に得たtranscriptやそこから翻訳されたタンパク質配列に対して、その機能情報を既存のデータベースから配列解析によってアノテーションする部分について新規に拡充を行った。それらの改善点はすでにGitHub上で公開されている(https://github.com/bonohu/SAQE)。
さらに、トランスクリプトームデータのみならず、論文抄録データを三千万件以上収めたPubmedを利活用する手法の研究開発も行った。 Pubmedより作成されたgene2pubmedと呼ばれる遺伝子と文献データの関係のデータから各遺伝子ごとにその文献数を計算し、その情報を考慮したメタ解析手法を考案した。その開発した手法を使って、低酸素刺激の前後で発現が変化する遺伝子の中でこれまでの文献データでは言及されていない遺伝子の解析を行った。その成果に関しては”Comparison of Oxidative and Hypoxic Stress Responsive Genes from Meta-Analysis of Public Transcriptomes”として Biomedicines にて査読ずみ論文として出版した (DOI: 10.3390/biomedicines9050582)。また、同様のアプローチで酸化ストレスの前後で発現が変化する遺伝子群の解析も行なっており、低酸素刺激のそれとの比較解析に関しても”Comparison of Oxidative and Hypoxic Stress Responsive Genes from Meta-Analysis of Public Transcriptomes”として同じくBiomedicinesにて査読ずみ論文として出版している (DOI: 10.3390/biomedicines9121830)。

年度末において感染症の蔓延により移動ができず、予定していたDBCLSへの出張旅費が使えず、予算額の全てを執行することができなかった。

010RP2021 賀茂道子（名古屋大学）
社会調査データを活用した戦後国民意識と占領改革の関連性の歴史学的検証

本共同研究は、占領期にGHQが実施していたメディアを利用した民主主義啓蒙のための情報発信に着目し、こうした情報発信と日本人の意識の関連性を、文献史料の分析といった歴史学の方法のみならず、アーカイブされた社会調査データの統計的分析といった計量社会学の方法を併用して実証することを目的としている。
これまで2019年度2020年度において、GHQの啓蒙しようとした民主主義とはいかなるものであったのかを、GHQ報告書や会議史料、ラジオ番組『真相箱』および『質問箱』の脚本などから導き出すことに努めた。『真相箱』および『質問箱』は、聴取者からの質問に対しGHQが回答する形をとっており、しばしば民主主義に関する質問が取り上げられている。これらを検証した結果、GHQが啓蒙しようとした民主主義は①人として尊重されるという精神、②権威主義からの脱却と自己決定の重要性、③社会的秩序を実現するための話し合い（議論）の重要性とその方策のひとつとしての多数決（投票）という民主的な意思決定の手続きであるとの結論が得られた。
続いて「日本人の国民性」調査の中から、これら3点に関連した項目を選び出し、GHQが情報発信に利用した新聞・ラジオ・映画への接触度合と、新しい民主的な価値観を示す回答との関連性を統計的に検証した。その結果、GHQの情報発信は何らかの形で日本人の意識に影響を与えたこと、民主主義思想は日本人全体というよりも高学歴層や若年層といった限定された層により影響を与えたこと、元来持っていない思想に関しては情報を与えても効果が薄いこと、ラジオよりも新聞の啓蒙効果が大きかったことが明らかとなった。

以上の研究成果を踏まえたうえで、今期は論文化を見据え、これまでに得られた検証結果の精査に取り組んだ。まず、GHQの啓蒙しようとした民主主義に関しては、既に明らかにした傾向を確認し補強するため、1948年から1949年にかけて発行された文部省編纂教科書『民主主義』（上下巻）と、それをもとにNHKが制作し、 GHQが民主主義の入門書と位置付けるラジオドラマ『新しい道』の脚本を新たに分析対象に加えた。
GHQは情報発信と同様に学校教育を日本人啓蒙の装置として捉えており、教科書『民主主義』は、その意味で民主主義啓蒙の本丸ともいえる重要史料である。またラジオドラマ『新しい道』は、GHQの指導の下で制作されたもので、教科書『民主主義』をもとに制作された。つまり、学校教育という場で民主主義を浸透させ、そこに参加できない人々に対しては、ラジオドラマ『新しい道』で学校教育と同様の民主主義の理念を浸透させようと試みたのである。占領開始直後から開始された日本人に対する民主主義啓蒙は、1948年完成の教科書『民主主義』、そして1949年放送開始の『新しい道』で集大成を迎えたと言えるだろう。
この2つの資料分析により、2000年度までに導き出したGHQの啓蒙しようとした民主主義に関する3点を若干補強し、次のようなものであったとした。①「人として尊重され自己決定ができることの大切さ」すなわち民主主義の精神、 ②「家父長制といった権威主義からの脱却」すなわち自己決定の大切さと男女平等、③「民主的な政治システムとは何か？」即ち議論を重ねその後に公平なシステムによる多数決（投票）で決定するというシステム。
またこの過程で、国立国会図書館に所蔵されているGHQ史料および国立公文書館所蔵の日本側資料を収集・分析し、GHQ側の民主主義啓蒙に関する動きと、それに対応した日本側の政治的な動きも明らかにした。
次に、「日本人の国民性」調査の項目の中から、1953年度の項目である「政治家に任せるか」「しきたりに従うか」「女性の仕事は好ましいか」の3点に絞って、情報メディアへの接触度合との関連性だけでなく、経年変化および、影響を与える因子(説明変数)など多角的に再検証を行い、得られた情報の精鋭化に取り組んだ。

以上から、本共同研究によって得られた成果は以下の通りである。
①GHQによる民主化を促すための情報発信は、民主主義というシステムへの理解にはある程度の影響を与えたものの、もともと日本社会に根付いている価値観や道徳観に関わる部分には大きな影響を与えなかった。
②GHQは情報発信においてラジオ・次いで映画を重視していた。しかしながら、最も関連性が強かったのは新聞であった。これについては推察の域を出ないが、「新聞を読む」人はもともと民主主義という新しい価値観をうけいれる土壌を持った人が多かった可能性がある。
③占領期に形成された意識がその後も継続するか否かはその後の社会状況による。例えば「他人の子を養子にするか」などは家制度の廃止という制度改革を伴うため、制度の定着に伴い、一貫して戦後型の回答が増加するものの、制度改革を伴わない項目、すなわち価値観に関わる問題は、ほとんど変化が見られない。
④一般的に高学歴・若年・男性が戦後型の回答をする傾向があるが、男女平等に関する項目については、女性の方が戦後型の回答をする傾向があった。ここから、自身のもともと持っている価値観に合わないものは受けいれない傾向が読み取れる。

本研究で得られた成果が今後の研究に与える意義について
まず、本研究では文献資料を幅広く収集することにより、GHQの考える民主主義の具体像を明らかにすることが出来た。これまでGHQが民主化に努めたことは知られており、その為に実施された制度改革、すなわち憲法改正や農地改革などについての研究は進んでいるものの、情報発信に関する研究は発展途上にある。今回GHQが行った情報発信のなかで最も重視された、民主主義という漠然とした概念を可視化できたことは大きな意義と考える。
次に、これまで情報発信の影響が検証されてこなかったゆえに、すべての元凶を占領期に置く「占領悪玉史観」が右派論壇を中心に見られるが、これに対し一定の示唆を与えることが出来たと考える。こうした論壇での言説は学術的な場とは別に発生していることから、これまで研究者は向き合ってこなかった。だが、学問は社会の向上のためにあるべきという基本に立ち返れば、本研究で得られた結果は社会に還元できるはずである。
最後に本研究は既存の調査を利用したため、オリジナル調査と比較すれば、検証結果の精度が低くなるという問題点がある。しかしながら、既存調査を利用することで人文学とデータ分析とを融合した学際的研究へのハードルが低くなるという利点がある。これまでの文献資料分析だけでは解明できなかった空白部分を補うという点において、こうした学際的研究は注目されており、その意味で本研究が先駆けとなることが期待される。今後は、「日本人の国民性」調査を用いた研究を継続し、既存調査を用いてもより精度の高い結果が得られるよう、方法論を確立したい。
なお、今期の結果を踏まえて、現在論文化に取り組んでおり、年度内に学術誌に投稿予定である。

011RP2021 村上定義（京都大学）
逆引きデータ解析支援システム構築に向けて

「逆引きデータ解析支援システム」構築に向けて、初年度の共同研究に取り組んだ。社会情勢を鑑みて、オンラインで打ち合わせを行った。
打ち合わせでは、2018年6月の共同研究スタートアップ（データ融合計算支援プロジェクト）「核融合プラズマのシミュレーションへのデータ同化手法の導入」に関する面談記録（公開可能案件）や「逆引きデータ解析支援システム」構想がデータ同化研究支援センター側から提示された。一方、核融合側からは、その面談に端を発してその後の統計数理研究所共同研究などを通じて進展してきているデータ同化手法の核融合研究への導入過程、特に、核融合コミュニティに対してデータ同化手法を説明するために作成・改良が重ねられてきた説明図（以下、「現状図」：森下侑也、村上定義、横山雅之、上野玄太、小特集記事「磁場閉じ込め核融合プラズマにおけるデータ駆動アプローチによる物理モデリングの進展 3.データ同化による輸送モデリング-LHDにおける実践例-」プラズマ・核融合学会誌 97 (2021) 72-78.）や、しばしば出される質問やそれらへの回答などが提示された。面談後に最初に取り組んだ一般的な処理フロー実装の例題が、１次元１階トレンドモデル（樋口知之、上野玄太、中村和幸、中野慎也著「データ同化入門」掲載）であったが、それを、核融合研究の現場で観測やシミュレーションを実際に行っている研究者にとって視覚的にも理解しやすいようにする努力が「現状図」に盛り込まれている。
打ち合わせでは、「現状図」１枚ではなかなかわかりづらい点があるので、予測シミュレーション、観測データによるベイズフィルタなどを時間発展の観点で紙芝居的に示してはどうか、その過程で、データ同化なしの（従来の）決定論的シミュレーションとの差異を明示してはどうか、などの意見が出された。また、「逆引きデータ解析支援システム」の本来の主旨である、諸科学分野の現場で「～解析がしたい」というキーワード（例：必ずしも、データ同化というキーワードでなくとも、「観測結果を説明できるモデルを創りたい」など）もどんどん出してほしいというコメントがあった。
このような意見やコメントに基づいて、「現状図」のアップデートや関連説明文の作成・整理を進めることで、データ同化を題材として「逆引きデータ解析支援システム」のひな形を完成させるべく、次年度も継続申請することで合意した。

012RP2021 山本容正（岐阜大学）
遺伝子構造解析による地域社会への薬剤耐性菌の蔓延機序解明

本研究の目的は、コミュニテイ（地域社会）における抗生物質等の薬剤に耐性を示す細菌（薬剤耐性菌）蔓延の機序を解明することである。菌の薬剤耐性能は薬剤耐性遺伝子により附与されるため、耐性遺伝子の挙動が耐性の蔓延化に大きく影響する。そのため、本研究ではコミュニテイにおける薬剤耐性菌の汚染が明らかとなっている地域住民からの耐性菌分離ならびに同一人の腸内細菌叢DNAとそのメタゲノムデータを解析することにより、トランスポゾンを含む薬剤耐性遺伝子の周辺構造と、腸内細菌叢耐性遺伝子保有菌種スペクトラムを明らかにする事により耐性遺伝子の細菌叢内での挙動と耐性の蔓延化機序を解明することを目指した。本年度は昨年度に引き続き新型コロナ感染による本研究課題の研究フィールドであるベトナムへの渡航制限が続いた為、当初計画した耐性菌汚染蔓延地域（ベトナム）での検体収集が通年に亘り実施出来なかった。一方、日本人健常者糞便より分離されたPhocaeicola vulgatus (旧分類名Bacteroides vulgatus) 3株のゲノム解析を本年度実施しその成果をDDBJ/GenBankに登録すると同時に論文発表した（Microbiol Resour Announc, 11: e0112421, 2022）。 P. vulgatusは腸内細菌叢の主要構成細菌種の1つである偏性嫌気性菌で、腸内細菌叢のメタゲノム解析を行う上で本菌種の詳細な比較ゲノム解析情報は必須である。加えて、本菌種は現在まで5株ほどの完全ゲノム情報しか登録されていなかったため感染症における臨床的重要性が過小評価されており、分離源の異なる菌株のゲノム情報の蓄積は喫緊の課題となっていた。今回の研究で、3株それぞれから2～7 kbpからなる2～4つのプラスミドの存在が明らかとなり、今後、耐性遺伝子ならびに関連トラスポゾン構造を他の腸内細菌叢の構成菌種と比較解析し、その詳細解明を行う事を計画している。さらに、今年度は腸内細菌叢のメタゲノム解析による耐性遺伝子評価の基盤整備と並行して、健常人の腸内細菌叢から分離された腸内偏性嫌気性菌保存株で抗生物質等の薬剤への耐性表現型を示す菌株に関する解析を行った。本年度は、Bacteroides fragilisを中心に日本ならびにベトナムの健常者から分離された139株を選定し実施した。ベトナム健常人より分離されたBacteroides株ではpiperacillin, cefmetazole, clindamycin, tetracycline, minocyclineといった抗生物質に対して日本人分離株と比較して有意に高い耐性傾向が認められた。これら菌株の耐性遺伝子の保有パターンも日本の分離株と異なることが明らかとなり、今後の腸内細菌叢メタゲノム解析における有用な基盤整備を構築する事ができた (Infect Drug Resist, 14:5313, 2021)。これら菌株の一部（20株）についてのゲノム情報を取得し、今後、本共同研究の成果として論文発表の予定である。

013RP2021 櫛田達矢（理化学研究所）
希少・難治性疾患のゲノム医療推進に資する情報基盤の高度化とその応用

1. はじめに
本研究は，理化学研究所バイオリソース研究センター（BRC）が保有，管理，提供している実験材料（バイオリソース）のカタログが持つ疾患や疾患関連遺伝子の情報に対して， DBCLSが開発する日英対訳の疾患オントロジーであるNanbyo Disease Ontology（NANDO）の疾患用語を対応づけを行い，オントロジー由来の疾患名や国際疾病分類を検索キーワードとして，理研が開発するバイオリソース検索システムを用いて，診断，創薬及び治療法の研究・開発などの疾患研究に利用が期待されるバイオリソースの候補を網羅的かつ高精度で検索可能にすることを目的とする．また上記を実現するため，NANDOの拡張，理研BRCバイオリソースと他の機関が提供する情報リソースとの連携，さらに，難病の情報基盤NanbyoDataの整備を，理研BRC，DBCLS，臨床医および博士課程学生が，それぞれの専門知識・技術を持ち寄ることで実施する．
2021年度は，以下の取り組みを実施したので，その成果の報告を行う．

2. 2021年度成果
2.1 理研BRCの実験マウスと遺伝子材料に対する疾患オントロジーのマッピング
理研BRCは，実験動物（例，ノックアウトマウス），細胞材料（例，疾患患者由来iPS細胞株），遺伝子材料（例，ヒトcDNAクローン）などタイプの異なるバイオリソースを総合的に取り扱う世界最大級のバイオリソースセンターである．当センターではこの特徴を活かし，特定の疾患の研究に対してその利用が期待される実験動物，細胞材料，遺伝子材料をセットとして一括してバイオリソースユーザーに提供することを目指し，その実現のため，バイオリオースユーザーを対象としたバイオリソースの情報提供，バイオリソース検索システムの開発を進めている． 2020年度ROIS-DS-JOINTでは，上述の3種類のバイオリソースのうち，細胞材料を対象にNANDO，Mondo，DOID，ORDOなどの疾患オントロジーの疾患概念のマッピングを行い，Resource Description Framework (RDF)の形式でデータベースを構築し，オントロジー由来の統制された疾患名（和名，英名），国際疾病分類（ICD-11）を検索キーワードとする細胞材料の検索を可能にした．とりわけNANDOは疾患和名を使った検索時の貴重な情報源になっている．
2021年度は計画通り，残りの実験動物，遺伝子材料に対しても2020年度と同様に疾患オントロジーのマッピングを実施，RDFデータベースを構築し，統制された疾患名やICD-11を用いたバイオリソース検索を可能にした．またその結果，特定の疾患の研究や医薬品および治療法の開発に供与が期待される実験動物，細胞材料，遺伝子材料の一括検索およびその提供が可能になった．
実験動物および遺伝子材料と疾患のRDFデータのスキーマを図-1，2に示す．また参考までに昨年度実施した細胞材料のスキーマを図-3に示す．実験動物および遺伝子材料は，外部機関が提供する遺伝子-疾患相互作用データセット（例，DisGeNET）を用いて，各バイオリソースが持つ関連遺伝子（例，改変遺伝子，cDNA）を介してヒト疾患との関連付けを行った（図-2）．実験動物（マウス）ではこれに加えて，外部機関が提供するオルソログデータベース（例，OMA Orthology database ）のマウス遺伝子（MGI Gene）とヒト遺伝子（NCBI Gene）のオルソログ情報を活用して，実験マウスとヒト疾患との関連付けを行った（図-1）．
バイオリソースと疾患間の検索は，上述のRDFスキーマ図（グラフ構造）のパスを探索することで可能にしている．バイオリソース番号や疾患名（和名，英名），ICD-11を用いたキーワード検索は，上述のバイオリソース検索システムで実現し（図-4），他方，RDFデータの検索言語SPARQLを用いた検索は， BioResource MetaDatabase SPARQL Endpoint で実装した（図-5）．
実験動物および遺伝子材料の疾患情報の統計量を表-1に示す．7,321件の実験動物材料のうち1,680件（22.9%），7,176件の細胞材料のうち3,628件（50.6%）， 126,068件の遺伝子材料のうち20,683件（16.4%）が，特定の疾患研究，開発に活用が期待されるバイオリソースであることが判明した．また，実験動物，細胞，遺伝子の各材料に対して，2,369，3,979および4,015種類のMondo Disease Ontology (Mondo)の疾患概念が対応づけられた．

2.2 難病関連遺伝学的検査データベースとNANDOの対応
鳥取大学の足立香織助教が開発し，国立成育医療研究センターが運用する難病関連遺伝学的検査データベースに収められている検査情報に対し，NANDOを手作業で割り当てた．その関連データをNanbyoData上で参照できるようにNanbyoDataを改修した．例えば，ベッカー型筋ジストロフィーの疾患ページには，4検査施設の検査情報が掲載され（https://nanbyodata.jp/disease_new/NANDO:2200865），各検査のURLをクリックすることで難病関連遺伝学的検査データベースのWebページに遷移し，詳細情報を参照することができる．

2.3 臨床ゲノムデータベースMGeNDとNANDOの対応
京都大学の鎌田真由美准教授の協力を得て，MGeNDが収集した難病に関連する病原性バリアントとNANDOとの対応付けを試みた．そのために，バリアントに対応付けられている，OMIM，MeSH，MedGen，Orphanet，HPO，ICD-10，フリーテキストなどの疾患名を，Mondoという複数の疾患リソースを統合した疾患オントロジーに対応付けた． MondoとNANDOは既に我々が対応付けてあるので，Mondoを経由することでMGeNDのバリアントをNANDOに対応付けることができる．バリアントとMondoの紐付けは多くのキュレーション作業を必要とし，2022年度に継続でキュレーション作業を行う．

2.4 NanbyoDataのユーザビリティ向上に向けた医師からの意見聴取
東北大学の菊池敦生医師および同医師の周辺の医師にNanbyoDataを利用してもらい，改善に向けた以下のフィードバックを得た．ここで得たフィードバックのいくつかに関しては，2022年度にNanbyoDataを改修し反映する予定である．
・検索窓に難病候補が出てきた際に，（例えば右クリックなどで）新規タブで開くことはできるか？
・ 1つの疾患で両方見ることが多いので，小慢と指定難病を行き来できないか？
- 例：プロピオン酸血症（指定難病）を開いた際に小慢のリンクがあると便利
・ Variant情報が充実すると良い（MGeND以外にもClinVarなども）
・階層メニューがやや見づらい（Firefox/Mac）
・必ずしも単一の遺伝形式でない疾患（単一遺伝子病・多因子疾患のどちらも含む）で、「常染色体優性遺伝」などと一部の知られている疾患原因遺伝子に引っ張られてか、単一の遺伝形式のみが記載されているエントリーがある
・臨床的特徴に、通常あまり合併して見られない表現型が書いてある
- 例えば「幅広い額」はファロー四徴症に特に特徴的な症状ではない

2.5 NanbyoDataのユーザビリティ向上に向けた薬剤師からの意見聴取と改善の取り組み
東京大学薬学部の仁宮洸太氏の協力を得て，薬剤師にNanbyoDataを利用してもらい，改善に向けた以下のフィードバックを得た．ここで得たフィードバックは，2021年度にNanbyoDataを改修し反映した．
・臨床的特徴として表示している症状リストが実務の短い時間では把握し難い

2.6 IRUDの症例とNANDOの対応
厚生労働省が進める難病名整理の鎌谷洋一郎教授と連携し，未診断疾患イニシアチブ（IRUD）で集められた症例にNANDOを対応付け，難病の観点からIRUD症例の統計情報を作成した．

2.7 NANDOの更新
2021年度の小児慢性特定疾病制度および指定難病制度に追加された難病をNANDOに追加するために，公式文書から疾患名及びその関連情報を抽出した．抽出した情報は，NANDO ver.2.0.0として2022年度に公開する予定である．

予算費目の変更点と理由
COVID-19拡大の影響で，参加予定の学会の開催が中止になり，参加費支払いの未執行や，論文投稿の遅れにより投稿費の期限内に予算執行が間に合わないことが生じた．一方で，一部の旅費及び役務費について，消耗品購入費への振替を行った．

014RP2021 Kanai Masayuki（OTHER）
ウェルビーイングに関するアジア8ヶ国での国際比較インタビューデータの整備と公開

本プロジェクトの目的は、日本を含むアジア8ヶ国で2019年～2021年にかけて実施するウェルビーイング（幸福）に関する半構造化インタビュー調査のデータを整備し、韓国社会科学資料院（KOSSDA）で研究者向けに一般公開することである。この国際比較インタビュー調査は、2017年度～2019年度ROIS-DS-JOINTの助成を受けて2020年6月にKOSSDAでデータが研究者向けに一般公開された「Social Well-Being Survey in Asia（SoWSA）」調査と同じ国際共同研究チームがおこなうものであり、データが公開されれば、ウェルビーイングに関する国際比較可能な質的データとして大きな学術的価値をもつ。
2年目にあたる2021年度は、インタビュー調査データの整備のためのスクリプトの翻訳および匿名性チェックのための人件費と、データ整備方針を検討するためのオンラインおよび対面でのミーティングを開催するための旅費を、当初予算として計上していた。前者のデータ整備のための謝金については、2020年度に実施した日本調査スクリプトの翻訳1件の謝金を支出し（他の翻訳はスケジュールの都合で他の資金を使用）、匿名性チェックは研究チームが自分たちで実施した。後者のミーティングについては、2020年度におこなう予定だったフィリピンとタイでのインタビュー調査が、コロナ禍の影響で2021年度になっても依然として実施の目途が立たなかったため、すべての国のインタビューの目途が立つのを待つことにした。さいわい、どちらの国も2022年度には調査を実施できる可能性が高く、現在現地チームとの最終調整を進めている。
2021年度の研究成果としては、データ整備が進んだ日本およびいくつかの国のインタビューデータを用いた論文2本が英文誌 The Senshu Social Well-being Review に掲載されたほか、 2021年11月にオンラインで開催された第94回日本社会学会大会の2つのセッションでの連携報告を含めて、国内外の学会で10本の報告をおこなった。

015RP2021 大久保慎人（高知大学）
微小な地殻ひずみ信号検出のための解析技術の確立と超精密観測記録の活用

本課題の研究成果として，ブラックホール重合による重力波検出に用いられる，Hilbert-Huang 変換（HH T）による，信号抽出手法を，微小な地殻ひずみ信号検出の解析手法とすべく，解析技術の確立行った．

１． HHTによって抽出した長基線レーザー伸縮計が記録した潮汐成分は，概ね理論的に予測される潮汐成分周期，位相と一致した．振幅に関しては，変動ピーク付近での振幅が再現されておらず，変動が緩やかとなった時間帯の振幅については，過小評価していることが考えられる．ただし，振幅の急変部ではよく一致しており，過去に行われた機器の評価の際に得られている観測振幅の補正係数を再現できている．
２． HHTによって抽出される，複数の固有モード関数（以下，IMF）は，それぞれが周波数で分離できているわけではなく，各IMFに同一周波数成分が染み出すことがあることが判明した．このことは，潮汐成分のような周波数成分が変動することのない，成分であっても，HHTで別のIMF成分として分割してしまう，ということを意味している．ただ，分離抽出されたIMF成分の加減算は可能で，再合成することは可能である．
３．ボアホールひずみ計は，観測方位が異なる多成分の地殻ひずみを観測している．ただし機器固有の電気的なノイズなどは各観測成分に共通（周波数，位相など）であるが，HHTによって抽出された同次のIMFの周波数スペクトルは一致しないことがわかった．機器や場所固有のノイズ除去を対象とする際には，HHTによる信号抽出のみではなく，さらなる地球物理学知見を利用する工夫が必要であることが判明した．
４．観測成分によらない変動成分の抽出としては，最大S/N比を10倍から20倍程度向上させることができ（10-10ひずみ/√Hz），単純なハイカットフィルタを適用するよりも，実現象に即した長周期トレンドの抽出ができることがあった．

上記の通り，本課題の目的である，微小な地殻ひずみ信号検出のための解析技術の確立については概ね進めることができた．しかしながら，同時にいくつかの課題についても明らかになっている．大きな課題としては，HHTが抽出したIMFの持つ地球物理学的意味づけである．今後は，現有の解析手法に地球物理学的意味づけを行いつつ，有意な信号抽出手法として改善していく必要がある．

また，本課題では，解析技術の確立と併せて，各機関や研究者が有する超精密な観測記録の活用を進めるべく，解析手法と観測データのマッチングや異分野（宇宙物理学と地球物理学以外にも）の研究者のマッチングを進める研究集会の開催を企画していた．しかしながら，この部分に関しては，新型コロナの感染拡大や，機関ごとの移動の規制，機器やオンラインミーティングツールの不一致などの要因によって，十分に進めることができなかった部分がある．今後は，この部分についても，各機関，各研究者の協力を仰ぎながら進めていく必要がある．

016RP2021 鈴木孝幸（名古屋大学）
多指症の原因遺伝子解明のための固定SNP領域の同定

本研究は、過剰な指が手足の前側（親指側）に形成される遺伝子疾患である多指症の原因遺伝子解明の一環として、ニワトリ（Gallus gallus）の多指症系統DWF-PPの原因遺伝子の同定を最終的な目的としている。 DWF-PPは単一の胚性致死の潜性遺伝子を原因遺伝子として持つことが示唆されているため、今年度は原因遺伝子座の候補領域の絞り込みを行うために、F2世代において多指症を発症し胚性致死となる直前のホモ個体群と、野生型の表現型を示す個体群のゲノムデータの比較解析を進めた。具体的には、ヘテロ個体のDWF-PPと、遺伝的背景が異なり系統的に遠い近交系のニワトリであるGSP系統を交配したF1世代を作出し、F1同士を交配したF2世代の胚を採取した。多指症を発症し胚性致死となる直前のF2世代のホモ個体（40個体）と野生型の表現型を示すF2世代の40個体からゲノムDNAを抽出し、それぞれのゲノムDNAをプールしたものについて次世代シークエンスを行いそれぞれのゲノムデータを得た。これと、最初の交配に用いたDWF-PP系統及びGSP系統の親の個体（F0世代）のゲノムデータの比較を行い、DWF-PP系統のみが保有するSNP（DWF-PP）の同定を試みた。
まず変異型集団のゲノムシーケンスをニワトリリファレンスゲノムと比較し、統計的な解析から信頼性の高いSNPsの抽出を試み、7,037,548カ所の候補SNPsを得た。続いてこれらのSNPsからGSP-P由来のアリルを除外することで、DWF-P由来と考えられる2,295,498カ所に絞ることができた。さらに野生型集団および変異型集団間におけるアリル頻度差に着目し、頻度差0.55以上0.8以下となっている79個のSNPsの同定に成功した。これらのSNPsはDWF原因遺伝子座と連鎖している可能性が高いと考えられた。これらのSNPsはニワトリゲノム上で6座位に散在していたが、特に5番染色体末端領域に比較的集中して存在する傾向が認められた。これらの結果に基づき、候補SNPs変異が遺伝子翻訳産物の構造やその発現に与える影響を与え得るか否かを詳細に検討し、また遺伝子マーカーを用いた分子生物学的実験手法とも合わせて、さらに原因遺伝子座の絞り込みに迫った。これまでの解析から、DWF-PP系統のホモ個体はSHHシグナル伝達が異常になっていることが示唆されている。具体的には野生型ではShhが発現していない組織でも、恒常的にSHHシグナルが活性化している可能性が示唆されている。そこでこれまで知られているSHHシグナルに関連する遺伝子が5番染色体の候補原因遺伝子座に存在するかを調べたところ、遺伝子内で塩基の置換などが生じている中に既存のSHHシグナルに関連する遺伝子は存在していなかった。これらの結果から、DWF-PP系統のホモ個体が多指症を発症するメカニズムは、5番染色体末端領域の非コード領域の変異である可能性が強く示唆された。今後は、非コード領域のうち、どの領域が原因遺伝子座なのかをさらに遺伝学的解析を行い調べていくとともに、これまでSHHシグナル伝達への関与が報告されていない遺伝子内の変異がタンパク質の機能に影響を与えている可能性、さらにはその影響が細胞内シグナル伝達に影響を与える可能性があれば、SHHシグナル伝達に与える影響を調べていきたい。
本研究では、リモートにおける共同研究と並行して、本研究の実験を担当している研究参加者（大学院生）がデータ解析の一端を担うべく、ゲノムデータ解析支援センターにてバイオインフォマティクスの技術指導を受けた。具体的には、Unix系OSの基本的な操作から、ゲノムデータ解析に必要な解析環境の構築の仕方、ゲノムデータのSNP解析手順と解析結果の評価の仕方などの技術習得である（当初の計画では11日間の日程で調整していたが、新型コロナ感染症の影響により日程を3日間に短縮し、必要最小限の基本技術のみの習得に変更した）。
これらの解析結果を、名古屋大学に持ち帰り、名古屋大学の研究室でも解析が再現出来るようになった。

017RP2021 坂本卓磨（東京農工大学）
多胚性寄生蜂の性特異的な共寄生阻害戦略における分子機構の解明

本年度は，寄生蜂であるトビコバチ（ハチ目）とその寄主であるウワバ（チョウ目）のトランスクリプトームが混ざった状態で解析が行える環境の構築と，雌雄におけるトランスクリプトームデータの比較環境の構築を目指した．寄生蜂に限らず，寄生者と寄主のトランスクリプトームデータが混ざった環境下でのデータ解析は，昆虫におけるこの寄生蜂の例にとどまらず，ウイルスに感染した細胞データの解析など様々な応用につながると考えられる．今回扱っている寄生蜂のゲノムデータはすでに公共データベース中にも存在し，また手元にあるロングリード由来の新規ゲノムアセンブリデータがあるため，このゲノムアセンブリデータを利用することで，ゲノムが明らかになっていない寄主情報をいかにきれいに差分できるかに着目した．
まず寄主のトランスクリプトーム情報がコンタミネーションとして検出されないようにするため，寄主が死亡した個体内で蛹になった寄生蜂のtotalRNAを精製し，ショートリードシーケンサによってトランスクリプトームデータを取得した．この寄生蜂のデータは全て梅崎が用意し，雄が寄生した個体を用いた．このトランスクリプトームデータをロングリード由来のゲノムアセンブリデータにマッピングしたところ，寄生蜂単体のトランスクリプトームデータでは96%以上のマッピング率となった．また，寄生蜂が寄生していない未寄生の寄主を雌雄それぞれ1個体ずつからtotalRNAを精製し，同様にして寄主のゲノムにマッピングした．驚いたことに，雌の寄主では0.7%，雄の寄主では1.64%のトランスクリプトームデータがマッピングされることがわかった．この結果から，現時点では完全に寄主の情報を取り除くことは出来ないことがわかり，この寄主由来のトランスクリプトームデータが寄生蜂のゲノム上のどのような部分にマッピングされているのかに着目し，遺伝子の水平伝播によるものなのか，またはトランスポゾンのような動く遺伝子が寄主と寄生蜂のなかでどのような関係になっているのかを今後明らかにしていく．
仲里博士と協力し，兵隊幼虫の役割が雌雄によって異なる分子メカニズムを明らかにするために，まずは生殖幼虫と兵隊幼虫を分けてトランスクリプトームデータを取得することにした．兵隊幼虫ではtotalRNAの精製量が解析に適する量が取れなかったため，本年度はまずは生殖幼虫のトランスクリプトームデータのみを取得した．性別が明らかになっている蛹のトランスクリプトームデータと比較したところ，体細胞の性決定遺伝子であるdsxを発現していると考えられる領域を詳しく調べたところ，生殖幼虫でも胚子期と同様に複数のdsxを発現していることがトランスクリプトームデータから明らかになった．
この複数のdsxを雌雄でqpcrなどを用いて比較すれば性別不明の個体でも性別を判定できる系が構築出来た．これらの結果を取りまとめてqPCRなどで実際に系が走ることを確認できたら，Scientific Reportsに投稿する．

018RP2021 吉沢明康（富山国際大学）
文字列高速検索技術を用いた全ゲノム・アミノ酸配列同定リソースの開発

本課題は複数年度で実施する予定であり、今年度は
(i) リファレンスゲノムを対象とした検索システム整備の完了（2020年度の作業の継続と完了）
(ii) がんゲノムのタグ統計の作成（リファレンスの統計作成と同一処理を行う）
を予定し、余力があれば
(iii) がんデータ対応への最適化
の着手を想定していた。またこれらに対応して、実装（webツール）を改良する予定であった。

まず(i)については、ゲノムの塩基配列をアミノ酸配列に変換し、これをどのような形態のエントリに収録するか、即ち「ゲノム翻訳情報を直接検索する」・「仮想タンパク質を検索する」・「仮想タンパク質を消化酵素でin silico消化して、生成したペプチドを検索する（同一ペプチドを1エントリに統合することでエントリ数を減少させる）」の計3戦略のいずれが最も効率的かを、昨年度から検討してきた。
最終的に、「仮想タンパク質を検索する」という方針（基本的にはUniProtのタンパク質配列を対象にしたのと同じ形態）で実装することを決めた。これは「測定系で異なる消化酵素を利用した場合」・「消化酵素によるタンパク質のmissed cleavage （本来切断される筈の部位がスキップされて切断が生じない現象）が生じた場合」に対応するのが最も低コストだると判断されたからである。
この方針に従って、GRCh38から生成した6フレーム分の翻訳配列に対して、長さ2～10のアミノ酸配列がどのように分布しているかを総当りで検証した。

次に、がんゲノムデータについて同様の作業を行う予定であったが、その前に、本課題の成果物プログラムによる横断的な情報検索の将来的な対象として想定している、プロテオーム統合データベースjPOSTプロジェクトからPPPeptideの利用について提案があり、論文の執筆などを見据えて、それへの対応を優先した。

019RP2021 柿並義宏（北海道情報大学）
南極インフラサウンド観測活用のためのPSD及びFK解析可視化Webサイト構築

人の耳に聞こえないインフラサウンド（超低周波音，20 Hz以下の音）は様々な地球物理現象に伴って発生することが知られている．例えば，地震・津波発生時の地面（海面）の上下動に伴って発生したり，火山噴火に伴って発生している．それ以外にも雪崩，土砂災害，隕石落下，人工的な爆発など，急激な気圧変化を引き起こす現象によってインフラサウンドは発生する．このインフラサウンドは減衰しにくく，長距離伝搬する．2021年1月，トンガの火山噴火により発生したインフラサウンドが8000 km以上離れた日本にまで到達し，その伝搬途中で津波を引き起こした可能性があることが指摘されている．インフラサウンドは水平方向のみならず，高高度まで伝搬する．高度100 km以上まで伝わる周波数帯が存在し，その高度の電離圏プラズマを擾乱させる．その様子はGNSS（Global Navigation Satellite System）の電波を使って近年，盛んに研究が行われている．一定程度の規模の地震，津波，火山噴火後には頻繁に見つかる現象で，前述のトンガ火山噴火後にもGNSSの電波情報から電離圏擾乱が見つかっている．学術的な興味・関心のみならず，これらインフラサウンドの特性を生かした津波の早期警報などの社会的課題への応用が期待されている．

南極域においては南大洋の海面擾乱，氷河崩落，海氷流出，氷河地震，オーロラ，ブリザードなどによってインフラサウンドが発生すると考えられている．これらのインフラサウンドを計測することでインフラサウンドが地圏・水圏・気圏・宙空圏の各領域間でどのように発生し，どのように伝わっていくかを調べる目的として，南極域でインフラサウンド計測を行っている．その中でも特に氷床後退や氷河流出に伴う氷河地震，地球表層の脈動Microseisms，微気圧擾乱Microbaromsの時間，空間変動に焦点を当て，南大洋の海面擾乱と気圧変動による南極域大気と固体地球表層への応答に着目し，研究を行っている．南極昭和基地でのインフラサウンド計測は，2008年に開始され，13年間継続して記録を取り続けている．昭和基地周辺の観測点は順次拡大し，2021年現在，昭和基地（3地点），ラングホブデ（3地点），スカーレン（3地点），ルンドボークスヘッダ（1地点），明るい岬（1地点）で計測している．ネットワークが常時接続されている昭和基地は随時データを公開し，それ以外の場所では南極観測夏隊によって回収され，帰国後，整理したのちに公開していている．これらのデータはWebサイト「国立極地研究所昭和基地・周辺インフラサウンドデータアーカイブ」上に公開され，誰でも確認することができる．しかし，公開されるデータは時系列データ生波形であり，そこれまで取り扱いをしてこなかった研究者が手軽に解析結果を確認する手段がなく，インフラサウンドを利用したデータ利用は十分に進んでこなかった．そこで，本研究では、南極域で観測されたインフラサウンド観測データの1次解析データを可視化し，表示するWebサイトの構築することで，データサイエンスを促進するすることを目的とする．

Webサイトでは昭和基地3地点それぞれの周波数スペクトル解析を行い，そのパワースペクトル密度（PSD）解析結果を表示するページと三角形配置したアレイ観測のデータを用いて波源方向の方位角分布を可視化する周波数-波数解析（FK解析）の結果を表示するページを有する．トップページから「スペクトログラム」を押すと，PSD解析，「FK解析グラフ」を押すとFK解析の結果を表示するページへアクセスできる．これらのページでは事前に解析した結果をアーカイブしており，それらをユーザーの要求に応じてオンデマンドで表示する．どちらのページも「作図地点」および「作図期間」を設定することで解析結果を表示できる．「スペクトログラム」ページでは6時間ごとにまとまった結果が表示される．グラフには観測生波形が上部パネル， 5×10-2～50 Hz の周波数範囲のPSD解析結果が下部パネルに表示される．図のサイズを変更することも可能である．「FK解析グラフ」ページでは相対強度，絶対強度，方位角，スローネス（速さの逆数）を表示させることができる．また，方位角，スローネスと相対強度がレーダーチャートに表示されるため，直感的に波形の到来方向が分かる．

本研究で開発したWebサイトを利用することにより，例えば，大きなイベントが発生した際はすぐに確認でき，詳細な解析につなげることができる．そのため，関連する領域の研究者が南極インフラサウンド観測データを扱うためのハードルを下げ，インフラサウンド観測データを極域サイエンスに積極的に活用できる素地ができると期待される．

020RP2021 鈴木香寿恵（法政大学）
機械学習による昭和基地からみる大気中微量物質の輸送予測システムの構築

日本の観測拠点である昭和基地および内陸旅行，ドームふじ基地における雪氷・気象観測とモデリング，機械学習を結びつける研究としてチームを結成し，それぞれが目指す研究を横断的につなぐ方向で合意，研究スタートとなった．これまで互いに認識はしていたものの，対話が進んでいなかったエアロゾル観測，衛星観測，気象数値モデリング，積雪観測，表面積雪採取を取りまとめるためにエアロゾル輸送をテーマとして掲げ，ターゲットとして現在昭和基地で観測が行われている項目に絞り，観測データを軸とした機械学習による輸送モデルの開発を行う．また，輸送にはAtmospheric Riverと呼ばれる水蒸気が集中して供給されるイベントと関連していると想定しており，これまで行ってきた2009年のブリザードイベントについて，昭和基地で観測されたブラックカーボンや一酸化炭素の濃度がどのような変化をしていたか調べ，それぞれの変化が多かった場合について，流跡線解析による大気輸送経路の推定を行った．結果として，両者が著しく増加した際には南米を起源とする輸送経路がみられたのに対し，一酸化炭素のみ増加する場合については，内陸を通過して到達する経路もみられ，Atmospheric Riverとエアロゾル輸送に関連性が高いという判断となった．
また，衛星観測雲画像データを用いて降雪をもたらす雲の自動識別を進めるための下準備となる研究も行った．機械学習においては，学習対象となる画像数が大きいほどよいとされていて，対象とするには正例タグもしくは負例タグを生成する必要がある．しかしながら本研究課題において, タグ付けにかかるエフォートが大きく，学習対象画像数がなかなか伸び悩んでいる．この問題を解決するために，半自動学習によってセグメンテーションを生成する手法の開発を進めてきた．アノテーションと呼ばれる，雲と判別できるエリアを画像に付与し，そのエリアを教師として学習するのが通常の機械学習であるが，このアノテーションを用いて新しい画像に対するセグメンテーションを生成する学習器を開発した．F値(Dice)としては0.8程度で生成が出来ており，今後十分に実用化が期待されている．

021RP2021 Markov Konstantin（会津大学）
ニューラル常微分方程式に基づく時空間的地温モデリングの研究

本研究では、昨年度に引き続いてNeural Ordinary Differential Equations (ODE)に基づく気温の時空間モデリング手法を検討した。気温の時空間モデリングは熱波や気候変動の対策を検討する上でも有用であり、これまでにも線形回帰やクリギングなどを用いた気温のモデリングが試みられてきた。しかしながら、それらの従来手法では観測データ間の非線形な相互依存関係が捉えることができず、多数の地物の分布する複雑な都市空間上の気温の解析などには不向きな可能性がある。そこで本研究ではGraph Neural Network（GNN）に着目した時空間補間手法の検討を行った。GNNを用いれば、気温観測地点間をつなぐグラフを仮定し、そのエッジの重みを距離減衰関数で与えることで地点間の空間的関係がモデル化できる。通常のNeural Network（GNN）と同様に非線形効果も捉えることができるため、精度の良い時空間補間が行える可能性がある。 GNNの補間精度の検証のために、全国で観測された気温データを用いて、首都圏における1kmグリッド毎の気温の時空間補間を試みた。同解析では、GNNの幅広いモデル・アーキテクチャについての検討を行った。それにより、標準的な時空間補間手法であるクリギングと同等の補間精度がGNNにより達成できることや、一部アーキテクチャでクリギングを上回る精度が得られることなどを確認した。しかしながら、モデルアーキテクチャやパラメータチューニングに関しては更なる検討が必要な段階にある。今後、深層学習や超深層学習における様々な畳み込み層やその組み合わせの影響をさらに調査していきたい。また、GNNを用いることで空間的関係の把握には成功したものの、時間的関係については考慮できなかった。その一因には、複数時点のデータを利用することによる計算負荷の増大がある。時間的関係と空間的関係の両方を考慮した時空間補間モデルを構築することもまた今後の課題である。

022RP2021 高橋彰（大阪大学）
メモリーグラフを用いた京都の町並み変化に関する地域学習教材に関する研究

1.背景と目的
高度経済成長期以降、京都の市街地は画一的な宅地開発や建築活動が進み、歴史的な町並みは失われつつある。京都では地域住民を主体とした町並み保全・創出の活動が活発に行われており、地域の景観形成の方針を考える上で、身近な地域の記録や記憶を継承し、活用する取組み（以下、地域学習）がまちづくり活動や生涯学習として各地で実施されている。地域学習の資料として、視覚的に過去の様子がわかる古い写真資料（以下、古写真）や古地図などの資料が有効と考えられ、すでに民俗学や歴史学、地理学など様々な分野において重要な資料として、デジタル・アーカイブが進んでいる。一方で、デジタル・アーカイブされた資料を地域学習の資料として活用する場合、資料を検索する視点が実世界の特定の地域に限定されるため、その地域にまつわる資料がアーカイブにないといった課題、地域関係者が自分たちの地域にまつわる資料をアーカイブしたとしても、一過性に終わり、その後の活用がうまくいかないなどの課題がある。
そこで、本研究はメモリーグラフを用いてデジタル・アーカイブされた古写真と現在の町並みを比較することで、地域の景観形成の歴史的文脈を学習する方法を検討するとともに、収集された今昔写真と古地図などを組み合わせたコミュニティの記憶を引き継ぐための地域学習資料の構築を目的とする。

2.方法
2021年度は、古写真を用いて過去と現在の景観を比較することができる「メモリーグラフ」の地域学習への適用性について、地域でまちづくりの活動をしている3団体にワークショップ形式のヒアリング調査を実施した。

2.1 調査対象
①京の三条まちづくり協議会（http://www.sanjyo-kyo.jp/）
京都市中京区の「三条通界わい景観整備地区」に指定されている七つの町内（（弁慶石町、中之町、桝屋町、菱屋町、梅忠町、御倉町、衣棚町）について、美しいまちなみを守り、さらにより良いまちなみの形成を目指し、暮らしの環境と商いの賑わいを共存させてきた知恵を繋ぎ、培われてきた文化の薫りを大事にする「品格のあるまちづくり」に裏づけされた景観まちづくりを進めている。1995年設立。
②鴨川運河会議（https://kamoun ukai.wixsite.com/kamoun）
琵琶湖疏水の一部であり、伏見区深草を中心に南北に流れる「鴨川運河」を、京都の近代化に伴う貴重な文化遺産、また地域資源として、一般にその価値や魅力を伝え、景観を含めた保全・活用に関する機運を高め、継続的な行動・活動を行っている市民活動団体。2015年設立。
③祇園新橋景観づくり協議会（https://gion-shinbashi.jp/）
京都市東山区の元吉町、及び橋本町、末吉町、清本町の一部において、祇園新橋の文化の継承、地域の共同での取り組み、魅力ある空間づくりを通じて、価値を受け継ぎ、さらに高めて後世に伝えるため、活動している。前身の元吉町まちづくり部は2015年設立。

2.2 調査概要
調査当日は、メモリーグラフを実際に使用した後（50分）、ヒアリング（60分）を実施した。
【調査日時】
①京の三条まちづくり協議会：2022年2月26日 10時から12時参加者：3名
②鴨川運河会議：2022年3月3日 14時から16時参加者：4名
③祇園新橋まちづくり協議会：2022年3月8日 15時から17時参加者：7名

2.3 ヒアリング項目
①アプリの使用方法について
②アプリで使われる写真素材等について
③アプリの操作について

3 まとめ
3地域で、市民活動として景観まちづくりを担われている方たちを対象にした本調査を通して、得られた主な意見、課題等は以下の通りである。
メモリーグラフはまちづくり活動に役立つかという問いについて、「まちづくりの意識がある地域では、記憶や記録として風景の移り変わりを保存することは有益である」と風景のアーカイブとしての意義、「このアプリを使うことで、景観の「良かった過去」だけではなく、まちづくり活動の成果として「良くなった今」にも気づくことができたので、そのような経過を知るツールとしても使える」と現状把握としての意義、また、「写真の収集や整理の過程を楽しむ人がいれば、それ自体もまちづくり活動になる」などの肯定的な意見があった。一方で、「自分にとっては見知っている地域なので、写真を撮影する意義がよくわからなかった」とまちづくり活動を長くしている人にとって、あまり意味を感じないという意見もあった。これは、「景観を意識化する気づきの段階」でメモリーグラフを使うのが有効と回答した人が多かったことと関連していると考えられる。一方で、地域に住む人だけでなく、多様な属性の人にメモリーグラフを使ってもらいたいと回答した人は、景観の公共性を意識した段階でもメモリーグラフを活用できると回答する傾向があった。
写真素材について、「建造物中心の写真が多く、もっと人や祭りの写真など風俗や文化が感じられるものが写っているもののほうが面白みを感じられる」という意見やアプリの機能として「写真や地図情報には、その被写体や写真自体にまつわる昔の話がポップアップで見られたりすると、地域でまちあるきなどのイベントで利用する際にも話が深まる」という意見が複数あった。これらは、メモリーグラフを使用する上での資料的な課題であり、資料自体の持つ情報とその整理を行う必要がある。一方で、資料を探索し、充実させる過程や写真資料に関する情報を収集し、整理する過程も地域学習の一部として取り入れるなど工夫が重要と考えられる。

023RP2021 立川雅司（名古屋大学）
新興科学技術の食品への応用に関する消費者調査の分析とアーカイブ化に関する研究

◆研究の目的
本共同研究は、地球温暖化や食料危機といった昨今の地球環境問題の解決に向けて近年注目されているゲノム編集技術などの新興科学技術の食品への応用というテーマをとりあげ、（１）それに対する消費者意識調査を通して望ましい研究開発の推進方略や政策策定の基礎となる知見を得ること、（２）（１）を遂行する過程で計量社会調査方法論の彫琢に資すること、（３）得られた調査データをデータサイエンス共同利用基盤施設・社会データ構造化センターにアーカイブすることを目的としている。

◆研究成果
共同研究の初年度となる2021年度では、既存の調査データ群をもとに統計的分析を行い、主に上記（１）および（２）の目的に掲げた研究の推進を行った。具体的な成果としては、下記の論文を共同研究の成果の一部として発表した。

 ゲノム編集技術応用食品とそのガバナンスに対する消費者意識－日米独の比較－立川雅司, 加藤直子, 前田忠彦, 稲垣佑典, 松尾真紀子『フードシステム研究』28(4) 268-273 2022年3月.
 Web調査における不適切回答行動の実態把握と対応策の検討：潜在ランク分析による回答傾向の分類階級を用いて稲垣佑典, 加藤直子, 前田忠彦, 立川雅司『理論と方法』36(2) 132-148 2022年3月.

上記２本の論文に加えて、国際誌に１本の論文を投稿中であり、現在２回目の査読中である。

◆活動内容
本共同研究の申請時には、名古屋大学所属の研究代表者がデータサイエンス共同利用基盤施設への来所を年間３回として旅費予算を計上していた。しかしながら配分額は年間２回程度であったため、ほぼ全額を２回の来所（共同研究打ち合わせ）に関する旅費として使用した。

◆今後の活動計画
今年度の共同研究打ち合わせでは、研究目的（１）および（２）の研究内容に関する打ち合わせが中心であり、（３）に関しては未だ手が付けられていない状況にある。今後は（１）および（２）の研究をさらに推進しつつ、（３）の進捗を見据えて活動を継続していく予定である。

024RP2021 西村耕司（京都大学）
レーダーインバージョン観測のためのアンテナ空間特性精密推定技術の開発

レーダーインバージョンによる推定問題では，通常のドップラーレーダー観測などと比較してもさらに時空間インパルス応答が正確に既知であることが重要である．このうち時間応用に関しては送信波形，受信フィルター・信号処理系統の特性から正確に推定することが容易で，あるいは実測することも可能である．一方，空間特性に関しては未知要素が多いためモデルのみでの正確な推定は困難で，小型の装置では実測されるのが一般的である．しかし，大気観測に用いる大型レーダーなどでは正確な実測方法が存在せず，一部人工衛星などにより放射電力特性の一次元断面の確認がされる程度である．本研究ではドローンを用いた大型レーダーの時空間特性の実測手法の開発を行う．
2021年度においては，計測方式の検討およびドローン搭載装置の検討，開発を行った．ドローンによる時空間特性の計測においては以下の複数の要素技術が必要となる．要素技術を簡単に列挙すると，
・送信特性の計測（＝ドローン搭載受信機の開発）
・受信特性の計測（＝ドローン搭載送信機の開発）
・空間位置の同定（＝3cm程度の位置決め精度）
・タイミング同期（＝100ps程度の時刻精度）
・計測される近傍電磁界からの遠方界の推定
となる．精度については大型レーダーで使用するlower-VHF帯（周波数: 50MHz，半波長: 3m）において半波長の1%以内の計測誤差を許容するものとして算出したものであり，マイクロ波帯を用いるレーダーではこの要求はさらに厳しいものとなる．開発すべき搭載装置はこれらの方式に大きく依存するためまずはこれら要素技術の方式について検討を行った．
以下，時間および位置同定の方式検討について述べる．方式によっては時間と空間位置の同定は同時に行うことが可能である．しかし，市販される産業用ドローンにおいてはGNSS-RTKにより数cm程度の精度が提供されるため50MHz程度であれば概ね充足すると考えられる．時刻同期については，実はGNSSを用いた空間同期で要求される時刻同期精度と同程度なのだが，ドローンで用いるGNSSシステムが外部に正確なタイミング信号を提供していないため外部で実装する必要がある．いずれにせよ本課題で必要となる精度はレーダーとの同期精度のため，絶対時刻に対する精度は無関係である．
相対時刻・タイミング同期を行う方法はいくつか考えられるが，もっとも直接的かつ高精度な方法がレーダー側とドローン側の２つのクロックを無線で同期させる方法である．この方法は原理的にはかなり高性能が期待できるものの，市販される製品レベルでは数マイクロ秒から数百マイクロ秒程度の精度となっており，距離に換算すると数百メートルから数十キロメートルに相当と全く要求を満たさない．この方法はレーダーでは有効性の高い方法のため，引き続き可能性を検討するが，現在のところ第一選択肢とするのは困難である．
第二の方法として，GNSS-DOによる標準クロックの使用である．これはレーダー側もGNSS-DOによる同期を行なっている場合に限られるが，市販のGNSS-DOモジュールを利用して1〜1000秒程度の短期安定精度においてタイミング同期精度＜100ps（<10-10）を達成することが可能であり，また実装も比較的容易である．本課題ではこの手法を第一選択肢として実装を行うこととする．
送受信装置部分については現在汎用デジタル無線機（Ettus Research製USRP N210）を用いた試作および数種類のアンテナの設計を行なっている段階である．本試作機およびアンテナの試作により特性の確認ができ次第，ドローン搭載型の小型機の開発に着手する予定である．

025RP2021 伊藤伸介（中央大学）
大規模データの利活用に関する方法的な可能性についての実証研究

本研究は、公的統計ミクロデータを含む大規模データのさらなる利活用の可能性を追究することによって、わが国における大規模データの利活用のさらなる展開の方向を模索することを目的としている。そのため、本研究では、大規模データの秘密保護に対する法的・制度的措置あるいは技術的措置について国際比較を試みるだけでなく、利用可能なわが国の公的統計のミクロデータを主な対象として、ミクロデータに対する秘匿措置の方向性を探究することを指向している。
2021年度については、研究代表者の伊藤が、共著論文「海外における公的統計に対する攪乱的手法の新たな取り組み―アメリカセンサス局による差分プライバシーの適用を中心に―」を刊行した。本稿は、近年公的統計データの分野で注目されている攪乱的手法について、ヨーロッパ諸国とアメリカを対象にその適用状況を洞察したものである。ヨーロッパでは、匿名化ミクロデータ(anonymized microdata)の作成のために、様々な攪乱的手法が用いられている。世帯・人口系のデータについては、イギリスの人口センサスを例に挙げると、学術研究用の匿名化ミクロデータの作成にあたって、元データとなる個票データにランダム・スワッピング(random data swapping)やターゲット・スワッピング(targeted data swapping)が採用されたことが指摘できる。また、イギリスやドイツでは、オーストラリア統計局(ABS)のTableBuilderを参考にして、個別のレコードに割り当てられる乱数にしたがって、集計表の各セルにランダムなノイズを付与するcell key methodが検討されており、ドイツ連邦統計局のオンデマンドシステムであるgenesis online やイギリス国家統計局で開発が進められているFlexible Dissemination Systemにおいて、独自のcell key methodの実用化が進められている。それに対して、アメリカでは、複数の集計結果表を組み合わせることによって、元となる個票データに含まれる個体情報を暴露する「データベース再構築攻撃(database reconstruction attack)」に対応するために、 2020年人口センサスの統計表の作成にあたって、差分プライバシーの方法論が適用された。そのための準備作業として、アメリカセンサス局は、2010年のセンサスミクロデータを用いて、差分プライバシーが適用されたデータと2010年のPublic Use Microdata Sample(PUMS)の作成のためにスワッピングが適用されたデータの比較・検討を行っている。本稿では、アメリカセンサス局が、プライバシー損失予算(privacy loss budget)εに基づきノイズを付与することで、差分プライベートな統計表を作成する際に、設定されるパラメータεの変更の過程についても論じている。
また、伊藤は、「公的統計ミクロデータ研究コンソーシアムシンポジウム2021」(2021年11月19日、オンライン開催)に参加し、「公的統計データの匿名化に関する海外の動向とわが国における課題」というタイトルで研究発表を行った。伊藤の研究報告においては、最初に、イギリス、ドイツとアメリカを例に、公的統計ミクロデータや行政記録情報の提供の現状を明らかにした。イギリスでは、オンサイト施設であるイギリス国家統計局(ONS)のSecure Research ServiceやUK Data Serviceのリモートアクセス施設であるthe Secure Labで個票データ(deidentified data)が利用可能になっているだけでなく、各種の匿名化ミクロデータ(anonymized microdata)がUK Data Serviceによって提供され、人口センサスの一般公開型ミクロデータもONSで公開されている。さらに行政記録情報、公的統計ミクロデータとのリンケージされた行政記録情報、行政記録情報同士でリンケージされたデータの提供も展開されている。本報告では、イギリスの最新状況を紹介するだけでなく、イギリスの匿名化ミクロデータの作成方法について議論した。ドイツでは、ドイツ連邦統計局によって、「事実上の匿名性」概念に基づき作成されるScientific Use File（SUF）の提供、「絶対的匿名性」の概念に基づき作成されるPublic Use File（PUF）の公開、オンサイト施設による個票データの提供サービスやプログラム送付型のリモートエグゼキューションが行われている。本報告では、ドイツで提供されている事業所・企業系の匿名化ミクロデータの作成状況を紹介した。また、genesis onlineへの適用が検討されているcell key methodについてその方法的特徴を明らかにした。アメリカにおいては、アメリカセンサス局が人口センサスを対象に一般公開型ミクロデータサンプル(PUMS)の作成・公開を行うだけでなく、リサーチデータセンターによる個票データの利用サービスを提供してきた。また、近年では、個体情報の安全性を確保した上で統計データに付与されるノイズを調整する「差分プライバシー(differential privacy)」の公的統計への適用可能性を追究してきた。そこで、本報告では、アメリカセンサス局における差分プライバシーの2020年人口センサスの統計表への適用に関する現状を明らかにした。
こうした公的統計データの匿名化に関する海外の動向を洞察した上で、本報告では、わが国の公的統計ミクロデータの作成・提供についての諸課題を明らかにした。わが国における公的統計の二次利用制度としては、調査票情報の提供、匿名データの提供、一般用ミクロデータの公開のみが行われているのが現状である。そこで、本報告では、海外におけるミクロデータの提供形態を参考にした上で、わが国における公的統計ミクロデータの作成・提供に関する将来展望を図るための論点整理を行った。具体的には、①個票データのアクセスの利便性の観点からのリモートアクセスシステムの整備、②利用者のニーズを踏まえた匿名データの作成、③プログラム送付型のリモートエグゼキューションやオンデマンド集計システムの構築、 ④学術目的のための行政記録情報のさらなる利活用の4点について議論を行い、これらについてのわが国における今後の展開可能性を模索した。

026RP2021 西園啓文（金沢医科大学）
和漢薬をベースとした女性の身体にやさしい新規生殖補助医療技術のデータサイエンスに基づいた開発研究

富山大学和漢医薬学総合研究所より入手した種々の和漢薬生薬エキスライブラリーを用いて、マウス受精卵の発生停止実験を行ったところ、現時点で5種の新規緊急避妊薬候補を発見することができた。興味深いことに、これらの候補は和漢薬の文献上では女性特有の疾患などに効果があるとされているものであった。和漢薬はすでに長い年月の使用実績があり、本研究が目的とする女性の身体にやさしい避妊薬には非常に有望だと思われる。

027RP2021 増田耕一（立正大学）
東日本に凶作をもたらした天候の時空間構造の文書記録を活用した解析

気象観測が始まる前の時代と始まった後の時代を通じて、人間社会に影響をおよぼす天候変動、とくに東日本の冷夏についての認識を深めたい。そのために、(1) 気象災異年表資料の利用、(2) 気象観測はされているがデータのディジタル化が進んでいない時期の観測資料の利用のための作業をおこなった。これに関連して、日記天候記録にもとづく日射量の推定について地点をふやして日本列島規模の空間分布を検討した結果を学会発表した。また、「れきすけ」の趣旨を説明する論文を発表した。
(1) 気象災異年表データベースの試作
気象観測が始まる前の天候に関する情報源として、毎日の天気記録とならんで、災害記録がある。気象災害記録については、近代 (おもに昭和期) に編集された年表があるが、だいたい県ごとであり、編集時期も形式も統一されていない。
たとえば、仙台管区気象台 (1963) 『宮城県気象災異年表』という出版物がある。その内容は大雨などの異常気象現象と、飢饉などの人間社会にとっての災害にわたる。気象台の観測開始以後はおもに気象観測記録にもとづいているが、開始前は文書記録にもとづいている。この出版物には「文献」と「原文献」の一覧表があり、年表項目の各記述にはその番号がつけられている。たとえば「26の102」とあれば、記述の根拠は『栗原郡誌』であり、さらにそれが『若柳年代表』にもとづいていることがわかる。同様な年表は岩手県と山形県についてもつくられている。盛岡地方気象台 (1979) 『岩手県災異年表第3版』、山形地方気象台 (1972) 『山形県災異年表第5版』である。初版は岩手 (1938年) と山形 (1939年) のほうが早く、第二次世界大戦前の県立測候所が編集したものである。ただし岩手と山形のものの出典情報は一段階であり、さかのぼれるのは編纂物までとなる。
複数の県にまたがる気象災害のひろがりをつかむため、複数の年表を一括して検索・表示したい。そのためのシステムの仕様は自明ではないので、まず項目をしぼって試作することにした。対象を、宮城県と岩手県の2つの年表の1830年代の記録とした。検索キーとしては、時間、空間、災異の種類がある。時間の検索キーは西暦の年単位とした。空間については出版物を指定することによって県単位で把握するにとどめた。災異の種類は、各年表で索引キーに使われている分類語にもとづいたが、そのままでは細分しすぎと思われたので、検索キーとしてはいくらか包括した分類を採用した。年表データをリレーショナルデータベースに収録し、PHPから呼び出してウェブブラウザで表示した。これによって、各年の霖雨、霜、大雨などの異常気象や不作、飢饉などの災害について、両県にまたがって一覧できるようになった。今後継続できれば、時間については年、月、日とさまざまな粒度の記録のあつかい、空間については歴史地名および出典文献から推測される地域のあつかい、災異の種類については分類体系のたてかたを検討したうえで、仕様を改訂して拡張したい。
(2) 日照時間データの月値の解析および日値のディジタイズ
気象庁の前身である気象台・測候所による月ごとの日照時間および日照率 (= 日照時間 / 可照時間) の数値データは、すでに気象庁のウェブサイトから公開されている。 1901年9月以降、東北6県の各県1地点以上の観測値がある。1920年代以前に観測が開始された地点の日照率の、仮に 1956-1985年の平均を平年値とした平年比の地理的分布を作図して検討した。たとえば、1993年8月は全国的に日照率が低いが、とくに北九州から関東にかけての帯状に低い。明治末期の冷夏・米の凶作で知られている1902年と1905年の8月も全国的に値が低いが、とくに東北・関東の太平洋側で低い。 1993年と同様な梅雨類似の前線停滞と「やませ」型の天候の両方が生じていたと考えられる。しかしまだ客観的判断に至っていない。
前線停滞や「やませ」のふるまいを検討するためには、月より短い時間分解能で検討する必要がある。そこで、気象原簿のマイクロフィルムからスキャンされた画像データにある日ごとの日照時間の記録の読み取りに着手した。地点・時期によっては、Jordan式 (感光紙による) と Campbell 式 (紙をこがす) の並行観測が行なわれていたことがわかった。ただし機種が記録されていない場合もある。また、東京について、原簿から読み取った日値の月合計を気象庁ウェブサイトの月値と照合したところ、1946年2月の値が違っており、気象庁の月値は原簿の欄外に書かれた1月31日の値を誤って集計に含めてしまったものであることがわかった。

028RP2021 鴨川仁（静岡県立大学）
全地球電気回路研究のための地上大気電場観測データのデータベース化とデータ解析システムの開発

2021年度ではカナダ製Boltek社大気電場観測装置の代替観測機器となる音羽電機工業社のフィールドミルのGloCAEM対応ソフトの開発を行った。次に、2020年にBoltek社製のGloCAEM対応ソフトを試作したので、それらの試験運用で判明した不具合を解消し、安定した長期観測ができるようにした。その上で、報告者が運用を管理する南極・昭和基地、アイスランド、小笠原・父島、能登半島・珠洲、茨城県・柿岡における大気電場観測において柿岡の観測点で運用を行った。現在、GloCAEM運営側の事情で登録がただちにできないため、登録後直ちに移管ができるよう仮想サーバーにて模擬運用を行った。仮想サーバーにおいてはリアルタイムのデータプロットができるようになっている。
南極・昭和基地のデータ解析については、現地の気象観測データ、地吹雪データ、エアロゾル粒子観測データ、オーロラや磁場観測データなど複合的なデータを解析するための「全地球電気回路研究統合データベース」の必要要素を検討した。全地球電気回路に最も大きなノイズ源とみられる地吹雪データについては、どのような影響を与えるかについて、学術論文としてまとめAtmospheric Research誌にて出版を行った。さらに他要素の中で南極の高層雲の影響と前述の地吹雪影響については、データ利用の時のシグナルの弁別手法を明確に記述し、論文投稿を行った。
Boltek社製のデータ記録はデジタル収録となっているが、アナログ収録も行えるような仕様になっている。そのため、このアナログ収録を活用することで、デジタル収録の不具合等でデータ欠損が生じた場合のデータ補完が行える。南極・昭和基地ではPCによるアナログデータ収録を行っていたがPCによる収録より専用データロガーのほうが安定した運用が可能となるため、父島、珠洲、柿岡においては、Hioki社製データロガーに収録を切り替えた。またそのデータロガーにはGPS時刻出力データも加わるようになっており時刻精度の高いデータが得られるようになっている。2021年度ではこれらのデータをGloCAEMのフォーマットに変換させるコードを開発した。

029RP2021 針尾大嗣（摂南大学）
定性的情報の可視化研究に基づく社会データ利活用のためのデータライフサイクルマネジメントの検討

本研究テーマは、2019年度・20年度に助成を受けた「多次元尺度法を用いたオープンデータ・ビッグデータからの消費者感性情報の抽出とマーケティングへの利用研究」の成果を基盤としており、その研究成果から、企業や国・地方自治体や、IDRのようなデータ・アーカイブセンターが保有するデータの提供を受け、調査研究を行うことは、データ収集にかかるコストを大幅に減らすことができるため有用であることを確認した。よって、2021年度は、データライフサイクルマネジメントの観点から研究を実施した。ただし、社会事象をモデリングし、測定のするために「社会現象の要素」を抽出し定量化する、つまり、Web空間に存在する膨大な社会データから、分析に必要なデータを収集・抽出し、分析可能な状態に加工・処理するためには、対象とする社会事象とそのモデリング、さらには調査分析・測定とデータの収集・処理・加工に至る社会科学とデータ科学の学際分野にまたがる手法を融合し、適切にデータをマネジメントし、運用（分析）していくことが求められる。
そこで、本研究では、データの付加価値を高め、オープンサイエンス・オープンデータに資するデータ公開・共有方法の検討を行うため、2019年度〜2020年度に実施した感性情報の可視化手法に関する共同研究をさらに発展させ、分析対象の拡大・分析手法の高度化・多機能化を図る。あわせて、この可視化手法に関する研究を事例として、データライフサイクルマネジメントの観点に基づくデータの付加価値を高めるためのデータ構造化やデータクリーニングの手法を検討すると共に、その成果を主に文系大学生を対象とするデータに基づく実証研究のための教育教材の開発につなげていくことを目的として研究を行った。
本研究では、共同研究者の専門性を考慮し、①データの可視化手法の関する研究、②データライフサイクルマネジメントに基づくデータの高付加価値化とその公開・共有手法に関する検討、 ③文系大学生を対象とするデータに基づく実証研究のための教育教材の開発について社会データ構造化センターの共同研究者からさまざまな助言を得ながら、研究を遂行した。
まず、①データの可視化手法の関する研究では、本研究では、吉見を中心に「Yahoo!知恵袋」と「ダイエットカフェ」という2つの口コミサービスの大規模公開データを用いて、ダイエットサプリに関する口コミのサービス間の着眼点の差異について、テキストマイニングの手法を用いて検討を行った。この結果は、両者の頻出上位単語の抽出と共起ネットワーク分析からQ&Aコミュニティと商品レビューというそれぞれのサービスの性格から生じる可能性が高い頻出単語の抽出と共起ネットワークの差異を確認することができた。このようにテキストマイニングの手法を用いた頻出上位単語の抽出と共起ネットワーク分析から、蓋然性の高い結果を導出できたことが本研究の成果の1つである。また、大規模公開データにおける複数サービスの比較の観点を導入したことにより、データ取得時のバイアスを大きく削減することが可能となることも確認した。
加えて、谷本を中心にYahoo!知恵袋における応答に着目しAmazonと楽天市場という2つのプラットフォームをテキストマイニングにより分析することで、その相違点を抽出し、2つのプラットフォームに対する消費者の認知について探索した。その結果、Amazonプライムと卓テンポイントという両プラットフォームが戦略的に重要視するサービスがテキキストマイニングの手法を用いた頻出上位単語の抽出と共起ネットワーク分析から、可視化した。このことは、プラットフォームに限らず類似のカテゴリに属するものを、相違点に着目して比較することで、データ提供期間における比較対象に対する利用者の認知を可視化できる可能性があることを示した。また、企業の視点に立てば、これにより、自らの思惑通りにサービス等が認知されているか確認する仕組みを構築できる可能性もあることを示した。また、可視化研究が順調に進捗し、対象のデータや分野を拡大し、より高度の解析を行うなどテキストマイニング分析を強化するため、導入予定のソフトウェアをグラフ作成などからテキストマイニング用のソフトウェア変更し、あわせて、テキストマイニング分析を促進するためにデータクリーニングやテキストデータ収集用のシステム・プログラム作成のために学生アルバイトの雇用費用（雇用時間）を増額する予算使途の変更を行った。
このように、①データの可視化手法の関する研究では、従来からの研究の結果を受けて、大規模学術研究データを用いた可視化研究を行い、プラットフォームやサービスの筆禍ウ分析を行うとともに、異なるデータセット間での比較や特徴抽出を試み、前述のような成果を得た。
本研究では、このデータ可視化に関する研究の成果を踏まえつつ、②データライフサイクルマネジメントに基づくデータの高付加価値化とその公開・共有手法に関する検討を行った。データライフサイクルマネジメントは、研究データの管理手法であるが、研究データの付加価値や再利用性を高めるという観点の他に、本研究の目的の1つでもある③初学者向けの教育教材として活用するという観点からも、データライフサイクルマネジメントに基づき、データ可視化研究におけるデータ分析の過程であるデータクリーングや構造化を含む一連のテキストマイニングやデータ分析の過程やログ記録、メタデータを付与し管理することの有用性の検討を行った。この結果、データクリーニングや構造化を含むデータ分析の過程を記録し、共有することでデータ分析担当者以外の共同研究者のデータ分析やその結果の解釈に関する理解が深まるなど共同研究の適切なマネジメントが可能になるだけではなく、データサイエンスを志す初学者にとって難易度の高いデータクリーニングや構造化を学ぶ有用な教材となることを示すことができた。一方で、その過程の記録やメタデータの付与を行うデータ分析担当者の実務負担は大きく、データの付加価値や再利用性を高めるために必要な、あるいは教材として有用な項目を抽出して、ドキュメント作成の負担軽減を図ると共に、ログの自動収集など効率的にデータ分析の過程を記録し、分析担当者の負担を軽減するための手法やシステムを検討し、データ共有・公開、教材作成のためのコストを下げる為の検討をおこなうことが今後の課題となる。
また、データ分析の過程、特にデータクリーニングや構造化は研究目的に最適化されて行われる、つまり研究の核を為すアイデアやノウハウに基づくものであり、データライフサイクルの観点から公開・共有するあるいは教材化するにあたっては、この研究者のアイディア・ノウハウ保護しつつ、共有・公開可能な範囲の抽出、教材化することが必要となる。今後は、研究のアイデアやノウハウを保護し、メタデータやデータ分析過程のマネジメント記録を活用するための手法のアイデアな課題である。
これらの成果を踏まえ、本研究では、データサイエンスやテキストマイニングの初学者を対象とした③文実証研究のための教育教材の開発として、岩井を中心に自然言語処理を題材としたプログラミング的思考のための教材開発を行った。自然言語処理は人工知能研究における重要な分野の一つである。一方で、小学校高学年からの学習の過程で論理的思考がなかなか定着せず、その結果として学びの初期段階でつまずいてしまうため、研究開発の継続が困難となる事例が観察される。そこで、そのつまずきを上手く乗り越えられるような教材を作成自然言語処理分野における初学者のための教育ツールとして、形態素解析等を利用した日本語テキスト分析用Webアプリケーションである「品詞分析くん」を構築し、自然言語処理研究の裾野を広げるべく教材作成を行った。自然言語処理を題材とする場合、例えば概念理解や対話処理等が最終的な目標として位置づけられる。これらの目標に到達するためには、例えば、特徴量データを生成してその関連性や分布状況について分析する必要があるが、こうしたデータ処理を適切に進めるためには、人工知能分野における特徴量の抽出等の作業を経験しておくことが望ましい。そこで、提案システムでは、実際の自然言語処理を容易に実行できる環境を提供することとした。これによって、自然言語処理自体に興味をもってもらうこと目的としつつ、背景知識と共に分析の過程を、事例の紹介やシステムを利用した演習を行いながら詳細に説明することで理解につなげるかたちで講義を展開するため、本研究で得られた知見と開発したツールなどを今後実際の授業の中で導入していく予定である。また、文系大学生によってデータの収集と加工、簡易なツール開発などを行っており、今後この知見をもとにデータ収集手法などについての教材開発などを行っていく。
以上、本研究では、①データの可視化手法、②データライフサイクルマネジメントの観点からデータの付加価値を高める手法の検討、③データサイエンス・テキストマイニングの初学者を対象とした教材開発では一定の成果を得ることができた。一方でそれぞれのテーマにおいて新たな課題、特に②データライフサイクルマネジメントの観点からデータの付加価値を高める手法の検討では、データマネジメントコストの低減や研究アイデアやノウハウを保護とデータ共有・公開手法、教材化の両立などの新たな課題もあるため、今後も継続して研究を進めていく予定である。

030RP2021 塩田さやか（東京都立大学）
日本語大規模時系列データベース作成のためのデータクレンジングとその応用に関する研究

本研究課題では、web上の公開データから必要なデータの収集やデータベース作成を行うことを前提とした、データクレンジング技術の確立に関する研究を行った。この研究では、応用先のアプリケーションとしては音声認識や話者認識、音声合成など時系列データの一種である音声に着目しweb上にある膨大な公開データを活用するための一助となることを目的としている。 web上の公開データを研究用途として収集するために考慮すべき点として著作権などの公開者の定めた権利に抵触しないことだけでなく、背景雑音やBGM、対話状態や効果音、シーン切り替えが合成音声など通常のスタジオなどで音声を収録するのとは大きく異る環境についても考慮する必要がある。そのため、データクレンジング技術の確立は非常に重要な課題となる。そこで本研究では、動画共有プラットフォームの一つであるYouTubeに着目して、データを収集し、応用アプリケーションに適切なデータのみを抽出するデータクレンジング技術について提案した。提案手法では、まず、youtubeからデータを収集する際にコンテンツに投稿者による手動字幕がついているものを選択するところから始まる。手動字幕がついた動画の音声データを抽出したあと、音声認識などのアプリケーションの作成に使用可能なデータを抽出するために、音声セグメンテーションを行った。音声セグメンテーションでは、入力された音声をCTC/attention機構と自動字幕の情報などをもとに実際に音声が含まれる区間を切り出すことが行われる。これは、YouTubeなどの動画においては実際の話者以外にもBGMや雑音、効果音などが多く含まれており、従来の音声区間検出では切り出しが困難となることが理由である。特に、手動字幕が付与されているデータについては実際の音声区間と字幕部分の時間差が大きくないという点からも利用することでより安定した音声区間の検出である音声セグメンテーションが期待されるためである。
さらに話者照合や音声合成など、話者に依存するアプリケーションにおいては動画内で複数人の声が入り交じる音声を使用することは性能の低下につながるため、一名の話者のみ存在する動画を抽出する手法も必要となった。そこで本研究では、動画内の話者数を推定するためにある話者の特徴を表すベクトルを動画から複数抽出し、そのベクトルで表現される話者空間の分散の大きさに着目してデータの選別を行った。データクレンジングの性能評価のために300サンプルについて人手でラベリングしたデータに対して、分散の大きさを基準に判定した結果、分散の分布のうち一定区間のみを選択することで非常に高い精度で一話者のみが話す動画を選択することが可能となることが確認できた。
本研究では、これらのデータクレンジング手法に関する提案とともに実際にデータベースを公開することを行った。データベースは音声認識および話者照合に利用可能なものとなっており、今後は更に音声合成のためのデータ選択などを視野にデータクレンジング法について検討を行うことが予定されている。

031RP2021 庄建治朗（名古屋工業大学）
古日記天気記録の定量化に関する研究

1．本研究の目的
古日記の天気記録は，観測データが存在しない歴史時代の水文気候環境を推定するための代替資料として広く活用されている。ただしその記述は定性的で，客観性に乏しいと考えられてきたため，これを降水量等の量的変数に変換するためには様々な仮定を必要とし，また本来は日単位ないしそれ以上の時間分解能をもつ天気情報を月単位や季節単位などに積算して用いられるのが一般的である。本研究では，古日記天気記録の精度・信頼性と天気判断基準を明らかにするため，関東と近畿地方を主な対象として，気象観測記録と期間重複する明治・大正時代と現代の日記天気記録を収集し，降水量，雲量，日射量等の日別または時別の観測データとの対応関係，及び日記記録者間での天気判断基準の差異を分析する。そしてその結果を用い，日記天気記録と機器観測記録，また記録期間の異なる日記天気記録どうしを接続し，歴史時代と観測時代を通じて均質で高精度の降水量等の時系列を復元するとともに，歴史時代の天気記録を大気再解析に導入する手法を構築することを目的とする。

2．研究の手順
上記の目的のため，気象観測開始以降の時代の古天気記録の収集整理と，それと照合する気象観測データの収集整理を進めた。昨年度は，京都・滋賀周辺と東京周辺において明治・大正期に記録された11日記について毎日の天気に関する記述の抽出整理と「れきすけ」（歴史資料に関する知識と経験の共有システム）への登録，近接する気象観測所における日単位の降水量を中心とした観測データの整備，天気記録の詳細さ（「詳細率」）に着目した日記記録者による天気判断基準の差異の補正方法の検討を行った。第2年次となる今年度は，天気記録と気象観測データとの関係をさらに詳細に解析するため，日単位よりも詳細な気象観測データの整備に重点を置いた。日記記録地点に近接した，彦根，京都，大阪，東京における，観測開始から1925年（大正15年）までの，降水量と雲量の4時間ごと（1日6回観測）または1時間ごと（毎時観測）の観測データの整備を行った。また日射量データ（日単位）の整備も進めた。明治・大正期の気象観測データは，手書き気象観測原簿の画像データでしか得られない場合が多く，解析に用いるためにはそれらをデジタル化する必要がある。本研究では，同一地点・期間について原則として2名の作業員が独立して入力作業を行い，両者を照合して入力ミスの点検を行った。また，手書き気象観測原簿の画像データは気象業務支援センターからCD-ROMまたはHDで頒布されているが，これらは原簿をページの順に写真撮影しフォルダにまとめただけのものであり，参照したい観測要素・期間を検索するのに手間がかかるため，これらの原簿画像データを国立情報学研究所で運営するウェブサイト「デジタル台風」の歴史的データアーカイブに登録し， IIIFビューアで閲覧できるように整備を順次進めた。これにより，ファイルを次々と開き移動する操作が容易になるとともに，拡大表示した箇所が次に開いたファイルでも引き継がれることで，デジタル化作業の効率が格段に向上した。こうして整備したデータを用い，天気種別と気象観測値との関係を解析した。

3．結果
日記に記載されている天気を「晴」「雨」等にカテゴリー分けし，日単位の気象観測データと照合すると，その対応関係には相当なばらつきがあることが確認される。そのばらつきの一部は，日記天気記録における天気観測時刻（一日の平均的な状態ではなく特定の時刻の天気が日記に記録される）によるものと考えられる。
図1は、4時間ごとの降水量データを用いて，時刻（その時刻までの4時間降水量）ごとの降水の有無の一致率（観測データにおける降水日のうち，日記でも降水が記録されている日の割合）を示したものである。日記により差があるが，午後2時における一致率は0.7−0.8前後で最大となっている日記が多く，一方で午前2時においては一致率は0.4−0.6程度で最小となっている。このことから，日記天気記録には主に午前10時から午後2時頃の状態が記録されていると考えることができる。それでも2割から3割程度は日記と観測データで降水の有無が一致していないが，これは日記記録地点と気象観測地点が離れているために実際に天気が違う可能性があることや，同一の日記でも天気の観測時刻が一定していない可能性があることなどが関係していると考えられる。なお，全体的に天気の記録が詳細な（「詳細率」が高い）日記の方が観測データとの一致率が高い傾向がある。
図２は，日記天気記録と時刻ごとの雲量のデータを照合した結果の例であり，日記における天気が「曇」の日における雲量の時刻ごとの分布をボックス図で示したものである。午前10時と午後2時については多くの場合に雲量9以上でばらつきが小さいが，午後10時の雲量は1−10程度の範囲に広く分布し，ばらつきが大きい。このことから，雲量についても日記には主として午前10時から午後2時頃の状態が記録されていると判断できる。こうした情報は，古天気データを気候モデルに同化し歴史時代を含む長期再解析を行う場合に有用な情報を提供するものと期待される。

4．今後の課題
手書き気象観測原簿をデジタル化する作業は，昨年度と今年度の共同研究でかなり進展したが，他の研究でも利用できるように整備・公開する作業は未だ途上である。手書き気象観測原簿の画像データを「デジタル台風」に登録する作業についても，未だ一部の地点に留まっている。こうした本研究の成果の整備・公開を進めていく必要がある。天気記録と気象観測データの関係の解析については，これまでの研究で記録者により大きなばらつきがあることや，それが天気記録の詳細さ（「詳細率」）と密接に関係していることなどが明らかとなり，両者の対応関係についての把握が進んだが，それを利用した古気候復元の高精度化や，古天気データ同化の手法等については今後の研究に負うところが大きい。例えば，天気記録のカテゴリー分けの方法や，「詳細率」の計算方法，誤差を最小化するための複数の天気記録の合成方法などが検討課題である。また，日記による天気記録基準の違いがどこからくるのか，例えば地域による違いがあるのか，等を明らかにすることや，これまで降水量を中心に解析してきたが，日射量等の他の気象要素についても解析を進める必要がある。そのためにも，観測時代の古天気データと気象観測データの整備充実をさらに進める必要がある。

032RP2021 阿部修司（九州大学）
データ駆動型研究促進のための機構賛同型コンソーシアムによる研究機関・大学との接続

本研究は2年計画で推進する2年目であり、都合により代表者を交代して継続している事業である。

今年度の本研究では、昨年度に引き続き、分野融合型科学社会の実現に向けて、機構と賛同する外部の機関および研究者を接続し、一体型の運営モデルの構築と実際のデータ利用に関する試行を行った。接続先は、昨年度と同様、(1)データサイエンスを推進する事業パートナーと、(2)各機関・図書館・研究者・データ所有者等のプロモーターの2つとした。

（１）機構による分野融合事業（サービス）とデータアーカイブ事業（データ保存）の接続を企図した、NIIとの協力連携について打ち合わせを行った。 AMIDERにおける、実データ公開のためのツール開発や、相関計算にNIIの計算基盤を使うなどの支援、共同研究が検討された。ここ数年超高層分野で進んでいるフォーマット統一の動きに対しては、 NIIから、研究としてフォーマットの統一に関して貢献できる可能性が言及された。JAIRO Cloundでのデータ公開について担当者より説明がなされ、 AMIDERによるサービス機能とJAIRO Cloudによるアーカイブ機能がそれぞれ役割を棲み分けて連携しうることが改めて確認された。また、コミュニティの形成については、研究データ利活用協議会（RDUF）の説明や、JOSS2022にて「データへのDOI付与」のセッションが提案されたことが情報共有され、今後も協力体制を取っていくことを確認した。併せて、2021年度に改修した統合データサイエンスプラットフォームのユーザインターフェースについて報告し、ユーザサイドからのニーズの収集、及び、異分野融合研究への利用可能性についての議論を行った。

（２）2022年1月15日に発生したフンガ・トンガの海底火山噴火は、噴火に伴う潮位変化や電離圏変動など、他領域でも大規模変動を引き起こした。そこで、今年度は、各研究者の所有するデータを持ち寄り、本イベントを多方面から確認した。具体的には、FM-CW（周波数変調連続波）レーダーによる電離層イオノグラム変動、電離圏TEC（全電子数）変動、地磁気変動、二酸化炭素濃度変動、宇宙線観測ネットワークにおける気圧変動、南極の微気圧変動などが紹介された。これにより、異分野データから統一的な科学的知見を得ることができることを共同研究者間で確認した。

2年間の共同研究から、事業推進の観点では、JAIRO Cloudや各大学・研究機関等のデータアーカイブ活動と機構によるデータ融合活動は、各々の分担がされながら一貫的に接続できることを確認できた。また、異分野データ融合の観点では、外部の機関および研究者間で融合解析を行うことができ、その効果を確認することができた。

033RP2021 山口敦子（東京都市大学）
生命科学分野の巨大なナレッジグラフの活用のための圧縮インデックス調査研究

昨年度行った RDF ポータル(ライフサイエンス統合データベースセンターが共同研究で開発したデータセット)に含まれるRDFデータに対する調査に加え， Umaka-Yummy Data(外部のSPARQLエンドポイントの信頼性情報を提供するシステム，ライフサイエンス統合データベースセンターで運用中)で上位にランクする SPARQLエンドポイントが提供するRDFデータへ調査対象を広げることを試みた．そのため，2021年7月時点でUmaka-Yummy Dataで上位70にランクされるSPARQLエンドポイントに対し，RDFデータを取得するため，ダウンロード可能なURIの特定を試みた．しかしながら，ダウンロード先が特定できたのは，22のエンドポイントに過ぎなかった．そのため，SPARQLエンドポイントから直接データを取得することも試みた．しかしながら，SPARQLエンドポイントはWebAPIであり，大量のデータを取得するためには時間を要するため，現在もデータの取得を続行中である．また，一部のSPARQLエンドポイントは運用が不安定で，しばしばサービスがダウンしており調査が不可能なものもあった．

昨年度調査を行ったの4つのデータセット(DBKERO RDF, jPOST database RDF, RefEx RDF, Quanto)に加え，ダウンロードができたRDFデータのうち最も巨大なPubChemRDFを用いて圧縮率の調査を行った．昨年行ったデータセットのサイズは，最大であるDBKERO RDFでURIリストのデータサイズ19GB, 最小のQuantoでURIリストのデータサイズ113MBであるのに対し，対象としたPubChemRDFはURIリストのデータサイズ242GBと遥かに巨大なサイズのURIリストを持つRDFデータとなっている．

Front Coding のツールとして，昨年度に引き続き，SD(Front Coding のC++ライブラリ．)を用いた． Front Codingはバケットと呼ばれる区切りの長さによって性能が変わるため，バケットの長さ(以下，Bと表す)を16, 32, 64, 128, 256, 512, 1024, 2048として，PubChemRDFに含まれるURIの圧縮後のサイズと検索速度の調査を行った．

PubChemRDF の圧縮の結果は以下のようになった．
未圧縮: 242GB, B=16: 64.7GB, B=32: 57.9GB, B=64: 54.5GB, B=128: 52.8GB, B=256: 51.9GB, B=512: 51.3GB, B=1024: 51.3GB, B=2048: 51.2GB

昨年度の調査結果として，RDFポータルに含まれる4つのRDFデータに対しては，圧縮率と検索速度のつり合いを考えると，バケットの長さの中では，256や512にすることが望ましいという結果であった． PubChemRDFについては，検索速度は調査中であるが，圧縮率に関しては256で十分な圧縮ができていると言える．検索速度の調査が完了次第，既存の結果と比較を行い，データのサイズがバケットの最適値にどのような影響を及ぼすかを明らかにしていきたい．

一方，Front Codingには以下の欠点がある．
・全てのデータを予めソートしておく必要がある．巨大なデータの場合，ソートの計算量は小さくない．
・データの追加・削除が簡単にできない．追加・削除をした場合は，全データをソートし直し，再度圧縮アルゴリズムを適用する必要がある．
・圧縮率や検索速度がバケットのサイズに左右される．
昨年度行った，生命科学分野のRDFデータセットに現れるURIの名前空間の多様性に関する調査結果(URIのスキームに続く文字列に対し，先頭側の多様性は著しく低い)に基づき，これらの問題に対応可能な手法の開発を検討した．まず，多様性の低い部分は同じ文字列ごとにまとめ，一様性の高い部分は既存の検索アルゴリズムを割り当てることで，Front Codingの欠点である，データを予めソートしておく必要がなく，バケットの長さにも依存しない手法を開発することを試みた．具体的には，URIを/で切り，多様性の低い部分は木状として持ち，多様性の高い部分はハッシュを利用して蓄積する手法を試作実装した．さらに，RDFポータルで提供しているRDFデータのうち，JPOST, RefExのURIリストを適用し，昨年度のFront Codingの圧縮率の結果と比較した．その結果，開発手法では多少の圧縮ができたものの，Front Coding の結果には遥かにおよばない圧縮率となった．原因は多様性の高い部分の圧縮率がFront Codingと比較して低い点にあると思われる．そのため，この部分の圧縮手法をさらに検討し，巨大なRDFデータの実用に適した手法となるよう，圧縮率の向上とデータの追加削除などの利便性の両立を目指して検討と開発をつづけていきたい．

034RP2021 村田健史（情報通信研究機構）
過去に学び将来に活かす地域災害情報WebGISアプリケーション開発

本研究開発は、2018年度～2020年度までに本プロジェクトで進めた3年間プロジェクト（毎年プロジェクトタイトルが変わっていたため、以下、「2018-2020歴史的境界WebGISプロジェクト」とよぶ。）をベースとして、地域防災のためのWebGISアプリケーション開発プロジェクトを3年計画で新たに立ち上げたものである。2018-2020歴史的境界WebGISプロジェクトの主な成果は次のとおりである。 ①NIIが作成した1920年～現在までを25の時代区分とした歴史的行政境界データをバイナリベクタタイル化した。②2015年の国勢調査に基づいた町丁目境界データをバイナリベクタタイル化し、町丁目ごとの人口と世帯数をメタデータとして付与した。 ③上記のバイナリベクタタイルデータをMapboxGL（2.5次元WebGIS）に掲載した。④長野県千曲市の歴史的災害データ（pdfファイルで公開）から過去の自治体名と災害名とを紐づけるデータベースを作成し、上記のWebGISで可視化した。（同WebGISは京都大学Webサーバから公開準備中である。）2018-2020歴史的境界WebGISプロジェクトとしては当初目的を達成できたが、このWebGISアプリを地域災害対策として活用するための課題も明らかになってきた。
本申請（以下、「2021-2023地域災害情報WebGISプロジェクト」という。）では、次の計画を提案した。 2021年度は多くの自治体が独自に公開している過去の自然災害データベースを参照して、過去に発生した複数個所の地域災害データを分析し多くの自治体で利用できる過去の災害情報データベースの設計を行う。その際に、災害種別をID化することや、災害発生の時空間情報と地理情報（例えば河川IDや橋梁IDなど）を結びつける。 2022年度は2021年度のデータベースをもとにいくつかの自治体をピックアップして、過去の災害事例をWebGISで時系列可視化するサンプルWebアプリを開発する。さらに幅広い自治体において利用できる地域災害情報WebGISアプリケーションのテンプレートを作成する。その際には各自治体のハザードマップや避難情報なども含めることができる設計を目指す。 2023年度は2022年度の成果をもとに国内の多くの自治体のためのWebGISアプリケーションを実装する。
3年間を通じた研究開発では時系列可視化のテーマとして特に地域の災害史に焦点を合わせることから、防災科研のメンバーを新たに加えて防災分野との連携を強化するとともに、科学館のメンバーを期間中に追加して研究成果の地域への展開も進めることとする。 2021年度は3年計画の初年度であるため、様々な角度から目標達成のための検討を行った。具体的な検討内容とその成果は以下のとおりである。①防災科学技術研究所において開発されている「災害事例データベース」についてのヒアリングを行った。 ②長野県千曲市や四国地方整備局などが公開している地域災害情報の内容を検証した。。③国土交通省が公開している国土数値情報およびPLATEUデータ（3次元建物データ）についての調査を行った。 ④過去の新聞記事データ（一般紙）を精査し、記事のインデックスについて調査を行った。⑤科学館においてこれまでに作成したWebアプリケーションを紹介し、科学館での利活用についてヒアリングを行った。
①については、WebGISマップ上に過去の主要な災害情報が可視化表示されていることを確認した。したがって、本計画で類似したWebGISアプリを開発することは有効ではないという議論を行った。方で、防災科研WebGISの情報は防災科研研究者が様々な方法で取得したデータをDB化しているものであるが、長野県千曲市の事例が1件しかないなど、地域単位で見た場合には災害イベント数が十分にあるわけではないことが分かった。また、これらの過去災害情報は自治体名と紐づいているものの、他の地理情報とは紐づいていないことが分かり、本計画ではこの点に重点を置くべきだという議論があった。
②については、データ公開組織ごとに過去災害を記述するデータフォーマットが異なること、あらゆる自治体のDB化を本プロジェクトが行うことは現実的ではないことが分かった。また、過去に発生した災害が本計画の背景となる歴史的行政境界データと必ずしもマッチするわけではなく、自治体名の記載がなく表示されている場合や、地域の地理情報（河川、橋梁、山など）に紐づいている場合も多いことが分かった。
③については、過去災害の視点から国土数値情報を検証したところ、河川の情報は地理情報としてDB化されているが、橋梁などデータに含まれていない情報が存在することが分かった。なお、橋梁については個人がデータベース化を試みた例はあるものの、公的機関がデータベース化したものはないため、過去災害と紐づけるのは困難であることが分かった。
④については、具体的には以下のデータをGeoJSON形式に変換した。（１）国⼟数値情報「⻯巻等の突⾵」データ、（２）国⼟数値情報「地域資源新潟県」データ、（３）国⼟数値情報「景観重要建造物神奈川県」データ。これらに加えて（４）国土数値情報の河川情報をバイナリベクタタイル化した。さらに、これまでに2018-2020歴史的境界WebGISプロジェクトで構築してきた新聞記事DB（一般紙全国版）から自然災害だけを抽出して作成した⾃然災害DBから上記4データの名称を取得できるように設定した。これにより市区町村名と⾃然災害DBの各記事との関連を検索し、メタ情報として出⼒するための準備（環境整備）を行った。竜巻、河川、地域資源などを2018-2020歴史的境界WebGISプロジェクトで構築したWebGISアプリへの可視化は、2022年度に実装する予定である。
なお、②、③および④より明らかになった課題点は次のとおりである。（１）「⻯巻等の突⾵」のように時間⽅向の属性をもつデータについては、期間選択時に該当期間のデータかどうかを可視化することは可能だが、「河川」など時間⽅向の属性を持たないデータについては、「河川」の名称と記事との関連を予めメタ情報としてもつ（市区町村名との関連と同様）必要がある。（２）「河川」についてはベクタタイルの元となっている国⼟数値情報は、⼀意の識別子（ID相当）とその属性（河川名等）を有するものの、一部のIDは複数のfeatureに対応していることがわかった。したがって、河川名からfeatureを特定するには何らかの対策が必要である。（３）国土数値情報については、ベクタタイル化していないデータ（たとえば歴史的建造物の火災消失などを考える際の地域資源データなど）もあるため、必要なデータについてはタイル化が必要である。
⑤については、2つの科学館（北海道、東北）に対して、2018-2020歴史的境界WebGISプロジェクトの成果であるWebアプリケーションを紹介し、展示等についてのヒアリングを行った。その結果、たとえば小学校4年生では社会科で「郷土を学ぶ」というカテゴリーがあり、副読本を使って自分たちが住む場所について学ぶことになっているため、このようなWebアプリを使えば、自分たちが住む街の状況が可視化でき、かつデジタルツールで知ることができて大変便利なのではないだろうかという意見があった。ただしデータが何を意味しているのかを見る人が容易に理解で切る必要があるという指摘もあった。なお、科学館の展示は、一度設置されると10年、20年と運用される。実際、本調査対象の科学館でも開館当時の展示がほぼそのまま使用されていたり、老朽化した展示が現在も使われていたりする。提示したアプリケーション・システムについても、展示が決定すれば長期にわたって運用されていくであろう。その際に、前述のPCなどの交換やウェブサーバー側のシステム変更などへの対応(もしあれば)など、時々に応じたメンテナンスやアップデートが必要になる。また、展示の長期にわたる運用に際しては科学館側のノウハウを取り入れていくことが重要である。同時に展示内容の変更などは我々の側から伝えていかなければならない。従って、展示側とコンテンツ供給側とが今後緊密に連携し、情報交換を密接に行い、ノウハウの共有やアップデートを行っていくことが必要である。またそれは今後の展示内容の拡大や他の科学館への展開にも必要とされることであろう。

035RP2021 野村俊一（早稲田大学）
保険数理データ解析のための現代的数理手法の開発

（野村・白石）空間点配置データに対する自己励起型モデルの推定手法の開発
空間的に事象（点）と事象（点）が互いに誘発し合う関係にある自己励起型空間点過程について，境界外に点が存在しない境界条件下での時間的順序関係の無い空間点配置に対する尤度を導出した．現在は，導出した尤度に基づく最尤推定量の漸近的性質（推定量の一致性および漸近正規性）の証明に着手している．また，自己励起型点過程のカーネル関数に対する推定手法の比較研究を行い，数値実験と実データに基づき効果的な推定手法の選択について論じた．
（野村）保険料率算定に資するスパース正則化技法の開発
回帰係数をグループ単位で正則化するスパース正則化技法であるGroup Fused Lassoについて，回帰係数間に順序制約を設けた下での交互方向乗数法に基づく推定手法を開発し，当該技法を取り入れた一般化線形モデルにより，保険料率算定においてリスクの近しい料率区分同士を自動的に区分統合する手法を提案した．また，回帰係数をクラスタリングして近しい係数を統合し推定するスパース正則化技法であるClustered Lassoと順序付きL1正則化回帰に対して，正則化パラメータを効率的に最適化するためのパス追跡アルゴリズムを開発し，保険料率算定への応用可能性を数値実験により議論した．
（大塚）老後生活費への不安感の要因分析
生命保険文化センターの「生活保障に関する調査」（2016年）の個票データをもとに，貯蓄ゼロの蓋然性が低いにもかかわらず老後生活に不安を感じる世帯の属性を探索的なロジスティック回帰および層別分析により分析して，老後生活費への不安感の要因を明らかにした．老後生活費への不安感の要因は年齢ではなく世帯年収であり，資産形成を順調に行っている世帯とそうでない世帯との間で不安感に差異があると推測される．さらに，老後生活費の財源をシミュレーションし職業別の公的年金への依存度と不安感の関係を明らかにした．
（清水）クレームに長期記憶的相関がある場合のサープラスに対する破産確率推定
破産確率の古典的モデルであるCramer-Lundbergモデルにおいて，クレーム間にある種の相関を仮定すると，そのスケール極限はドリフト付きのフラクショナル・ブラウン運動(fBm)になることが知られている．本研究では，fBmによって駆動されるサープラス過程を仮定し，その破産確率の信頼区間を導出した．導出のために，サープラスの期待値型汎関数に対するパラメータ微分の計算が難解だが，これはマリアヴァン解析を用いることで解決できることを示す．
（清水）保険リスク理論，特に破産解析に対する漸近統計の理論研究
破産解析に応用される古典的な確率モデルから最新の割引罰則関数（Gerber-Shiu関数）までを概観し，それらに対する統計推測の理論について，独自の研究を含めて包括的に著書としてまとめた．レヴィ・リスクモデルに基づく破産確率の信頼区間から，Gerber-Shiu関数のノンパラメトリック推定などが主題である．
（白石・川上・佐野・藤田・渡邊）時空間情報に基づく保険リスクの定量化
STAR(I)MAモデルでは，空間の影響を隣接行列を用いてモデリングし，多変量ARMA（またはARIMA）モデルに帰着させることで従来の多変量時系列解析の手法を流用する．本年度は，Wei（2019）で取り上げられているペンシルバニア州の犯罪件数データを用いて地区毎の標本時空間(偏)自己相関（ST-(P)ACF）を調査し，相関が見られる項を用いてSTARMAモデルへの当てはめを行った．季節性を加味してなかったため，妥当なモデルへの当てはめとは言えない結果を得た．また，保険数理の実務家メンバーと共同で関連文献を読み進めており，階層ベイズモデルを用いた時空間データ分析の準備を進めている．

036RP2021 杉浦幸之助（富山大学）
機械学習を用いた南極氷床における表層積雪の堆積削剥パターンの分類手法評価

本研究の最終目的は，南極における氷床表層の堆積削剥による雪面状態のデータベースを構築するため，機械学習による堆積削剥パターンの分類手法を評価することである。そのためには，露出，ホワイトバランス，画質などが異なる雪面画像を用いて画像認識ツールによる雪面のパターン学習を行い，南極で得られた雪面画像も用いて，分類手法を評価する必要がある。このことにより，分類精度の限界を抽出し，画像の適正条件を得ることができる。また，最終的には南極での雪上車のトラバースルート策定のための知見の蓄積や，南極氷床における表層積雪での質量収支の推定精度向上という研究成果が期待される。
2021年度は，野外観測で得られた雪面画像の記録状況を確認し，露出，ホワイトバランス，画質などが適切かどうかについて検討した。画像分類モデルを構築するため，処理の流れとしてはまず，雪面画像データから典型的なリップル，デューン，サスツルギの3種類に切り出し，かつ，サスツルギに関しては一般的なサスツルギと規模の大きいサスツルギの2種類に細分化し，合計4種類を目視で分類した。それぞれの画像枚数は，リップル35枚，デューン31枚，サスツルギ36枚，サスツルギ規模大の32枚であり，これらを学習用，検証用，評価用の画像に，8:1:1の割合でわけた。画像分類モデルの実験環境はaws: p2.xlargeであり，Amazon Web Services， p2インスタンスである。モデルは，ResNet18である。次に，学習用画像を用いて分類モデルの学習を進めた。そして，検証用画像に対する精度はおおよそ60回ずつの読み込みで学習が収束した。評価用画像に対する精度に関して，全体の予測の的中率は67%となった。リップルでは，3枚の評価用画像のうち2枚がデューンと分類され，ややデューンに分類されやすい結果となった。デューンでは，2枚の評価用画像が正解のデューンと不正解のリップルにそれぞれ分類された。 4枚のサスツルギでは，3枚が正解のサスツルギに，残り1枚がリップルと分類された。3枚のサスツルギ規模大の評価用画像の場合は，いずれも正解のサスツルギ規模大に分類された。評価用画像の枚数が限定的であったものの，雪面に特有な模様であるサスツルギの分類精度が高かった。
一方，雪上車に設置したインターバルカメラが撮影した南極氷床の雪面画像データの切り分けを同時に進めた。1枚の画像にはいくつかの雪面模様（リップル，デューン，サスツルギ）が混在するため，1枚を8分割に切り分けた。 2018年1月11日から2018年1月18日までの8日間分で，合計5188枚の切り分けが進んだ。今後は，さらに残りの雪面画像の切り分けを進めるとともに，切り分けた雪面画像を画像分類モデルで分類していく予定である。また，南極の雪面画像をデータジャーナル（Polar Data Journal）に向けて整理する予定である。

037RP2021 梶山朋子（広島市立大学）
色彩からの感情推定による情報推薦

1. 概要と目的
本研究の目的は，人が選択した色彩から感情を推定できるという色彩心理学の原理を活用し，ユーザが閲覧した色彩から推定した感情をもとに，情報を推薦する手法を提案することである．従来の情報推薦では，過去に購入した商品や閲覧した商品といった過去の情報からの推薦や，商品特徴や同じ商品を購入した人の特徴からの推薦であり，探索課程における感情は考慮されない．本申請では，研究対象を購入から消費までの時間が短い飲料とし， (a)潜在顧客の感情と購買活動中の閲覧パッケージ画像の関係性を調査するための購買活動調査の実施，(b)潜在顧客の感情と推薦すべき商品の関係性を格納する推薦ルールデータベースの構築に取り組んだ．
2. 購買活動調査の実施
2.1 自動販売機システムの構築
課題(a)に取り組むため，視線追跡機能を搭載した自動販売機システムを開発した．調査対象飲料は，商品消費後の印象が異なる炭酸飲料16本とした．商品消費後の印象を表現する印象語は，楽しい，みずみずしい，かわいい，丹念な，新鮮な，安全な，元気な，渋い，にぎやかな，微妙な，味わい深い，なつかしい，健康な，上品な，激しい，すがすがしい，の16語である．
潜在顧客は，商品パッケージ画像が与える印象から，自分の現在の感情に合う商品を選択すると仮定し，商品消費後の感情を反映させたパッケージ画像を生成した．そのために， (1)飲料の認知度やパッケージデザインへの先入観を排除するため，既存パッケージ画像に使用されている色彩から特徴色を抽出しデザインを抽象化， (2)消費者レビューから商品消費後の感情を抽出し，色彩に変換，(3)変換した色彩を抽象化したデザインに適用し，自動販売機システムに提示するパッケージ画像を生成した．
パッケージ画像生成にあたり，これまでに申請者が構築した色彩と感情の関係性を表現する色彩データベース[1]を活用した．各飲料に対する消費者レビューの形態素解析を行い，色彩データベースを用いて感情を表現する印象語を色へ変換し，色の重み付けを行った．色の重みが高い順に，消費者による商品消費後の印象を反映させた色として抽出し，視認性を考慮しながらデザインを抽象化したパッケージ画像へ適用した．
購買活動調査を継続的に行うために，自動販売機システムはWebブラウザ上で起動できるよう開発した．視線追跡にはWebカメラを利用し，WebGazer[2]を活用して実装した．ユーザが自動販売機システムを利用するたびに，視線情報と自動販売機システムを利用した際に閲覧・購買した飲料に関するデータを収集し，購買活動データベースに保存した．
2.2 購買活動調査から取得したデータ
継続的な購買活動を検証するために，合計10日間の実験を行った．実験協力者は，18歳以上23歳以下の男性10名，女性10名の計20名である．実験開始前に，実験協力者は，実験の手順と，バーチャル自動販売機の使用方法について説明を受けた後，実験開始前アンケートに回答した．実験協力者は，1日2回（午前1回，午後1回）の購買活動を行った．各購買活動において，実験協力者は，自動販売機システムで商品を購入し，購買活動後のアンケートに回答する．実験協力者1人につき，20回の購買活動を実施することで，合計400回の購買活動データを収集した．
実験開始前アンケートの目的は，実験協力者の飲料への興味に対するデータを収集することである．実験協力者は，よく飲む飲料のカテゴリと，あまり飲まない飲料のカテゴリを提示された選択肢から選択した．購買活動後のアンケートの目的は，実験協力者が購入した商品の商品説明文を提示することにより，購入した商品の満足度と消費意欲を把握することである．実験協力者は，商品説明文を読み，購入した飲料に対して，購入して良かったか（満足度），実際に飲んでみたいか（消費意欲度）について5段階で回答した．実験終了後アンケートの目的は，各飲料の販売パッケージ画像を提示することにより，実験対象飲料の購買経験の有無を把握することである．実験協力者は，飲んだ経験のある商品，および，週1回以上飲む商品を選択した．
3. 推薦ルールデータベースの構築
課題(b)に取り組むため，課題(a)で実施した購買活動調査から取得したデータを分析した．購買活動中に閲覧した商品パッケージの特徴から推定した感情と購入した商品が与える印象の関係性を分析するために，印象語と色彩の関係性が2次元にマッピングされている言語イメージスケール[3]と色彩データベースを活用した．閲覧パッケージ画像が表現する印象(x, y)は，xは言語イメージスケール上のWARM-COOL軸の座標，yはSOFT-HARD軸の座標を示している．閲覧パッケージ画像が表現する印象(x, y)に対し，購買パッケージ画像が表現する印象として，4つのパターン(x, y), (-x, y), (x, -y), (-x, -y)を想定し，関係性を分析した．
(x, y)は閲覧した画像特徴が表現する印象と，商品消費後の印象が一致した場合であり，単独で抽出された印象は「激しい」の1種類となった． (-x, y)は，閲覧した画像特徴が表現する印象をWARM-COOLで反転させた印象と，商品消費後の印象が一致した場合であり，単独で抽出された印象は6種類となった． (x, -y)は，閲覧した画像特徴が表現する印象をSOFT-HARD軸で反転させた印象と，商品消費後の印象が一致した場合であり単独で抽出された印象は3種類となった． (-x, -y)は，閲覧した画像特徴が表現する印象を両軸で反転させた印象と，商品消費後の印象が一致した場合であり，単独で抽出された印象は「上品な」の1種類となった．これらの知見を踏まえ，推薦ルールデータベースを構築した．
4．まとめと今後の課題
本研究では，視線追跡機能を伴い，商品消費後の印象を表現したパッケージ画像を提示する自動販売機システムを構築し，購買活動調査を実施した．購買活動調査から取得したデータから，閲覧した商品パッケージの特徴色が与える印象と，購入した商品パッケージ画像が与える印象との関連性をルール化し，推薦ルールデータベース構築した．今後の課題は，構築した推薦ルールデータベースを活用し，購買活動中の視線情報を活用した推薦アルゴリズムを提案し，既存の自動販売機システムに適用することである．

参考文献
[1] Miwa Tokutake, Tomoko Kajiyama and Noritomo Ouchi, “A method for revising package image colors to express brand perceptions better,” Color Research and Application, Vol.44, No.5, pp.798-810, 2019.
[2] A. Papoutsaki, P. Sangkloy, J. Laskey, N. Daskalova, J. Huang, and J. Hays, “WebGazer: Scalable webcam eye tracking using user interactions,” In Proceedings of the Twenty Fifth International Joint Conference on Artificial Intelligence, pp.3839-3845, 2016.
[3] 小林重順，“日本カラーデザイン研究所カラーイメージスケール-改訂版-,” 講談社, 2001．

News

「ROIS-DS-JOINT 2021」成果報告一覧表