「ROIS-DS-JOINT 2020」成果報告一覧表

「ROIS-DS-JOINT 2020」成果報告一覧表

001RP2020 鄭 躍軍(同志社大学)
継続的国際比較調査データの二次分析と公開方法の実証的検討

本研究課題の目的は、アジア・太平洋諸国の価値観を中心とした継続的国際比較調査データのメタ分析により、国際協力促進の一助となる情報を抽出するとともに、一般公開方法を探究することであった。とりわけ、1)21世紀初頭から統計的標本抽出に則って収集してきた継続的価値観国際比較調査データの統合的解析を行うことによって、人びとの価値観を計測するための指標と尺度を開発する。2)既存の調査データのメタ分析を遂行することによって、グローバル化時代におけるアジア・太平洋諸国の価値観の実態、構造的特徴を解明する。3)諸国民の価値観の集団的特徴を基に、基礎情報として有益な調査データ及び分析結果を一般公開するための方法を模索する。
本研究では (1)異なる国・地域の価値観をどのような共通の指標・尺度で計測するべきか?(2)アジア・太平洋諸国の価値観にはどのような本質的な差異が存在するのか?(3)継続的国際調査データの公開にとって何を重視すべきか?といった学術的「問い」に対して研究活動を進めてきた。これらの「問い」に対し、これまで蓄積してきた多様な国際比較調査データの二次分析により、統計科学的考察を展開した。
昨年度の研究成果を踏まえ、今年度は既存の縦断的調査データのデータベース化及び価値観計測用の指標と尺度の考案を主として遂行した。主要な活動成果は以下のとおりである。1)質問数の不揃いや質問内容の相違点に配慮したうえでデータベースの構造を確立しながら、データベースの構築に取り組んだ。2)価値観を中心に、国・地域に横断した探索的なメタ分析がどうあるべきかを試行錯誤しながら進めた。3)データ解析結果をすすめ、価値観計測用の最低限の指標・尺度を取りまとめた。4)価値観形成過程を分析するための連鎖関係モデルのパラメータを国・地域単位で検討し、それぞれの特徴を明らかにした。5)個人情報流出のないデータ公表の範囲について検討し、個人属性を選定した。
なお、本年度はコロナ感染拡大の影響により一部の作業は予定通りに進めておらず、会議のほとんどはオンラインやメールのやりとりを用いて行った。 研究発表としては、データ分析結果を中心に学術誌での論文発表や学会での口頭発表を行った。また、調査データの活用と公開の準備を進めた。
以上の理由により、今年度は当初予定した旅費の執行はできず、一部を資料整理の役務費及びデータ管理用磁気保存用消耗費の購入費に充て、残額は返納したことを特筆する。

002RP2020 吉野 諒三(同志社大学)
意識の国際比較データの公開と個人情報保護のあり方に関する国際連携研究

本研究の主目的は、統計数理研究所を中心に、戦後60年以上にわたり収集してきた「日本人の国民性調査」及び「意識の国際比較」データについて、既存の調査報告書(研究リポート)の発刊、WEB上での単純集計表、属性別詳細集計表等々、関連文献等々を吟味しつつ、以下の共同研究を進めることであった。
1.WEB上での既存の公開データを再整備しつつ、これまで未整備のデータ等を整備し、公開を推進する。
2.個票レべルデータについて、本公募共同研究のうち、社会調査に関する各プロジェクトの参加者を主として、データ共有を推進する。
3.社会調査データに関する個人情報保護関連の国内外の法律・倫理規則などを研究、検討しながら、社会調査データの適正かつ効果的な一般公開のあり方を検討、試行錯誤する。
4. これらの事業を国内外の調査研究者との交流の中で進め、DS施設の国際連携を推進する。

1については、日米欧7カ国国際比較、東アジア価値観国際比較、環太平洋価値観国際比較、アジア太平洋価値観国際比較調査について、単純集計表及び詳細属性別クロス表の作成とWEB上での公開を完了させた。また、2000年前後の西海岸日系アメリカ人調査について、共同調査メンバーのカシマテツデン・ワシントン大学名誉教授が保管していた調査回答の原票を含む大量の資料を送付してもらい、将来の調査データ公開のための資料の一部として社会データ構造化センターで保管する手続きを取った。
2については、アジア太平洋価値観国際比較調査の個票レベルのデータを、共同研究メンバー間での共有を図った。
このデータについては、将来の一般公開用と共同研究者間の共有用とを区別した形式を作成し、個人情報保護を念頭に一般公開のあ準備を進めている。ただし、これは以下3にも密接に関係し、その実施や使用法については引き続き慎重な検討を進めている。
3.過去数年に渡り、DS社会データ構造化センターへのアドバイスを引き受けてもらっている牧野弁護士事務所により、社会調査データの収集、使用、公開等に関して国内外の法律や倫理の問題について指導を受け、本共同研究のデータ公開のあり方を検討してきた。本年度も過年度に続き、同事務所に年度末に一般公開講演を開催してもらい、官民学の調査専門家を念頭に啓蒙を図った。
4については、本研究のメンバーの一人である専修大学の金井教授を中心とする東アジア・東南アジア諸国の研究者ネットワークを通じて、各国での調査研究状況の把握、データ共有や公開のあり方を検討しつつ、小規模な調査データではあるが、共有を進めた。

なお、本年度はコロナ禍のなかでの活動であり、会議のほとんどはオンラインやメイルや電話の使用であった。
研究発表としては、関連するデータを活用した学術誌での論文発表や学会での口頭発表を行った。また、これらの活動以外にも、貴重な調査データを保有している研究者に当該のデータを整備し、将来、当センターのシステムを活用して公開する準備を依頼した。

003RP2020 堤田 成政(埼玉大学)
地理的加重モデルによる多変量地理空間データ解析

本研究プロジェクトは、地理空間上の局所的な特性を柔軟に捉える方法として知られる地理的加重モデルの発展を目指し、[A]多様な地理空間データのためのGWモデルの構築、[B]地理空間データの統合解析に向けたGWモデルの構築、[C]大規模地理空間データや時空間データのためのGWモデルの実装、を目的としている。2020年度は、2019年度に着手し、開発を進めてきた以下の点においてさらなるツールの開発およびケーススタディへの適用を実施し、研究発表やソフトウェアの公開をすすめてきた。具体的には以下の通りである。

[A] 地理空間データのなかでもカウント、組成、順序といった特徴のあるデータ解析をするための地理的加重一般化線形回帰(GW generalized linear regression)の開発を進めた。組成データの地理的加重一般化線形回帰への適用に関する技術開発に関して、地理情報システム学会にて発表したほか、現在は国際論文として投稿準備中である。また、リモートセンシングデータ解析において、土地被覆の構成割合を推定するモデルに対する推定評価を地理的加重法により分析する新たなアプローチを提案し、IGARSS2020にて発表した。今後はこの内容の論文化についても進めていきたい。

[B]多変量の地理空間データを統合解析するための地理的加重非負値主成分分析(GW non-negative PCA)の開発に関しては、R CRANで発表したツールに関する国際論文の投稿を準備中である。地理的加重半偏相関分析 (GW semi partial correlation)については、現在R CRANでの発表を準備中である。また、関連する論文をarxivで公開したとともに、国際論文を準備中である。

[C] 高解像度化する大規模地理空間データや高頻度化する時空間データへの応用に向け、[A]、[B]の発展として、GWモデルにおける大規模データ処理のための高速化のアルゴリズムをCRANで発表していたが、関連の論文をAnnals of the Association of American Geographersで発表した。

プロジェクトは終了したが、準備中の投稿論文が少なくとも3本あり、引き続き地理的加重モデルを通じた多変量地理空間データ解析の発展に貢献していきたい。


なお、COVID19感染拡大に伴う出張取り止めや研究の進捗状況を踏まえ、予算計画を下記の通り修正した。
旅費に該当する「京都・仙台・つくば→DS共同利用研究 施設1泊2日」、「国際会議GIScience参加」は状況を踏まえて取り止めた。
役務費にあたる「地理情報システム学会」の参加費に関しては、2名の参加が難しくなったため4名から2名への変更した。また、「英文校正」は、想定よりも作文量が多くなったため追加予算が必要となった。
消耗品等に該当する「計算用備品(GPU)」は、LandsatやMODISなどの大規模なオープンデータに対する解析の有用性を検証するために必要となったため計上した。

004RP2020 杉浦 幸之助(富山大学)
機械学習を用いた南極氷床における表層積雪の堆積削剥パターンの分類手法評価

本研究の最終目的は,南極における氷床表層の堆積削剥による雪面状態のデータベースを構築するため,機械学習による堆積削剥パターンの分類手法を評価することである。そのためには,露出,ホワイトバランス,画質などが異なる雪面画像を用いて画像認識ツールによる雪面のパターン学習を行い,南極で得られた雪面画像も用いて,分類手法を評価する必要がある。このことにより,分類精度の限界を抽出し,画像の適正条件を得ることができる。また,最終的には南極での雪上車のトラバースルート策定のための知見の蓄積や,南極氷床における表層積雪での質量収支の推定精度向上という研究成果が期待される。しかし初年度である2020年度は,機械学習ツールによる作業を予定していた時期と,新型コロナウイルス感染症拡大の時期が重なったため,計画を大きく縮小することとなった。当初はクラウド環境で機械学習できるサービスの利用が予定されていた(当初予定の画像認識モデル作成サービスプランは2021年3月31日で終了された)。画像ファイルをクラウド上にアップロードし,機械学習を実施して,オリジナルの画像認識モデルを取得する画像認識モデル作成サービスプランを利用するものであった。アルゴリズムは,MobileNet,Inception,ResNetである。このような状況から2020年度は,画像認識の機械学習モデルを作成するツールを概観した。機械学習が実装可能なプログラミング言語には,R,C/C++,Java,Pythonなどがある。中でもPythonはライブラリが充実している。scikit-learn,TensorFlow,PyTorch,Chainer,Kerasなどである。機械学習が可能なクラウドサービスには,GCP(Google Cloud Platform),AWS(Amazon Web Services),Microsoft Azureに加えて,SAP Cloud Platform,Spell,Floydhubなどがあった。今後の進展に向けて,高仕様のパソコン環境の整備や自身でのコーディングなしのクラウドサービスを念頭に代替の方策を決定することが必要である。また,2017年11月13日から2018年1月24日まで雪上車に取り付けたウェアラブルカメラにより撮影された現有の雪面画像を例に,Google ColaboratoryのGPU環境でChainerあるいはTensorFlowの使用を試みる予定である。

005RP2020 能勢 正仁(名古屋大学)
深層学習を用いたジオスペース環境擾乱リアルタイム監視・警報システムの開発

*** リアルタイム観測システムの構築 ***
これまでに研究代表者は、愛知県豊田市稲武町に微小地磁気変動を測定する観測機器を既に設置しており、継続観測を行ってきた。今回の研究期間中に、リアルタイム処理用データ記録システム、A/Dコンバーターを購入し、観測所から名古屋大学(愛知県名古屋市)へ観測データをリアルタイムで送信する仕組みの構築を整えた。リアルタイム処理データ記録システムでは、観測データの保存に加えて、最新の1分間のデータを切り出して、モバイルネットワークでデータを順次転送できるような工夫を行った。名古屋大学側のデータ受け取りサーバーの準備が遅れたため、リアルタイム転送は将来の課題であるが、sftpなどを用いてデータ受信を実現する見込みは得られている。

*** 教師データセットの作成 ***
研究代表者は、オーロラ活動や磁気圏中のエネルギー突発解放現象に伴って出現する特徴的な地磁気変動(Pi2地磁気脈動)についての研究を行ってきており、専門的な見地・経験に基づいてイベントの選択を行うことができる。稲武観測所で2020年2月1日から29日に得られた観測データからPi2地磁気脈動を選び出した。これらのイベントを含む観測データをプロットし、約5500枚の画像からなる教師データセットを作成した。

*** 深層学習プログラムの開発と訓練 ***
作成した教師データを利用して、深層学習プログラムを開発・訓練した。プログラムの開発には、様々なライブラリが利用できるpythonを用いた。深層学習のモデルとしては、画像認識・識別に有利な畳み込みニューラルネットワークモデル(Convolutional Neural Network)を採用し、独自ネットワークモデル、Resnet50、Xceptionのそれぞれの成績を比較した。その結果、Resnet50が最も良い成績を挙げ、適合率は0.943、再現率は0.913、F1 scoreは0.927であった。これは、Resnet50であれば、90%以上の高精度でPi2地磁気脈動が発生したかそうでないかを分類することができることを示している。ただ、今回の深層学習においては、教師データセットが1か月分のデータから作成したものであるため、長期間のデータから大規模な教師データセットを用意することができれば、この精度はさらに向上すると考えられる。

*** 深層学習プログラムのリアルタイムデータへの適用 ***
稲武観測所からのリアルタイムデータ転送および高精度の深層学習プログラム開発ができれば、送られてきたデータに深層学習プログラムを適用し、Pi2地磁気変動が発生したかどうかを常時判断させる予定である。発生した際にはホームページ上に警告を出したり、メールで通知したりするようなリアルタイム警報システムを構築する。

*** 成果発表 ***
深層学習プログラムの設計詳細や特徴的な地磁気変動の検出精度などは、共同研究者である酒井が卒業論文としてまとめた。また、その成果は2021年6月に開催される日本地球惑星科学連合2021年大会において発表する予定である。

*** 所要経費の内訳変更 ***
新型コロナ感染拡大に伴い、当初予定していた立川キャンパス内での共同実験を取りやめ、計画に入れていた旅費を以下に示す物品の購入費(消耗品費)に変更した。
*Raspberry Pi (Webサーバー用、廉価版データロガー開発用)
*ADコンバーターボード (廉価版データロガー開発用)
*Raspberry Pi用小型モニター

006RP2020 坪井 誠司(海洋研究開発機構)
昭和基地地震観測網を用いた機械学習による震源決定法開発

本研究の目的は、昭和基地周辺の地震活動を監視し震源決定を行うために地震観測波形を蓄積している昭和基地地震観測網の地震観測波形を用いて、機械学習による震源決定手法の開発を行うことである。機械学習による震源決定手法には申請者等が開発中の理論地震波形記録を教師データとした深層学習による手法を用いる。南極の地震活動は地殻内部で発生するテクトニック地震や氷床内で発生する氷河地震など様々な種類があり、それぞれの発生位置や規模を正確に決定することは地震活動を定量化する上で不可欠である。しかしながら、南極大陸内部における地震活動は低調であり、多くの地震は南極プレートの境界となる海嶺付近で発生している。また、1998年バレニー地震のように、これまで大きな地震が報告されていなかったところで地震が起きることも報告されている。地震活動が低調であることから、過去に地震が起きていなかった場所で今後も大きな地震が起きる可能性は否定できず、過去の観測に頼らずに震源決定を行うことが可能となる手法は有効となることが期待できる。
このような南極大陸周辺地域の地震活動を基にして、機械学習による震源決定手法を検証するために、必要となる教師データを構築した。機械学習を用いる場合、前提条件として、一般に、教師データとなるビッグデータを保有しているか、または機械的に大量生成できるかという点が、精度実現に必要となることがよく知られている。一方、地球科学分野への機械学習の応用においては、観測データを収集して教師データを作る場合に、極端現象のデータ量が不足することが課題となる。例えば、巨大地震のように稀な現象の学習は困難である。そこで我々は理論地震波形記録を基に教師データを作成することを考えた。ここでは、理論地震波形記録から作成した地表における地震波伝播画像を基にして震源パラメータを推定するニューラルネットワーク(人工知能と言い替えることも出来る)を構築することを考えた。機械学習によりニューラルネットワークを構築するためには、前述のように大量の教師データが必要となる。活発な地震活動と稠密な地震観測網が存在する日本列島のような地域では、多くの地震波伝播の画像を地震波の観測データから構築することが出来る。しかしながら、その場合でも地震の起きる場所とそのメカニズムはほぼ決まっているので、地震数を増やしても教師データとして適切な多様性が得られるわけではない、一方、理論地震波形記録は、任意の震源位置およびマグニチュードの地震に対して計算することが出来るので、大量の理論地震波形記録を計算し、教師データとして用いた機械学習を行うことで機械学習の精度を容易に向上させることが可能となる。また、南極大陸のように地震活動が活発でない地域で起きる地震や、大地震のように観測記録が少ない地震に対しても教師データを用意することが出来る等が長所となると考えられる。
理論地震波形記録を数値的に計算するための手法には、差分法や有限要素法など様々なものが存在する。これまでは、地殻やマントルの不均質性を考慮に入れて数値的に計算する場合、膨大な計算資源が必要となるために現実的な地球モデルに対する計算はあまり行われてこなかった。しかしながら、21世紀に入ってから、いわゆるスーパーコンピュータと呼ばれる高速大容量計算機の進展に伴い、現実的な地球モデルに対する計算が行われるようになった。ここでは、大規模並列計算機に適した手法の一つであるスペクトル要素法を用いて、地球内部地震波速度3次元構造を考慮した理論地震波形記録を教師データとして用いることを考えた。理論地震波形は、スペクトル要素法のSPECFEM3D_GLOBEを用いた。SPECFEM3D_GLOBEは全球を伝播する地震波形を計算するためのプログラムであるが、地球を6個のブロックに分けてモデル化するので、その一つのブロックを使うことで地域的な理論地震波形記録を計算することが出来る。このようなプログラムを使うことで、地域的な理論地震波形記録計算においても、地球の曲率を考慮に入れた正確な計算を実行することが可能である。領域としては南極大陸地域を対象とし、震源決定を行うニューラルネットワークを構築するための理論地震波形記録による教師データを構築した。教師データとして用いる理論地震波形記録は、16個のCPUコアを使って計算した。計算に用いた3次元地球モデルはS20RTS、理論地震波形記録の精度は周期17秒である。S20RTSモデルは全球のS波速度3次元モデルであり、周期17秒という長周期の実体波を用いて推定を行うので、3次元モデルとしてはこのような長波長モデルで十分と考えられる。
教師データの生成には、震源を図1の領域に緯度方向、経度方向、および深さ方向に適切な間隔で配置し、それぞれの地震に対して0.2秒間隔で2分間の理論地震波形を、南極大陸状に存在する地震観測点に対して計算し、地表における地震波伝播画像を生成することとした。地震の総数は150個としている。各観測点に対して計算した理論地震波形から、1秒間隔で、各地震観測点での振幅に比例して色付けした図2のような画像を作成した。1地震に対して2分間の記録を計算してあるので、画像は120個作成される。地震は150個あるので、画像の総数は18000である。機械学習の第一段階としては、この程度の教師データは十分と考えられるので、作成した教師データに基づいたニューラルネットワークの構築を今後行っていく予定である。ネットワークの構築には現在主に使われているConvolutional Neural Network (CNN)を2次元画像に対して用いる場合と、時間発展を考慮した3DCNNも検討する予定である。

007RP2020 深沢 圭一郎(京都大学)
観測・数値シミュレーション・機械学習の融合による宇宙プラズマ現象予測モデルの開発

本研究では、飛翔体宇宙プラズマ観測データとプラズマ数値シミュレーションを、機械学習によって統合的に解析することで、低空間次元・小観測数・単地点観測(=時空間変動分離が困難)という観測データを時空間拡張し、環境変動を抽出することを目的としている。究極的には、この時空間拡張されたデータを、数値シミュレーションと融合させることで、観測したい宇宙プラズマ現象がいつどこで起きるかを予測するモデルの構築を目指している。このモデル構築を達成するためには観測、数値シミュレーション、機械学習の専門家が研究に参加し、大規模な計算リソース、モデルの開発が必須であり、大型研究費獲得が必要となるため、本研究はその萌芽研究として実施している。
本年度は3年の研究期間の3年目であり、本研究開始当初は1,2年目に準備したデータを元にモデル開発を行う予定であった。しかしながら、これまでの研究成果から、宇宙プラズマ現象を再現するような場合には、一般的な機械学習で利用されているような学習データを増やす手法(data augmentation)が適しておらず、オリジナルのデータを大量に準備する必要があると分かった。そのため、これまでに行ってきた数値シミュレーションによるオーロラ画像の作成に加えて、ASI(All-Sky Imager)におけるオーロラの有無を大量に判別し、その結果をラベリングすることにした。この判別自体を機械学習で行う必要があるなど、地道な作業となるため、市民サイエンスの力を借りるべくオーロラ判別Webページを作成した。作成に際し、コロナ禍により旅費の利用が無くなったため、旅費を役務費に変更し、Webページの構築に充てた。また、前述のように計算量が増えたため、計算機利用料にも旅費の一部を追加し、データ作成を進めた。
このWebページでは、クイズ形式により、ASIにおいてオーロラの有無、雲が出ているなどを判断してもらい、多数の人がオーロラ有りと判断した画像を最終的には人間の目でチェックし、オーロラ画像と判別している。学習データとしては、オーロラが出ている画像があれば良いので、オーロラ出ていないと判断された画像にオーロラが出ていても、学習データとしての問題は無い。また、判別への参加者には希望に応じて、研究協力者として氏名を記載する予定である。オーロラ観測画像は今後も増加していくため、このWebページをオーロラ判別に利用していく予定である。更には、この判別データを元に、オーロラ判別モデルの構築も期待される。
これらの実施内容は、昨年度の成果と合わせて、地球電磁気・地球惑星圏学会第148回総会及び講演会で報告された。また、招待KeynoteとしてCANDAR2020のLHAM Workshopで講演され、招待講演としてISEE研究集会「太陽地球圏環境予測のためのモデル研究の展望」で発表された。これらの講演では、データを準備する重要性を理解してもらうことができ、別データ提供の申し出や、最終的に高度化を目指すデータをどう評価するか物理的見地からの意見もあり、本研究の重要性を再認識できた。
2020年度は申請可能な大型研究公募が無かったため、申請を見送ったが、これまでの成果をもとに2021年度新規に募集がされるCRESTへ申請を行う予定である。

008RP2020 村田 健史(情報通信研究機構)
バイナリベクトルタイル化された歴史的境界データを活用した自治体防災WebGISの試み

【概要】
2018年度は、市区町村/町丁・字(以下町丁目と表記する)等を対象としたリストである「標準地域コードインデックス」作成し、町丁目を一意に示すIDを付与した。さらに、国勢調査実施年(5年毎)の調査区の境界を基に作成した「国勢調査町丁・字等別境界データセット」をGeoJSON形式で構築し、「国勢調査町丁・字等別境界データセット|Geoshapeリポジトリ」(http://geoshape.ex.nii.ac.jp/ka/)において一般公開した。これにより、「現在のこの町丁・字等はかつてどの市区町村に属していたのか?」などを調べることが可能となった。一方で、単純なGeoJSONによるデータでは画面上に表示される町丁目数が多い(全国には市区町村はおよそ1700であるが、町丁目数は約22万もある)ためにインターネットを介した可視化(描画)が実用上困難であることも明らかになった。
そこで2019年度計画では、任意の町丁目データセットに対するWeb GIS可視化を行うためのスキームを開発した。まず、可視化対象データ(例えば町丁目ごとの人口数)登録のため、非専門家ユーザにも親和性が高いCSV形式でのデータテンプレートを用意することで誰もがWebから容易に町丁目画像を生成しWeb閲覧できるデータベースサービスを構築した。さらに「国土数値情報 行政区域データ(2015年1月1日)」および「国勢調査町丁・字等別境界データ(2015年)」をバイナリベクトルタイル化した。これにより、MapboxGLやLeafletといったバイナリベクトルタイル画像レンダリングに最適化されたWebGIS上で、これまでのGeoJSONデータやTopoJSONデータによるレンダリングを高速化できた。さらに、上記の「国土数値情報 行政区域データ(2015年1月1日)」で確立したTopoJSONからバイナリベクトルタイルへの変換手法をこれまでに構築した歴史的行政区域データセット(http://geoshape.ex.nii.ac.jp/city/choropleth/)で公開している全27期間(1920-01-01~2015-01-01)に適用することで、全期間の市区町村境界データをバイナリベクトル化した。
2020年度は、上記の歴史的行政区域データセットを新聞記事データセットに連動させることで、歴史的自治体災害情報WebGISを構築した。具体的には、過去の新聞記事や特定の地方自治体を対象として、過去に発生した各種自然災害に関する位置情報を時代ごとに可視化した。レンダリングの高速化が可能なバイナリベクタタイルを採用することにより、新聞記事等から抽出された過去の自然災害発生位置を現在地図上に可視化できた。この成果は、京都大学学術情報メディアセンターや情報通信研究機構(NICT)総合テストベッド研究開発推進センターで公開準備中である。

【2020年度研究成果(非公開内容)】
添付図:歴史的災害情報Web(2006事例)は2006年の自然災害に関する記事の出現数を自治体ごとに示したものである。Webアプリケーションでは、当該自治体をクリックすることで期間中の記事のヘッドライン(見出し)の一覧を示すことができる。本WebGISについては、論文投稿予定のため一般公開しないが、本報告書の別項の2020年度研究成果(非公開)に詳細を示した。

【まとめ】
WebGISを用いた各種コンテンツは、近年、ますますその重要性(実用性)が向上しており、日常生活でもWebGISアプリを利用する機会は飲食、交通、気象など数多い。一方で、データ量増加に伴いアプリケーション負荷が無視できず、大きく利便性を損なっている現状がある。本申請の3年間を通じて、これまでにNII北本が作成した行政境界データをGeoJSON(TopoJSON)化し、さらにバイナリベクタタイル化した。これにより、これまでよりもはるかに高い利便性で行政境界データを提供できるようになった。これらのデータはいわば基礎データであり、幅広い利用対象の可能性を秘めている。
計画の最終年度である2020年度には、歴史的行政区画データセットを地域防災に役立てるためのデータベースとWebアプリケーションを実装した。詩文記事や地方自治体が公開している過去の自然災害データベースを2019年度までに構築したWebGISにオーバーレイすることで、これらの記事が現在の自治体境界のどのエリアで、どの頻度で発生したかを可視化することができるようになった。

【今後の展開】
過去の災害がどこで発生したかという情報は時代とともに風化する。若い世代は、古い新聞記事の地名が現在のどこに対応するかがわからないという事例も多い。本研究開発で構築した歴史的災害WebGIS(または歴史的地域自然災害WebGIS)では、過去に発生した災害と現在の防災対応をWebGISで紐づけることができる。たとえば添付図:千曲市ハザードマップは現在の千曲市ハザードマップ(抜粋)である。ここに過去の災害事例がオーバーレイされることで、被害の大きさやその時代と災害の可能性と現在のハザードマップを直接比較でき、防災対策や市民の防災意識喚起に直接結びつくことが期待される。また、地名には災害に伴う名称がつけられている(たとえば「大潮」「雨宮」など)ことが多く、その地名からその場所で発生しやすい災害を学ぶこともできる。このような地名と過去の災害を紐づけるのも、本研究の発展課題である。

009RP2020 加藤 千尋(信州大学)
昭和基地宇宙線観測データのためのリアルタイム・アーカイブシステムの構築

昭和基地での宇宙線観測データを公開しているウェブサイトにおいて,今後の宇宙天気研究への寄与を増大させるため,太陽風パラメータの表示機能を付け加えた。これによって宇宙天気現象の確認,各種パラメータと宇宙線強度変動の比較が容易になる。太陽風パラメータは宇宙線の異方性解析を行う際に必須の磁場データを含んでおり,今後,ミューオン計の方向成分,GMDNの観測データを取り込んで異方性解析を行うことができる体制を作る足がかりが出来たものと考える。
また,中性子計のデータについては世界的な中性子計データのデータベースであるWDC(World Data Center),NMDB(Neutron Monitor Data Base)へのデータ提供をすることとなり,現在具体的なデータ転送システムを構築中である。

010RP2020 坊農 秀雅(広島大学)
ゲノム編集データ解析のための公共データの統合化ワークフローの開発

ゲノム編集を行うために必要な公共データを統合化し、実際のゲノム編集実験を加速する基盤技術として、特にゲノム配列が決定されていない生物種をターゲットした解析ワークフローの開発を行った。
ゲノム配列が決定されていない生物種においては、多くのモデル生物で取られているアプローチである解読したリードをゲノムにマッピングすることによる発現定量が不可能である。そこで、まず解読したリードを先見的な知識なしにアセンブルすることでつなぎ合わせて発現配列セットを構築し、それに対していくつリードが読まれたかという方法で発現定量することになる。
まずは、それらのリードを公共データベースであるSequence Read Archive (SRA) からトランスクリプトーム配列解読のデータを取得し、発現定量解析を行うまでの一連の流れが可能な統合化ワークフローを開発した。開発したワークフローは、Systematic Analysis of Quantification of Expression (SAQE)と名付けられ、
1. SRAデータベースからRNA-Seqリードデータを取得する。
2. 取得したデータをFASTQ形式に変換し、gzipデータ圧縮を行う。
3. トリミングと品質管理(Quality control)を行う。
4. Trinityによるトランスクリプトームアッセンブリを行う。
5. salmonによる発現定量を行う。
の5つのステップで公共RNA-Seqデータを解析できるようになっている。SAQEはGitHub上で公開されている(https://github.com/bonohu/SAQE)。
実際に昆虫において酸化ストレス前後のRNA-SeqデータをDBCLSで開発されているAll of gene expression (AOE)とDBCLS SRAを用いて収集し、開発したワークフローであるSAQEを用いて発現定量を行った。その成果に関しては”Meta-Analysis of Oxidative Transcriptomes in Insects”というタイトルの論文として bioRxivにてプレプリントとして公開した(DOI: 10.1101/2021.02.01.427354)。その後、Antioxidants誌にて出版されている(DOI: 10.3390/antiox10030345)。
また、実際にトランスクリプトーム配列解読を東京農工大の天竺桂教授と共同で行っており、そのデータを対象とした解析に関しても現在進行中である。
さらに、トランスクリプトームデータだけでなく、論文抄録データを三千万件以上収めたPubmedを利活用する手法の研究開発も行った。Pubmedより作成されたgene2pubmedと呼ばれる遺伝子と文献データの関係のデータから各遺伝子ごとにその文献数を計算し、その情報を考慮したメタ解析手法を考案した。その開発した手法を使って、低酸素刺激の前後で発現が変化する遺伝子の中でこれまでの文献データでは言及されていない遺伝子の解析を行った。その成果に関しては”Multi-omic meta-analysis of transcriptomes and the bibliome uncovers GPR146 as the novel hypoxia-inducible gene”というタイトルの論文として bioRxivにてプレプリントとして公開した(DOI: 10.1101/2021.03.29.4336614)。
なお、感染症の蔓延により移動ができず旅費が使えなかったこと、役務費のうち予定していた論文投稿費の使用が1月まで研究費を使い切ってしまう必要があったため使用できずに消耗品の記憶媒体の購入に充てたため、所要経費を変更した。

011RP2020 金澤 雄一郎(国際基督教大学)
組織において信頼されることの⽂脈に沿った理解︓国際共同研究

本年度の焦点は、信頼と信頼性に関する異文化間研究の成果を、ますます多文化を受容せざるを得ない日本の職場に適用するにはどうすれば良いかを調べることです。文化がどのように生み出され維持されてきたかという問いから始めるにあたり、日本においては稲作における灌漑システムの構築と維持をめぐる集団的な協力ができるかどうかがコミュニティの生存に不可欠であると考えられていたわけですが、日本文化に最も特徴的である集団主義・集団志向の起源をさかのぼると、この不可欠な灌漑システムの構築と維持にたどり着くことを示しました。
次に、「信頼」と「保証に基づく信頼」の区別に目を向けた日本におけるいくつかの影響力のある信頼研究をレビューしました。また、いくつかの社会における信頼の研究について俯瞰しました。文化や国籍の違いよりも対人関係がどの程度相互依存関係にあるかの方が信頼と信頼性のより強力な説明要因である可能性があることを示した研究に焦点をあてました。
最後に、信頼に関するほとんどの異文化間研究は、文化の二元的またはカテゴリー的見方(例えば、東洋対西洋、または日本対米国)によって色付けされており、したがって、一つの文化内における違いに対する関心のなさこそが皮肉にも注目に値することを指摘し、文化間の違いを分類的に考える見方を超えて、同一文化内に存在する多次元的見方を受け入れる探索型の研究の必要性について述べました。
本年度はCOVID-19により予定されていた海外研究者の招聘が出来なかったため、当初予定の旅費を消耗品費に変更し、データ授受用セキュアUSBメモリ、それに伴う管理ソフトを購入にその一部をあて、残りを返納しました。

This year's focus is to examine how cross-cultural research on trust and trustworthiness can be applied to the workplace of Japan that is being increasingly multicultural. We started with a question about how cultures have been generated and maintained and learned that the origin of collectivism, a most characteristic nature of the Japanese culture, can be traced to the irrigation system where collective cooperation among farmers was believed to be a matter of life and death.
Next, we reviewed some influential trust research in Japan that opened our eyes to the distinction between trust and assurance-based trust. We also had a bird’s eye view of cross -societal trust research. The main focus was on a study that indicated that the nature of interpersonal reciprocity could be a stronger explanatory factor of trust and trustworthiness than do the differences in cultures or nationalities.
Finally, it was pointed out that most cross-cultural research on trust has been colored by the binary or categorical view of culture (e.g., East vs. West, or Japan vs. the U.S.A.) and therefore remarkable for their lack of attention to intracultural variability. Thus, we addressed the need for explorative studies that transcend the classificatory view of cultural variation to embrace the variation's dimensional view.

012RP2020 鐘ケ江 弘美(農業・食品産業技術総合研究機構)
育種方法に関するオントロジーの構築

新品種開発・生産性を向上するためには、系統・特性情報、ゲノム情報などを提供・利用しやすいシステムが必須である。系譜情報は論文の一部に記載され、紙媒体の冊子に保存されていることが多い。電子化されている場合にも試験研究機関ごとに異なる項目や語彙、 フォーマットで記載されており、 研究機関をまたいだ統合検索を行うためには多くの労力を必要とする。このため、各試験研究機関が所有しているデータを合わせて利用することが難しい状況であった。電子化されていない系譜情報は数代前の系譜しか確認できず、 系譜情報がつながらないという問題が生じていた。
系譜情報を効率的・横断的に利用するためには、 語彙やデータフォーマットの統一が重要である。特定の作物だけではなく、様々な作物に対応した設計が必要となる。そこで、様々な作物の系譜情報に記載されている項目を抽出し、共通フォーマットで必要とされている情報のリストを作成した。概念や語彙のレベルで共通化がなされるため、データを統合して利用しやすくなることが期待される。品種についてのメタ情報を、 共通語彙を用いて記述することで高い相互運用性が実現できると考えられる。
作物の繁殖方法は、自殖や他殖、種子繁殖や栄養繁殖などさまざまな種類が存在する。育種方法について、国内外のデータベース間で表記の違いが見られる。例えば「選抜」による育種を「純系分離」や「抜穂」と記載するなど、表記が揺らぐだけでも、検索漏れがおき、その対策としては膨大なデータクレンジング作業が必要となる。情報の活用のためには、育種方法の対応付けが必要である。育種関連の用語を今回の対象範囲とし、項目の整理のために「育種(Breeding)」という概念を導入した(図)。整理した育種方法の語彙をいくつかの階層に整理した。 大きな分類として、CrossBreeding (交雑育種)、MutationBreeding (突然変異育種)、SelectionBreeding (選抜育種)の3つに分けた。交雑育種に用いた親の系統、突然変異育種に用いた変異誘発手法も記述出来るように整備した。 育種方法についての記述は論文等にも記述されているが、今回は農林水産省品種登録データベースから公開されている育種方法についての記述を抽出し、マニュアルで統制語彙化を行った。 また海外の育種関連の語彙として、AGROVOC(http://www.fao.org/agrovoc/。)、AgroPortal(http://agroportal.lirmm.fr/)を参照した。
トーゴーの日シンポジウム2020にて、「育種データの統合利用に向けた作物の系譜情報のRDF化と可視化」というタイトルで、この共通語彙とデータのRDF化についてポスター発表を行った。 (doi:10.18908/togo2020.p006)。
農研機構ではこの共通語彙を利用して系譜情報をRDFデータとして整備し、系譜情報グラフデータベース Pedigree Finder (https://pedigree.db.naro.go.jp/)を試験公開している。系統を「ノード」、系統間の関係を「エッジ」として、系譜情報をネットワーク状のデータ(グラフ)として表現し、わかりやすく可視化されている。SPARQLで系譜情報のRDFデータを検索することにより、世代数を指定して系統の祖先の情報を取得出来るだけでなく、これまで表示されることが少なかった後代の系譜情報の表示が可能となった。系統の特性データも合わせてRDF化することにより、系譜と特性の関係を把握することが容易になった。これにより、これまでは困難であった多様なデータベースを統合的に検索するといった高度なデータ利用が可能となり、育種データの統合利用が可能となった。データ処理の効率化・AI適用の加速化につながると期待される。

013RP2020 山本 容正(岐阜大学)
遺伝子構造解析による地域社会への薬剤耐性菌の蔓延機序解明

本研究の目的は、コミュニテイにおける抗生物質等の薬剤に耐性を示す細菌(薬剤耐性菌)蔓延の機序を解明することである。菌の薬剤耐性能は薬剤耐性遺伝子により附与されるため、耐性遺伝子の挙動が耐性の蔓延化に大きく影響する。そのため、本研究ではコミュニテイにおける薬剤耐性菌の汚染が明らかとなっている地域住民からの耐性菌分離ならびに同一人の腸内細菌叢DNAとそのメタゲノムデータを解析することにより、トランスポゾンを含む薬剤耐性遺伝子の周辺構造と、腸内細菌叢耐性遺伝子保有菌種スペクトラムを明らかにする事により耐性遺伝子の細菌叢内での挙動と耐性の蔓延化機序を解明することを目指した。
本年度は新型コロナ感染(COVID-19)パンデミックにより耐性菌汚染蔓延地域(ベトナム)への渡航と当該地域での検体収集が通年に亘り実施出来なかったため、当初予定の研究計画が大幅に制限された。そこで、今後の解析基盤データの構築に必要となる成績を得る目的で、耐性菌汚染が限定されている日本の健常住民腸内細菌叢メタゲノムデータの収集とその解析を行うと同時に同一健常人腸内細菌叢から分離された嫌気性菌株(Bacteroides vulgatus、ヒト腸管細菌叢を形成する主要偏性嫌気性菌種)のゲノム解析を行った。
3名の日本人健常者の全糞便DNAから得られた腸内細菌叢ゲノム配列情報(NGSショットガン・シーケンス・データ)についてゲノムデータ解析支援センターにてデータ・アセンブリおよびアノテーション解析を行い、細菌叢構成菌種ならびにこれらが保有する主要薬剤耐性遺伝子を解析した。その結果、メタゲノム解析による細菌叢比較では3名で概ね同じ構成(BacteroidetesとFirmicutesが主要構成菌門として同程度存在)であることが確認された。得られた腸内細菌叢ゲノム配列情報の薬剤耐性遺伝子検索は、5,625個の薬剤耐性遺伝子が登録されたBacterial Antimicrobial Resistance Reference Gene Databaseによる解析の結果、3つ以上のコンテイグ上に有る耐性遺伝子にBacteroidetesのclass A extended-spectrum beta-lactamase CfxA3を含む9つの耐性遺伝子が見つかった。耐性菌非蔓延地域住民のこれら限定された数の耐性遺伝子の保有は、今後耐性菌蔓延地域コミュニテイ住民の腸内細菌叢耐性遺伝子解析を行う上で重要な基盤知見となる。
メタゲノム解析結果を確認するため同一人より3株のCfxA 陽性Bacteroides vulgatusを分離し、そのゲノム配列情報より各菌株のドラフトゲノム作成を行った。これらの解析から同一人腸内細菌叢メタゲノム解析より得られた耐性遺伝子菌種間分布の確認が今後可能となる。
本年度実施した一連の研究成果は、耐性遺伝子の細菌叢内における挙動と耐性安定化の解析モデルとなり、今後の耐性蔓延化機序の解明に大きく貢献すると考えられる。
なお、予算については、新型コロナ感染拡大に伴い、当初予定していた以下の研究計画の実施が困難となった。ゲノムデータ解析支援センター(三島地区)での打ち合わせ、および嫌気性菌感染症学会(大分)での成果発表。そこで、当初計画の一部を変更し、次年度に予定していた薬剤耐性を示す嫌気性菌株のゲノムデータ解析を予備検討として実施し、今年度の当初計画における旅費(\423,000)を役務費(ゲノムデータ解析費\330,000)に変更した。(データサイエンス推進室への予算変更の申請により了承済)。

014RP2020 川畑 拓矢(気象庁気象研究所)
Ensemble Kalman Inversionを用いた洪水確率予測の最適化

Ensemble Kalman inversion (EKI) はシステムを微分することなく、アンサンブルデータと観測データを用いて、繰り返しカルマンゲインを計算しながら最小値探索することで、モデルパラメータを最適化する手法である。これはEnsemble Kalman Filter (EnKF) より着想して開発された手法であり、データ同化の応用として他の分野でも有用と考えられる。
本研究ではEKIを分布型河川流出モデル(distributed rainfall-runoff model: DRR/FI)のパラメータ推定に適用した。Levenberg-Marquardt法のようなパラメータ推定によく用いられる手法と比較してEKIは3つの利点がある。(1)モデルのJacobianを計算する必要がない、(2)アンサンブル計算を並列に実行可能なため、非常に高速に計算できる、(3)極めて大きな問題(1000~100万)においても動作する。今回は、50のアンサンブルと河川水位データを用いて、DRR/FIのパラメータ推定を行った。その結果、数回の繰り返し計算によって精度の良いパラメータセットを得ることが出来、観測された水位とよく一致するモデル出力結果となった。この計算は、多くのモデルでは極めて作成が難しいJacobianを用いなかった。今後、さらなるテストを予定している。
また水位データのような従来の気象要素とは異なった特徴を持つデータの検証方法を検討した。まず2020年7月、熊本県の球磨川で発生した洪水事例を対象に1000メンバーのアンサンブル洪水予測を行った。計算には1000個の降水予測データと気象庁流域雨量指数を用いた。流域雨量指数は流出過程をタンクモデルで計算し、河川の流下はマニング式と連続の式で解くモデルである。このモデルの特徴はパラメータを全国一律で決定する事により全国の河川を一度に計算できる点にある。
実験の結果、浸水被害が大きかった地区においては、洪水が発生する12時間前に約40%の確率でその地区がこれまでに経験したことがない洪水被害を受けるという予測確率を示した。一方、比較実験として100個の降水予報値で行った実験では、その地区でこれまでに経験したことがない洪水被害を受ける確率は10%であった。これらの結果から、アンサンブルメンバー数を増やすことによって早期に高い確率で洪水の発生が予測できる可能性を示した。今回の検討においては、線形あるいは非線形に増加する流域雨量指数(計算された河川流量の平方根)を河川水位などの直接観測値とは比較せず、過去の大雨事例から統計的に得られた被害が発生するレベルに達するのか否かというレベル到達の確率を用いて、モデルの精度評価を行った。システムの運用目的から、このような検証は極めて重要であり、住民の避難行動を促す開発に繋がるものと言える。
当初予定していた、対面での研究打ち合わせおよび学会出席は、コロナ禍のためにオンラインで実施となった。そのため、旅費の執行がなくなった。

015RP2020 杉山 峰崇(広島工業大学)
高度発酵バイオテクノロジーによる社会貢献を加速する有用出芽酵母のゲノム解析とトランスクリプトーム解析

自然界から単離された出芽酵母Saccharomyces cerevisiaeの中で、史上最も高い高温耐性(42℃)を示す野生株Saccharomyces cerevisiae SPY3のトランスクリプトーム解析を行い、その優れた高温耐性メカニズムの解析を進めた。本年度はまず、ゲノムデータ解析支援センターの協力を得て、バイオインフォマティクス解析から抽出されたSPY3で高発現している脂質合成関連遺伝子群についてパスウェイ解析を行い、律速段階となる幾つかの遺伝子を抽出した。そして、それらの遺伝子破壊を行いSPY3の高温耐性を解析した。その結果、それらの遺伝子破壊株はSPY3と同程度の高い高温耐性を示したことから、想定している脂質物質よりさらに前段階で合成される脂質前駆体が高温耐性に寄与していることが示唆された。次に、同様にトランスクリプトーム解析から見出されたSPY3の高温耐性に寄与する転写因子について解析を行った。この転写因子の核局在を調べたところ、高温条件下では高温感受性株BY4743よりもSPY3の方で核局在率が顕著に高く、この転写因子によって制御を受ける下流遺伝子の発現が高温耐性獲得に貢献していることが強く示唆された。そこで、この転写因子の推定結合DNAモチーフを用いてゲノムデータ解析支援センターと共にバイオインフォマティクス解析により発現制御を受けると予想される下流遺伝子の抽出を行い、抽出された下流遺伝子の発現レベルを解析した。その結果、高温条件下でこの転写因子依存的に高発現する遺伝子を1つ見出した。この遺伝子破壊株を作成したところ、高温条件下で顕著にSPY3の高温耐性能力を低下させたことから、この遺伝子がSPY3に特異的な高い高温耐性の獲得に重要であることを明らかにした。今後、この遺伝子の詳細な機能解析およびこの遺伝子が関与する細胞機能から、SPY3が持つ優れた高温耐性メカニズムを解明する予定である。
優れた高温耐性を示す酵母Ogataea polymorpha NCYC495の解析については、ゲノムデータ解析支援センターの協力を得て、トランスクリプトーム解析から高温条件下で高発現している遺伝子を抽出し、高温耐性に関与する新規遺伝子を1つ見出している。本年度はこの遺伝子産物の細胞内局在や細胞機能について検討した。しかし、コロナ禍による研究時間規制や技術的なトラブルにより当初計画からは遅れながらも目下解析を続けている途中である。
本年度は、醸造スターターである麹から単離され、醸造において重要な役割を果たしていると想定されている優れたストレス耐性を示す酵母Pichia kudriavzevii N77-4のゲノムデータ解析とストレス耐性の分子メカニズムの機能解析に着手した。ゲノムデータ解析については、イルミナ社のMiSeqを用いて、ショートリードデータを取得した。ゲノムデータ解析支援センターの協力を得て解析を行った結果、染色体に相当する長いコンティグ5本を構築することに成功した。これまでに、発酵生産条件下(高エタノールや高温)で生じる細胞内活性酸素種(ROS)がストレスとなり酵母の増殖や発酵能力が大幅に低下することが報告されている。そこで、ROSストレスを除去する酵素遺伝子SODのPichia kudriavzeviiにおける同定とその機能解析を進めた。その結果、ゲノムデータ解析支援センターの協力を得て、Pichia kudriavzevii のゲノムに2つのSOD遺伝子を初めて見出した。両遺伝子破壊株を構築したところ、ROSが顕著に蓄積し、増殖速度も低下した。さらに、エタノールストレス条件下では、2つのSODのうちの1つが顕著に発現誘導を受けることも見出したことから、Pichia kudriavzeviiは発酵生産条件下でSODの誘導を通じてROS除去を行なっていることを明らかにした。
今年度は、新型コロナ感染症の拡大により年度当初から大学等での2ヶ月間の一斉休業やその後の断続的な活動制限によって、当初予定していた研究計画の実施が困難となった。まず、ゲノムデータ解析支援センター(三島地区)での研究打ち合わせおよびゲノムデータ解析支援センターに長期間学生を派遣しての解析技術の指導が不可能となり、旅費の執行ができなかった。また、大阪大学においても新型コロナ感染症の拡大による活動制限のため研究にも制約が課され、当初予定していた研究計画を進めることができなかったため、論文発表もデータ不足で受理にまで至らず、論文出版費の執行ができなかった。こうした状況下の中、ゲノムデータ解析支援センターの尽力により、Zoomを活用したリモートでの学生への解析技術の指導を行い、日本分子生物学会での2名のポスター発表の成果に結びつけることが出来た。また、論文英文校閲費については学内支援で支払うことができた。学会発表参加費についても別予算で支払うことができた。引き続き、次年度に継続申請を行い、上記の研究成果(論文作成等)を計画中である。

016RP2020 渡邊 隼史(金沢大学)
明治大正昭和新聞データのOCRとその関連技術の研究

1. 本年度の目的と研究の背景
(1-1)本研究全体の目的:
本研究全体の目的は,明治から昭和までの約100年の読売新聞の記事画像データのテキストデータ化である。テキスト分析可能な精度でのテキスト精度化を目指す。加えて,それを実現するための国内の古新聞画像に関するOCR技術の獲得も目的としている。

(1-2)本研究の背景:
新聞記事のテキスト解析は,人文社会科学の諸分野において人々の行動や感情の長期的な変化の様子を知る主要な情報源の一つである。しかし,国内の平成時代以前のほとんどのデジタル化された新聞データが紙面画像データとして提供されている。
このデータのうち見出し部分はテキスト化されている場合はあるものの,主要部分である新聞記事の本文についてはほとんどの場合テキストデータ化されていない。そのため,新聞画像データのテキストデータ化は,それらの研究への新たな研究資源の提供につながる可能性がある。なお,本研究では,平成時代以前で利用可能な新聞画像データの一つである「明治・大正・昭和の読売新聞データセット(以下,読売新聞データ)」を研究対象とした。
(1-3)本年度の目標:
本年度は,読売新聞データのOCR研究の第一歩目にあたる準備段階の研究である。
以下の3点を目標とした。
a)専用ソフトからの記事画像ファイルの取り出し
b)既存のOCR手法の利用可能性の確認
c)既存OCR手法をよりよく利用するための前処理や後処理の手法の確立

2. 研究の進捗
ここでは,上に示した(a)から(c)の3点の目標について研究の進捗を報告する。
2-a)専用ソフトからの記事画像ファイルの取り出し:
朝刊の全期間のデータのpdf化を完了した(読売新聞データは,閲覧専用ソフトからのみ閲覧できるように暗号化されている。そのため,OCR等の画像解析を行うためには紙面ごとに暗号化されていない画像ファイルとして取り出す必要があった。)。具体的には,閲覧用ソフトを自動制御するプログラムを開発し,データをpdfデータとして取り出し作業を行った。なお,pdf化についてはデータ提供元より特別な許可を受けている。夕刊や号外に関しても現在pdf化中であり,あと半年程度の時間があればpdf化可能と考えている。

2-b)既存のOCR手法の利用可能性の確認:
既存のOCRソフトウェアについて新聞データへの適応可能性の調査を行った。
適応可能性調査が本研究の主目的ではないため,精密定量的に行うのでなく,
まずは,いくつかの時期数紙面を例にOCRソフトの適応を行い,その結果を定性的に大まかに確認する方法をとった(そもそも明らかにOCRできなかった場合も多かったので,精密に評価する以前の問題でもあったこともある)。

その結果,明治・大正期と戦後以降についてそれぞれ以下のことがわかった。
2-b-1)明治・大正期の記事:
明治大正資料に関しては,CODHで開発された明治期文書に特化したOCRソフト
ウェアであるkindai-OCRの明治新聞への利用可能性の調査を行った。
結果,「ふりがな」がKindai-OCRの精度を大幅に下げレイアウトの解析やOCRともにほとんど不可能にすることがわかった(明治大正期の読売新聞には漢字ふりがながふられている)。実際,手動でふりがなを除去し,かつ,数行のシンプルな文書として切り出した画像データにKindai-OCRを適応した場合,大まかに6割から7割程度の精度でOCRが可能になることが確認できた(いくつかのサンプル記事の概算)。 ただし,このレベルの精度では,テキストマイニング等の利用には十分とはいえず,新聞テキストマイニング利用するためには,今後,前処理やOCRのさらなる改良が必要であることが示唆された。

2-b-2)戦後期の記事:
現在文書に近い戦後データは,以下の既存のOCRを試した。(i)Tesseract OCR (ii)google drive (iii)読取革命Ver.16 (iv)e.Typist neo ver. 15.
結果,いくつかの前処理をすれば、google documentが比較的良好にOCR可能できることが示唆された(ここで,前処理は,まず,単純な数行の文字情報をのみの画像を取り出し,次に,それを縦書きを横書きに変換する。ここでは手作業でおこなった).
ただし,デジタル化時に設定されたデジタル化レベル(解像度)の関係で,画数が多い漢字等は印刷が潰れてしまい、そもそも目視でも単独では文字が判別できずOCR困難な場合があることもわかった.また,画像の鮮明度が悪いものは,(iii)読取革命(iv)e.Typist のほうが精度が良いようにも見受けられた.なお,google documentは精度向上に前処理が必要であったが,前処理をしない場合,一番良好に思われたのは,(iv)e.Typistだった. 縦書きは(iii)と(iv)が比較的精度が良かった.

以下に表にまとめる。ただし,数例の実験の結果のため,予備的な結果であり、人間による数記事の例の定性的・直観的な判断な結果であることを注意されたい(昭和46年の新聞記事を用いた).

■利用可能性や費用
左から(i)(ii)(iii)(iv)
--------------------------------
費用 ◎ ○ △ △
自動化 ◎ △ ○ ○
---------------------------------------
◎ 無料/問題なし
○ 無料だが制限の可能性あり/工夫を要するが可能
△ 安価/理屈の上では可能だが現実には検討が必要
× 高価/問題あり

■OCR可能性
左から(i)(ii)(iii)(iv)
-----------------------------------
そのまま × × × △
レイアウト解析力 × × × ○
文書のみ × △ △ △
横書き化 × ○ △ △
-----------------------------------
◎問題なく利用可能
○精度としては不十分でがある程度は判読は可能
△OCRされた文が人間が読めない場合も多い
×ほぼうまくいかない

2-c)既存OCR手法をよりよく利用するための自動的な前処理や後処理の手法の確立:
bの解析では,前処理は数紙面を例に手作業で行っていた。しかし,明治時代から昭和時代の100万紙面程度に対応するためには,
前処理作業は自動化する必要がある。そこで,本研究では,前処理の自動化の可能性を検討した。
本年度は,その第一段階として,一番初歩的な手法である古典的な画像処理とルールベースの手法による前処理で実現可能かを検討した。

2-c-1)明治大正新聞データのふりがな部分の検出・除去:
輝度解析によりにふりがなを除去できる可能性があることを示唆した。
具体的には,本文の領域では,ふりがなの存在する列は,文字数が比較的少ないので輝度が相対的に高く,
本文の列は文字情報が詰まっているため輝度が低いという特徴がある。この特長を利用するだけでも大まかには
ふりがなと本文の列を分離・除去できることがわかった。ただし,例外もあるためさらなる検討が必要である。

2-c-2)昭和記事データの縦書きの横書き化
数列から数十列な文の画像について,簡単な画像解析で,縦書きを横書きにできることを確認できた。
具体的には,まず,輝度解析で,列と行の構造を検出した(文字と文字の間は白いスペースがあるので輝度が高いことを利用する.まず,列間スペースが明瞭な列を検出し,次に不明瞭な場合がある行を検出する。行に関しては,完全に空白でない場合もあるため,単純に空白領域の抽出でなく,「文字の大きほぼ一定の仮定」と「輝度情報」の双方を利用して文字間の推定を行う必要はある)。
行と列を検出できれば文字の外周を特定できるので,文字ごとに縦書きを横書きに並べ替えることができる。なお,鍵括弧等の記号は,縦書きと横書きで向きや位置が異なるので,それらは別途調整する必要がある。

2-c-3)戦後データのレイアウト解析
「本文」、「写真」、「見出し」、「図」に関して輝度等のいくつかの特徴量を定義し、その特徴量を適宜適応することで、
一つの紙面の例でレイアウト解析できることを示唆できた。大まかには,以下の手順である。
(ア)矩形の窓を設定し,その窓内に特定幅空行の縦じまを検出できれば,その矩形内は「本文」とする。
(イ)「本文」を除いた記事の中で,なめらかに変化する連結域(輝度の平均ラプラシアン勾配が小さい領域)が「写真」とする。
(ウ)「本文」「写真」を除いた画像の中で,連続する外接する矩形が正方形に近い四角形の連結域の連続が「見出し」とする。
(エ)「本文」「写真」「見出し」を除いた画像の中で,外接矩形を更正する連結域が数が少なく,かつ,エッジ量が多い領域を「図」とする。
一方で,上記の方法には,「一行の幅等」等の複数のチューニングパラメータがあり,それらを時代や紙面ごとにどのようにチューニングするかの方法を確立するまでにはいたらなかった。

3. 外部研究費の獲得
本共同研究により,関連するテーマの基盤Cの科研費を獲得内定することができた。

017RP2020 Markov Konstantin(会津大学)
ニューラル常微分方程式に基づく時空間的地温モデリングの研究

本研究の目的は、都市の熱波状況の解析に向けた第一歩として、気温の時空間補間への機械学習の適用可能性を検証することである。Krigingや回帰など時空間補間手法はすでに多数存在するが、それらの多くは非線形な時空間効果を柔軟に捉えることができない。そこで本研究では、非線形効果が柔軟に推定可能な機械学習手法BERT(Bidirectional Encoder Representations from Transformers)を時空間補間に応用してその有用性を検証した。

本研究で用いるBERTは気温観測所毎の特徴量を768の特徴量に埋め込むembedding層、attentionを行うためのmulti-head層、特徴量を縮約するfully-connected層からなる。構築したBERTは、関東地方の気温の時空間補間に応用し、その精度をkrigingと比較した。それによりBERTを用いることでkrigingと同等の補間精度が得られること、ならびにBERTにより時空間的な関係が柔軟にモデル化されたことを確認した。今後、BERTで補間された気温データをNeural Ordinary Differential Equationsの入力とすることで、気温のより詳細な解析を実施予定である。

なお、COVID-19の影響で統計数理研究所に滞在することが難しかったため、予定していた旅費は執行できなかった。一方、BERTを実装・計算するための計算機が必要となったため、同旅費を計算機の購入予算に変更した。上記の成果は同計算機に基づくものである。

018RP2020 梅村 宜生(名古屋大学)
データ駆動型研究促進のための機構賛同型コンソーシアムによる研究機関・大学との接続

本研究では、分野融合型科学社会の実現に向けて、機構と賛同する外部の機関および研究者を接続し、一体型の運営モデルの構築と実際の融合計算に関する試行を行った。接続先は、計画のとおり、(1)データサイエンスを推進する事業パートナーと、(2)各機関・図書館・研究者・データ所有者等のプロモーターの2つに大別した。
(1)では、機構による分野融合事業(サービス)とデータアーカイブ事業(データ保存)の接続を企図し、JAIRO Cloudと折衝を行った。研究データとメタデータを実際にJAIRO Cloudに試験登録して、可視性および科学活動への効能についてデータ所有者を交えて検討し、結果的に、JAIRO Cloudにてデータ保存と基本的なカタログの機能が動作することを確認したとともに、機構によるサービス機能とJAIRO Cloudによるアーカイブ機能がそれぞれ役割を棲み分けて連携しうることを確認した。また、機関リポジトリの科学応用への更新を進めている名古屋大学の図書館とも接続し、機関リポジトリから発信される研究データが、機構によるデータ融合プラットフォーム等の高度基盤に通貫的に接続されて高度科学を果たすイメージとそのタスクフローについて合意した。実際の発動は図書館組織にてその業務が正式に定義された時点ではあるが、具体的には、研究サイドで作成・管理される科学メタデータを研究サイドにてアーカイブ用メタデータに変換し、図書館等のアーカイバーはそれを既存の投入口にて受け付ける、既存のタスクスコープを継承して接続する運用を双方にて確認した。また、名古屋大学との接続では、国内にてデータ科学を中心的に推進する同大学の准教授ともタイアップし、同准教授が所有する地球物理系の観測データを名大の新しいリポジトリに登録していくと同時に、機構の融合プラットフォームにも投入して分野融合解析を進めていくことを確認した。
(2)では、共同研究者間で会合を行い、外部データを借り入れての融合計算に加え、異分野データから科学的知見を得るためのデータ情報の粒度や可視化方法などの、いわゆるデジタルトランスフォーメーション(DX)を確認した。共同研究者である国立環境研究所から気象系観測データ、九州大学から地磁気観測データを借り入れ、Data Driven方式にて関連性の定量算出と可視化を行い、分野を跨いだ科学探究に結びつけた。この機関および分野融合の例は、2月に開催された「ROIS-DS成果報告会」にて発表した。また、九州工業大学が所有するGISデータ(地磁気誘導電流データ)についてもPIグループ全体から許可が下り次第、融合解析を進めることを合意している。加えて、上述の名古屋大学准教授の研究データについても、同准教授が来年度にDS共同研究に別途申請して融合解析を開始していくことを合意したほか、このように他の研究機関や研究分野にも拡大・声掛けして裾野化していくことは機構とも合意している。DXについては、自分の専門のデータを見るには研究として捉える内容の変更やスペクトル化等の詳細化が欠かせないとの反面で、専門外のデータを見るには棒グラフのようなシンプルな図示が捉え易いとのことから、両極のニーズに応えることのできるMATLABのライセンスを購入して機構の融合プラットフォームに提案することとした。研究データの情報、いわゆるメタデータの粒度については、メタデータのレベルでパラメータが細かく示されても専門外の研究者は更に分かりづらくなる、むしろ、研究者が顔を合わせて知見交換する方が効果的と示され、実際の運用に向けては、当共同研究が提唱してきた地域拠点活動でのFace to Faceの場面のウェイトを増やしていくこととした。
これらのことから、事業推進の観点では、JAIRO Cloudや各大学・研究機関等のデータアーカイブ活動と機構によるデータ融合活動は、各々の分担がされながら一貫的に接続できることを確認した。また、異分野データ融合の観点では、外部の機関および研究者にも融合解析の実例化が進み、効果そのものに加え、賛同する機関および研究者も広がっている状況にある。
特記事項として、新型コロナウィルスに伴う移動制限により、予定した地域拠点活動はすべてオンラインに変更、その経費は融合解析を行う計算機の増強費用に振り替えた。この変更により、外部からさらに融合解析の依頼を受け入れる体制に強化した。

019RP2020 吉沢 明康(京都大学)
文字列高速検索技術を用いた全ゲノム・アミノ酸配列同定リソースの開発

本課題は複数年度で実施する予定であり、今年度はゲノム情報に対するアミノ酸配列タグの統計を作成する予定であった。これは着手したが予定よりは遅れており、現在も進行中である。
令和2年度は公衆衛生上異例な社会情勢もあり、勤務形態の変更および物品の調達上の問題(特に、「いつ頃までに何が可能になるか」の見通しが立たなかったこと)で着手が遅くなったのが遅延の最大の理由である。しかし令和2年度後半に、本計算を行うための計算機(CPU: core i9、メインメモリ256GB、本予算以外によって調達。ディスクデータ領域の一部(24TB)を本予算で調達し、接続して利用)を整備したことで、漸く実施が可能になった。
タグの統計を作成するに当たっては、「(ヒト)ゲノム情報に対してタグ検索を行うシステムを構築する際に、ゲノム情報を直接翻訳した仮想アミノ酸配列情報を直接検索するか、これを或る程度の長さ(仮想タンパク質)に切断した複数の仮想アミノ酸配列に対して行うか、いずれが適切であるかを、検索の効率性とそれぞれに応じたタグ統計の内容に基づいて決定する」という戦略に従って、まずゲノム翻訳情報の“仮想タンパク質”への切り出しを行った。
ヒトゲノム情報としてはGRCh38を用い、全データを6フレーム翻訳して、ゲノム翻訳情報を作成している。X(アミノ酸未知)もしくは*(ストップ)で挟まれたアミノ酸2個以上の領域を“仮想タンパク質”と仮定して上記配列情報から切り出し、約2億8000万個の配列を生成した。
アミノ酸配列のデータベースとして考える場合、これは配列数が極端に多い(短いものを多数含むが、エントリ数としてはUniProtKBの全生物種全配列合計2億1500万個、RefSeqの全生物種全配列合計1億9700万個よりも多い)。このエントリ数のデータベースに対する検索は(事前の予想通り)困難である。生成する仮想アミノ酸配列を、より長いものに限定した場合は大幅に個数が減少するが、その場合、実験系研究者からリクエストのあった生理活性ペプチドの探知に利用できない可能性がある。
以上のことから、本課題で目標の一つとする「短いアミノ酸配列(配列タグ)複数から、その配列タグの由来したゲノム上の配列を推定する」ために、
(1)\t短いタグ(2個の場合。3個の場合は検討中)については、ゲノム上での位置を記録したデータベースを事前に作成し、これを用いて検索する(UniProtに対する検索の場合と同じ)
(2)\tそれ以上の長さのタグは、本課題で作成している、GGRNA/GGGenomeの改良版PPPeptide(仮称)を用いて検索する
という方針を決定し、後者のためには「ゲノム翻訳情報を直接検索する」・「仮想タンパク質を検索する」(上記の2選択肢)に加えて「仮想タンパク質を消化酵素でin silico消化して、生成したペプチドを検索する(同一ペプチドを1エントリに統合することでエントリ数を減少させる)」の計3戦略のいずれが最も効率的かを比較している。各種ファイルとそれらに対するタグ統計の作成は上記サーバに於いて、検索システムのベンチマーク・比較検討は遺伝研に設置したDBCLSのサーバで実行し、現在も進行中である。

なお本課題申請時、報告者は公衆衛生上の見通しを当時の政府見通しよりもかなり厳しく考えていたが、現実にはそれよりも更に状況は厳しく、「実現できるかもしれない」と考えて計上していた、「2021年1~3月期」のDBCLSへの出張は全てキャンセルすることになった。
代わりに「オンライン会議をスムーズに進める」という目的でノイズキャンセリング機能のついたヘッドフォンを購入したが、これは予想以上に有用であった。報告者は実験主体の研究室に所属しているが、バックグラウンドノイズとして聞こえる実験室の騒音がほぼ遮断され、通話に於ける問題は、実質的にネットワークの問題のみに軽減した(一般にノイズキャンセリング機能ヘッドフォンは音楽鑑賞用とされているようであるが、むしろオンライン会議でこそ、その真価が発揮されるように思われる)。出張にはもっと早期に見切りをつけて、むしろこれを早く購入するべきだったと後悔したほどであった。なお、科研費で同じ製品を購入した人からも同じ感想を聞いたので、ノイズキャンセリングは多くの人にとって恩恵になると考える。

020RP2020 賀茂 道子(名古屋大学)
社会調査データを活用した戦後国民意識と占領改革の関連性の歴史学的検証

1.昨年度の実施状況
昨年度は、GHQが情報発信のなかで力を入れていた民主主義の啓蒙に着目し、「日本人の国民性調査」のなかの「民主主義はよいか」という項目に対する回答と、CIEが情報発信政策として重視していたラジオ・映画との関連性を検証した。まず、県別のラジオ受信契約数およびCIE映画の一人当たりの視聴回数を割り出し、「民主主義はよい」との項目で民主主義に肯定的な回答との関連性をロジスティック回帰解析により分析した。その結果、ラジオ、CIE映画ともに民主主義に対する肯定的な態度との関連性は見いだせなかった。ただし、民主主義への肯定的回答を示す率の高い、40代までの高学歴(大卒・専門学校卒)男性に絞って、ラジオ・CIE映画との関連性をみると、ラジオは民主主義への肯定的態度に影響を与えていることがわかった。

2.本年度の実施状況
昨年度の分析では、もともと民主主義に対して理解のある層に対しては、ラジオによる啓蒙は有効であるというエコーチェンバー効果(人は自身にとって心地よい情報を取り入れる)が見られたが、以下に挙げた理由で明確な関連性とまではいえない。
・ラジオ受信契約数やCIE映画の視聴回数と「日本人の国民性調査」の調査対象者との間に、同一県に居住するという点以外の関連性がない。つまりラジオ受信契約数が高い県の調査対象者が必ずしも民主化啓蒙番組を頻繁に聞いていたということにはならない。CIE映画に関しても同様である。そのため、分析はあくまで傾向を示しているに過ぎない。
・「民主主義はよいか」という質問が非常に漠然としたものであり、そのため高齢女性でDK(わからない)が、他の調査と比較して多い。
以上のことから、昨年度の結果は、あくまで一つの傾向にすぎず、ラジオ視聴と民主主義に対する肯定的態度の関連性を決定づけるものではない。こうした結果を踏まえ、本年度は新たな資料を収集したうえでGHQの啓蒙しようとした民主主義像の具体化に取り組んだ。その後、得られた民主主義像に関連した分析項目を選び出すことで、昨年度の分析からさらに幅を広げることを目指した。また民主主義のみならず、占領初期にGHQが情報発信に力を入れていた「ウォー・ギルト(戦争の罪)」に関連する項目についても分析対象とした。具体的には、戦争での加害行為に対してどのように感じているのかに関連した項目である。このことにより関連性をさらに深索することとした。

①民主主義に関する情報発信
GHQの啓蒙したかった民主主義とは具体的に何か
新たに、ラジオ番組「真相箱」脚本(NHK放送博物館)、CIE週報(国立国会図書館)、占領期の教科書(公益財団法人教科書研究センター教科書図書館)を収集し、徳島県立文書館においてCIE映画『腰の曲がる話』『ディスカッションの手引き』『いとしき子らのために』を視聴した。そのうえで、これら資料の検証結果として、GHQが発信した「民主主義」とは、次のようなものであるとした。
・話し合い行い、そこで決めることが出来ない場合は多数決(投票)によって決めるという、民主的な意思決定の手続き。
・自己決定の大切さ。これは、権力者や上から言われたことに黙って従うという権威主義の否定でもあり、民主主義は一人一人の責任ある市民によって成立するという、民主主義の根本にもつながる。
・男女平等。女性も男性に従属するのではなく、自分の意見を持ち、それを発信し、自由の考えに従い物事を決めていくことが重要。
・公平な選挙の実施。

「日本人の国民性調査」における分析項目と分析結果
1953年度と1958年に行われた「日本人の国民性調査」のなかからCIEが考える民主主義に関連した項目として、次のものを選び出した。
1953年「女の仕事は好ましいか」「政治家に任せるか」
1958年「女は家庭か世間か」「男女の能力差」「政治家に任せるか」「選挙への関心」
調査結果は、すべての項目において都市部にすむ高学歴若年層の男性が民主的な思想を持つ傾向があることを示している。こうした層はもともと民主主義に対し知識を持ち理解がある。特に若い層は柔軟性があるため、新しい思想を受け入れやすいものと考えられる。
そのうえで、1953年調査では「ラジオをよく聞くか」「新聞をよく読むか」の調査項目と、「女の仕事は好ましいか」「政治家に任せるか」における民主主義的態度を示す回答との関連性を調べるために、ロジスティック回帰分析を行った。その結果、「政治家に任せるか」においては「ラジオをよく聞く」「新聞をよく読む」と民主的傾向を示す回答との関連性が明らかとなった。ただし、ラジオよりも新聞の関連性がより強かった。一方、「女の仕事は好ましいか」では「新聞をよく読む」との関連性は認められたが、ラジオは認められなかった。
GHQは情報発信に関して新聞よりもラジオを重視していたが、新聞の方が効果的であったことになる。考えられる理由として、耳からの情報よりも眼からの情報の方が認知しやすいことがあげられる。またラジオは聞き流すこともあるが、新聞は読みながら理解していく作業を伴うため頭に残ることも影響したのではないだろうか。この点については、さらなる詳細な分析を必要とする。
一方、民主化啓蒙のためのCIE映画の一人あたり視聴回数は、秋田県(7.4回)と山形県(6.1回)が突出して多いが、これらの県の回答からは、特に民主的傾向が強い回答を選ぶという傾向は見られなかった。

②「ウォー・ギルト」に関する情報発信
今年度は、GHQ情報教育政策において、民主主義の啓蒙と並ぶ二本柱の一つである「ウォー・ギルト」に関しても分析を試みた。「ウォー・ギルト」とは戦争の罪や罪の意識、そしてそれが罪であることを含む概念であるが、日本語一語で言い表すことが難しい言葉である。法的な罪だけでなく道義的な罪も含む。「ウォー・ギルト」に関する情報発信量は「民主主義」と比較して決して多くはないが、捕虜虐待や南京虐殺など、これまで日本人が知らされていなかった情報も多く、衝撃度はより大きかった。
研究代表者はこれまで「ウォー・ギルト」に関する研究に携わってきたため、新たな資料収集は行わなかった。

「日本人の国民性調査」における分析項目と分析結果
今回以下の項目を選び、分析を行った。
1953年「国旗を揚げること」「日本人・西洋人の優劣」
1958年「日本人・西洋人の残酷」
最も「ウォー・ギルト」の関連性が疑われる項目は「日本人・西洋人どちらが残酷か」である。回答は、日本人21%、同じ21%、西洋人27%となっている。しかしながらドイツやフランスで行われた同様の調査で自国民を残酷とするのは1%前後であることから、日本ではその割合が突出して高いことがわかる。この結果からは、占領期のGHQの情報発信がそれなりに有効であったことが示唆される。ただしこの項目は1958年度のみのため、「ラジオを聴くか」「新聞を読むか」の調査がなく、直接GHQの情報発信政策との関連性を見いだせない。そのため県別ラジオ受信契約数との関連を調べたが、関連性は認められなかった。確かにGHQは新聞ラジオ等を通して日本軍の残虐行為を喧伝したが、当時の人のインタビューからは、メディアによってだけでなく帰還兵の話や街でのうわさ話などが相当影響したことがわかる。そのため、ラジオや新聞に頼らずとも広く日本軍の残虐行為に関する情報は周知されていたと考えられる。
同様の項目として1953年「日本人・西洋人の優劣」がある。日本人が優れているが20%、日本人が劣っているが28%である。日本人は西洋人に対する劣等感を示す結果となっているが、これはGHQの影響というよりも元来あったコンプレックスに加えて敗戦が影響を及ぼしている可能性がある。ラジオ・新聞との関連性も見出されなかった。
通常、民主主義関連の項目においては、高学歴層のほうがGHQの喧伝内容を肯定する傾向が強いとの結果がでている。これを当てはめると、この項目では日本人の方が残虐と答えるはずであるが、実際は、大卒で日本人を残虐としたのは8%と、他の学歴と比較して非常に低い数値を示している点は興味深い。日本人が劣っていると答えた大卒も20%と平均よりも低い。これに関しては、エリート層である大卒は日本人であることに誇りを持っており、そのため敗戦やGHQによる日本軍の残虐行為の喧伝も影響を受けなかったのではという解釈が可能である。つまり逆の意味でのエコーチェンバー効果、すなわち自身の考えと異なるプロパガンダはなかなか受け入れられないというの可能性が浮上する。ただしあくまで現段階では仮設にすぎないため、次年度の課題としたい。

3.本年度の総括
本年度はコロナウィルスの感染拡大により、出張制限、施設の利用制限が重なり、資料収集は困難を極めた。そのため予算残が発生し研究の進行に遅れが出ることになった。こうした制約にもかかわらず、これまでの先行研究では明らかになっていなかったGHQの理想とする民主主義像の具体化できたことは、今後の研究の進展に大きく寄与すると考える。
今年度の研究により得られた知見は以下のとおりである。
・GHQの情報発信は何らかの形で日本人の意識に影響を与えた。
・民主主義思想は、日本人全体というよりも高学歴層や若年層といった限定された層により影響を与えた。
・元来持っていない思想に関しては情報を与えても効果が薄い(仮説)。
・ラジオよりも新聞の啓蒙効果が大きかった。

021RP2020 櫛田 達矢(理化学研究所)
希少・難治性疾患のゲノム医療推進に資する情報基盤の高度化とその応用

1. はじめに
anbyo Disease Ontology(NANDO, https://github.com/aidrd/nando)は,難病に関するゲノム医療の推進および国内外の難病情報の共有に役立つ情報基盤の構築を目指し,DBCLSが開発する日本の難病を体系化した日英対訳の疾患オントロジーである.本研究は,理化学研究所バイオリソース研究センター(BRC)が保有,管理,提供している実験材料(バイオリソース)のレコード(カタログ)が持つ疾患情報に対して,疾患オントロジーの用語をマニュアルアノテーションすることで,理研が開発するBRCカタログ検索システム(https://brc.riken.jp/)を用いて,統制された疾患名や国際疾病分類を検索キーワードとして,診断,創薬及び治療法の研究・開発などの疾患研究に利用が期待されるバイオリソースの候補を網羅的に,高精度で検索可能にすることを目的とする.また上記を実現するため,NANDOの拡張,理研BRCバイオリソースと他の機関が提供する情報リソースとの連携,さらに,難病の情報基盤NanbyoDataの整備を,理研BRC,DBCLS,臨床医および博士課程学生が,それぞれの専門知識・技術を持ち寄ることで実施した.2020年度は,上記について以下の取り組みを実施したので,その成果の報告を行う.

2. 2020年度成果
2.1 疾患オントロジーを使った細胞材料に対する疾患アノーテーション及びRDFデータの作成(申請書類「研究計画・方法」の2の成果)
理研BRCが管理・提供するバイオリースのうち,疾患患者由来の細胞材料が3215種類存在している.本研究では,この疾患患者由来の細胞カタログに記載がある疾患名(図1)に対して,NANDOを含め4種類の疾患オントロジーMondo Disease Ontology (MONDO),Human Disease Ontology,Orphanet Rare Disease Ontologyを用いてオントロジーが持つ疾患の見出し語,別名,略語,国際疾病分類の情報をリソースに紐付けるマニュアルアノーテーションを行った(表1).このアノテーションの結果,上述の3215種類の細胞材料のうち,2310種類についてNANDOが定義する355種類の疾患をマッピングすることができた(表2).
この疾患アノテーションした細胞材料データを,Resource Description Framework (RDF)の形式でRDFデータベース(トリプルストア)に格納し,理研BRCカタログ検索システムで,日英の疾患名及び国際疾病分類を検索語とするキーワード検索を実現した.図2は,理研BRCカタログ検索システムで筋萎縮性側索硬化症で検索した例である.細胞材料のヒット件数は234件であり,その全てが正解であった.筋萎縮性側索硬化症の英名Amyotrophic lateral sclerosis,その略語ALSについてはオントロジーでアノテーションする前から検索可能であったが,その別名Lou Gehrig disease, motor neuron disease, bulbar並びに国際疾病分類ICD-10:G12.2については,オントロジーでアノテーションした結果,検索が可能になった.図3は,細胞材料と疾患名間を探索する経路である.図左はオントロジーでアノテーションする前の細胞材料のデータ構造であり,図右が疾患オントロジーでアノテーションを行った結果,拡張された疾患名及び国際疾患部類コードの知識である.アノテーションする前は,約1000語の疾患和名,英名が細胞材料に紐づいていたが,アノテーションの結果,疾患オントロジー由来の約10000語の疾患名の標準名,別名,国際疾病分類(例,Lou Gehrig disease,ICD-10:G12.2)が追加され,これらを含めた11000件以上の疾患名を使った細胞材料の検索が可能になった.
さらに,バイオインフォマティクス研究者・開発者やデータサイエンティストの利用を想定して,RDFのデータ構造に対して詳細な条件を指定して検索が実行できるSPARQLと呼ばれる検索言語のインターフェイス(SPARQLエンドポイント, https://knowledge.brc.riken.jp/sparql)を公開した.この成果は櫛田(理研)が担当した.

2.2 NANDOの拡張(申請書類「研究計画・方法」の1の成果)
希少性が高い難病の研究には,疾患原因遺伝子や症状,所見など疾患に関係するデータを国際的にシェアリングすることが重要である. NANDOでは,客観的な指標に基づく疾患概念の確立していない希少難治性疾患の研究,開発に貢献することを目指し,日本でオーソライズされた情報リソースから難病の疾患概念および疾患同士の関係の情報抽出と定義及び国外の疾患オントロジーとを対応づけを行った.
2020年度は,NANDOの疾患概念に対して,KEGG Disease及び遺伝性疾患の総合データベース(UR-DBMS)への外部リンク情報の追加を行った.その結果,652件のNANDOの疾患概念に対して,KEGG Diseaseの疾患424件(例,KEGG:H00126),821件のNANDOの疾患概念に対して,UR-DBMS の疾患583件(例,id:3084)のリンク情報の追加が完了し,これを2020年11月にNANDO Version0.4.3として,ライフサイエンス分野のオントロジーポータルサイトであるBioPortal(https://bioportal.bioontology.org/ontologies/NANDO)からCC BY 4.0のライセンスで公開し,閲覧,検索,ダウンロードを可能にした.またライフサイエンス分野のRDFデータのポータルサイトであるRDF Portal(https://integbio.jp/rdf/)に登録し,SPARQLを使った検索を可能にするともに,後述するNanbyoDataのサイトからも公開を始めた.
またNANDOとMONDOで疾患オントロジー間のマッピングを行った.両オントロジーの疾患の見出し語とシノニムを対象に,厳密な文字列一致による自動マッピングを行い,マッピングできなかったものに対しては,機械による自動処理とマニュアルキュレーションで疾患概念間のマッピングを行った.後者についてはこれまでにNANDOの約700語を対象に作業を行った.この結果,MONDOを介して関連する疾患や解剖学的部位の情報を辿ることが可能になった.
さらに,臨床調査個人票などの情報リソースからマニュアルキュレーションによる各疾患の細分類化,また機械による自動処理及びマニュアルキュレーションによるNANDOの疾患名の英語翻訳を行い,これまでに2627 語の英語翻訳が完了した.これらを反映したNANDOを,2021年度中に Version 1.0.0 としてリリースする予定である.本成果は,藤原(DBCLS),菊池(東北大)および仁宮(東京大/国立保健医療科学院)が担当した.

2.3 外部機関が開発する情報リソースとの連携(申請書類の「研究計画・方法」の3, 5, 6の成果)
ANDOを用いて外部のRDFデータやオントロジーとの情報統合及び統合検索を可能にした.RDF Portalに収納されているDBCLSが開発するNANDO及びPubCaseFinder(https://pubcasefinder.dbcls.jp/)を対象に,SPARQLを用いてNANDOの難病名及び疾患IDからPubCaseFinderが持つ症例情報の検索が(図4),同様に遺伝子発現データRefEx,プロテオミクスのUniProtを対象に,疾患原因遺伝子を介した難病とミックスデータ間の統合検索が可能になった.
またバイオリソースが未整備の希少・難治性疾患に対して,NBDC,DBCLSの日本人ゲノム多様性統合データベースTogoVar及び理研BRCのマウスゲノム多型情報データベースMoG+の活用を目指し,MoG+のRDFスキーマの検討を行った.本成果は,藤原,櫛田が担当した.

2.4 難病の情報基盤NanbyoDataの整備(申請書類「研究計画・方法」の4, 7, 8の成果)
難病に携わる医療関係者・研究者・開発者を対象とした 難病の情報ハブNanbyoData (https://nanbyodata.jp/)を2020年10月に公開した.NANDOで定義された難病に対して,遺伝性疾患データベースOMIM,希少疾患の診断,治療などの情報リソースOrphanetへの外部リンク,難病の概要,定義,臨床的特徴,理研BRC細胞カタログから取得した難病研究,実験に供与が期待さえる細胞の番号,名称,細胞特性,外部リンクの情報を提供するとともに,機械可読の形式でNANDO,難病−遺伝子及び難病−症状の関係データのダウンロードを可能にした(図5).本成果は,藤原,仁宮が担当した.

予算費目の変更点と理由
COVID-19拡大に伴い,当初予定していたDBCLS柏キャンパス内での打合の取りやめ,また参加する学会及び論文投稿先の変更に伴い,計画していた旅費及び役務費(学会参加費,論文投稿費)の一部をデータベースライセンスの追加,医学辞典,モニターの購入費(消耗品費)に変更した.

022RP2020 小舘 亮之(津田塾大学)
多次元尺度法を用いたオープンデータ・ビッグデータからの消費者感性情報の抽出とマーケティングへの利用研究

2020年度は、「多次元尺度法を用いたオープンデータ・ビッグデータからの消費者感性情報の抽出とマーケティングへの利用研究」の2年目にあたる。初年度の研究成果から、企業や国・地方自治体や、IDRのようなデータ・アーカイブセンターが保有するデータの提供を受け、調査研究を行うことは、データ収集にかかるコストを大幅に減らすことができるため有用であることを確認した 。よって、2020年度は、データライフサイクルマネジメントの観点から研究を実施した。ここで、データライフサイクルマネジメントとは、主に研究データの管理・マネジメント手法であり、研究データに関するPlan(計画)、Create(収集・生成)、Process(加工)、Analyze(分析)、Preserve(保存・保管、Share(共有)、Reuse(再利用)の各段階において適切なマネジメントを行うことにより、研究を適切かつ効率的に推進すると共に、オープンサイエンス・オープンデータを推進する社会全体でデータを共有し、利活用するために必要とされるものである。具体的には、今年度の研究課題を本研究の主目的である「課題1: ビッグデータからの消費者感性情報の抽出・可視化」と「課題2: ソーシャルビッグデータを活用した共同研究におけるデータ・ライフサイクルマネジメント」、そして、「課題3: 課題1と課題2の教育目的での利活用方法」の3つのサブテーマについて研究を実施した。
まず、本研究の主課題である課題1では、近年マーケティング分野で注目される消費者の「感性情報」の可視化には、ZMET調査などの調査手法の活用が試みられるが、データ収集や分析のための高度な専門知識に加え、インタービュー調査などによって収集した、より質の高いデータを必要とする。しかし、その都度適切なデータ収集を行うためには、相応のコストがかかってくる。そこで、本研究では、学術目的のために公開されたオープンデータやインターネット上などから収集可能なソーシャル・ビッグデータを活用して、マーケティングなどに適応可能な可視化手法について研究を行った。
課題2では、ソーシャル・ビッグデータを対象とした研究を複数の研究者・研究機関が共有する共同研究体制で実施する場合のデータマネジメントの在り方について検討を行った。
課題3では、課題1と課題2の成果を大学における教育に展開していく際の課題とその活用の方策を検討する。
本研究の実施にあたって、まず、学術用データセットとして国立情報学研究所情報学研究データリポジトリ(以下、IDR)よりYahoo!知恵袋のデータセットを共同研究の共通データセットとして提供を受けた。
以下、各課題の成果を記す。
まず、課題1については、吉見憲二准教授(成蹊大学)を中心に(1)「国内観光」カテゴリにおける観光地名を含む質問文の経年的変化の可視化(図1)、(2)「子育て」カテゴリにおける子供の年齢別[前田忠彦1] の頻出語[前田忠彦2] の可視化(図2)及び(3)質問文とベストアンサーの比較(図3)、(4)「情報セキュリティ」カテゴリにおけるセキュリティ意識の経年的変化の可視化に取り組んだ(図4)。特に、(3)の研究では、これまでの質問文の可視化だけでなく、質問文とベストアンサーの比較という新たな分析の観点を導入した。この結果、ベストアンサーに特徴的な「大丈夫」という語句に着目し、質問者が必ずしも具体的な解決策を求めているわけではなく、感情的な同意を求める層が少なからず存在する可能性を明らかにした。こうした質問者の主観的反応は質問文からだけでは可視化できず、質問文とベストアンサーの相互作用に着目することによってアプローチできたものである。(1)(2)(4)の研究でも、時間軸の概念を導入することで、質問文から経年的な変化の可視化に成功した(図5)。こうしたテキストマイニングによる一連の成果は、Yahoo!知恵袋のデータから抽出できる情報の多様性を示唆している。また、谷本和也講師(佛教大学)を中心に行った「サーフィン」カテゴリにおける質問文とベストアンサーの比較と可視化に関する研究では、これまでの質問文とベストアンサーを統合したデータの可視化だけでなく、質問文とベストアンサーの比較という新たな分析の観点を導入した。この結果、質問者がある程度のサーフィンにおける質問のカテゴリを理解したうえで質問することができれば、より効率的な応答が生まれる可能性があることが示された(図6)。また、先行研究で示されたサブグループを形成し質問を受付ける工夫をすることは、円滑な疑問の解決の一助となる可能性もあることが示唆された(図7)。
これらの結果はジャンル(サブグループ)がうまく設定されていれば、「効率的な回答」が得られ、ある意味で質の高いオンラインコミュニケーション空間が形成される見通しがあることも示している。つまり、テキストマイニングを活用した感性情報の可視化に関する一連の成果は、Yahoo!知恵袋のデータの適用可能性を示している。
このように、マーケティング分野で活用が期待される“感性情報の抽出・可視化”において、ソーシャル・ビッグデータを活用する本研究の手法は一定の有効性があるものと考えられる[前田忠彦3] が、マーケティングへの活用のためには、分析テーマ・対象をさらに拡大し、検証するとともに、分析手法の高度化・多機能化が必要であるとの議論を行った。加えて、Yahoo!知恵袋のようなカテゴリ化されたデータからテキストマイニングによって得られるコーパス情報は、例えば、ソーシャルメディアから得られる構造化されていないテキストデータを構造化し、分析する際に有用な手がかりとなると考えられる。そこで、今後の課題として分析手法・対象の多様化・高度化を進めると共に、ソーシャルメディアなどの非構造化データへの分析対象の拡大を検討する。特に、今回利用したYahoo!知恵袋などのカテゴリ化されたデータ構造をもとにして、ソーシャルメディアなど非構造化データの構造化・データクリーニングを図る手法について検討する必要がある。
課題2についての成果について、本共同研究では、Yahoo!知恵袋のデータを共通データとして利用したが、例えば、分析の前処理としてデータクリーニングを行ったデータセットや、テキストマイニング処理を行った結果得られた分析データなどを直接共同研究者が共有することは、IDRとの利用契約に反する可能性が高く、また、データセットに含まれる個人情報やデータそのものの漏えいリスクの観点からも共有すべきではない。そこで、本研究では、共通データについては各研究者が個別に管理を行い、さらに、このデータを処理するためのデータクリーニングなどの基準・方法、データマイニングの処理方法などデータ処理・分析のためのプロトコルと、実際にデータを処理するためのスクリプトを共有することにより、データの処理結果・分析結果を共有することとした。これにより、各研究者がIDRや各所属組織などの定めるデータ管理・運用基準に準拠して研究データを適切に管理しながら、データ解析の過程や結果を共有することで円滑に共同研究を進めることが可能となった。
続いて、課題3については、データクリーニングなどのデータ解析の前処理手順やそのノウハウはテキストマイニングを行う上で非常に有益な知見となることに着眼し、この過程を教材として利活用することについて検討した。特に、オープンソースの分析環境が容易に手に入るようになり、社会科学分野においてもデータに基づく実証研究の必要性およびそのための教育機会を提供することが強く求められている。しかしながら、本研究に従事する研究者の経験では、学生が卒業研究を実施する際に適切なデータを収集し、適切な処理を施して分析可能な状態に整えることである。そこで、本研究の過程で得られたノウハウや実際の処理手順などを教材化し、主に社会科学系学生を対象とする教育現場における教材として活用する方法の検討を行った。この検討を踏まえ、教材を作成し、2021年度に実際に各メンバーが担当する科目などで試用し、評価を行うことを予定している。
また、それとは別に2020年度の取り組みとして、これまでに同系学生の初学者が既存のデータ分析ツールをより親しみやすく扱うことを目指して分析ツールのWeb化や新たなグラフ表示機能を作成している。
以上、本研究では、主たる目的である感性情報を可視化する方法について、特にデータライフサイクルマネジメントの視点を取り入れながら検証し、実施した事例に関しては可視化手法としての有効性を確認した。また、データクリーニングやデータ処理のプロトコルを共有することでデータ管理の安全性を担保しつつ、円滑に共同研究を進めることができた。今後は、さらにソーシャルメディアなど非構造化データへの分析対象の拡大やカテゴリかされたデータのコーパス情報に基づく構造化手法を応用することで適応対象を拡大して検証を継続しながら、分析手法の高度化・多機能化を図ること、さらには、研究の過程を教材として利活用する方法について検討する必要がある。

なお、予算の使途として主に学会出張旅費の支出を予定していたが、コロナウイルスの影響によりすべてオンライン開催となるなど、出張にかかる経費が不要となった。一方で、研究の進捗は順調であったため、より高度な分析用のテキストマイニング・可視化分析ソフトや、データサインス用動画教材作成ソフトの購入に充てた。

023RP2020 塩田 さやか(東京都立大学)
時系列データのための深層学習を用いたデータ拡張に関する研究

本研究課題では,時系列データを用いたシステムとして,音声データを用いた生体認証技術である話者照合システムに関連する技術においてデータベースをどのように活用するかという観点から研究を行った.その1つとして,話者照合システムにおいてデータ量が足りたい際の挙動の確認を定量的に行った.また,ユーザの登録用発話と照合時発話のデータ量それぞれについて5発話程度入手可能な場合と1発話のみを対象とする場合それぞれにおいての性能評価を行った.その上で,少ない発話を用いたデータ拡張に関するいくつかの手法を提案した.発話のカスケード型接続や重畳,さらにWSOLAやphase vocoderなどを用いたデータ拡張は少量でも安定した挙動が確認出来たが一方で全体的な認証精度としては不十分であった.この内容については音声研究会にて発表を行った.また,データ拡張の別の観点として,深層学習に基づく話者照合システムにおいてシステム全体に使用可能なデータ量を拡張する方法についても検討を行った.提案した非線形帯域拡張法を用いたデータ拡張はデータ量を大幅に増加することが可能であり,結果として照合結果が改善したことを国際学会でも報告した.さらに,近年データ拡張の観点で着目されている問題として,言語に依存しないタスクにおけるデータベースの言語依存性に関する調査を行った.この調査に関しては音声のなりすまし検出というセキュリティに関する研究を元に,入力音声が実際に人間によって発声されたもの(実発話)なのか,スピーカーなどなりすましによって生成された音声なのかを識別するタスクを用いた.このタスクにおいては,入力音声が実発話かなりすまし音声なのかを判別するだけのタスクであるべきだが,実際には公開されているデータベースが英語の音声であることから強い言語依存性をもっていることが考えられた.そこで本研究ではその問題点について,深層学習を用いた最先端の手法の一つを用いて評価を行い,さらに言語に関するラベルやデータベースに依存したラベルを考慮した新しいモデルを提案し,その性能が変化することを確認した.実験結果からデータベースに関する依存性の問題について警鐘を鳴らすことを行った.この研究をもとに将来的にはデータ拡張のための必要な要件としてどのようなものを考えるべきか,また,現在公開されているシミュレーションによるデータ拡張が本来のタスクを解決するためにはデータベースの質として不十分であり,シミュレーションするために必要な要件についても十分な検討が必要であることを報告した.
深層学習のためのデータ拡張として近年,時系列データに限らず様々な深層学習を適用可能な分野においてそのデータのプライバシー保護に関する議論が活発に行われている.音声についても,話者・性別・年齢・感情・発話内容など個人情報につながる情報が多く含まれており,データ拡張についてもプライバシー保護について関連して考える必要があると言われてきている.そこで本研究では,音声のプライバシー保護に関する初めての国際コンペティションについて着目し,そのコンペティションで提示されている条件をもとに軽量かつ頑健なプライバシー保護システムについて提案を行った.提案手法では,信号処理による音声加工法をカスケード型に行うことで話者性を秘匿する一方で発話内容の明瞭性については維持することを可能とした.コンペティションで定義された評価指標を基に定量的な評価を行った結果からも高い性能を有することを示すことができた.提案手法はごくわずかなパラメータで高い性能を実現可能であり,今後のデータ拡張やデータベース公開などにおいても重要な役割を担うものになると考えられる.
また,参加予定だった国際学会および国内学会がオンライン開催となり旅費が不要となったため,本来計上していた旅費の一部を物品費に変更し,実験で使用する音声データの収集のために収録機材を購入することに割り当てた.これらの収録機材は本研究課題で着目していた少量のデータベースからデータを拡張していくための初期データとして活用され,論文投稿のための初期実験等でも活用された.

024RP2020 伊藤 伸介(中央大学)
データ構造から見た公的統計ミクロデータの利活用のあり方に関する研究

本研究の目的は、諸外国における公的統計のミクロデータの作成・提供の最新の動向を捉えた上で、わが国における公的統計ミクロデータを中心とする大規模データの利活用のあり方を模索することである。そのため、本研究では、ミクロデータの安全な利活用に関する法制度的措置や技術的措置について国際的な動向を探るだけでなく、主として、わが国における公的統計のミクロデータを対象に、データリンケージの方法論とリンケージデータの利用可能性を追究することを指向している。
2020年度については、研究代表者の伊藤が「Privacy in Statistical Databases 2020」(2020年9月25日、オンライン開催)に参加し、研究発表を行った。本報告においては、アメリカを例に、公的統計の分野において、個体情報の安全性を確保した上で統計データに付与されるノイズを調整するする方法として、主に情報工学の分野で展開されてきた「差分プライバシー(differential privacy)」の公的統計への適用事例を紹介した上で、わが国の公的統計の統計表に対するプライバシー保護の可能性を議論した。
つぎに、伊藤は、研究集会「官民オープンデータ利活用の動向及び人材育成の取組(2020年度)」(2020年11月17日、オンライン開催)において、海外における公的統計ミクロデータの作成・提供および行政記録情報の二次利用に関する展開方向について研究発表を行った。本報告では、海外の公的統計ミクロデータの提供状況や行政記録情報に関する利活用の現状について報告を行うことによって、諸外国における公的統計ミクロデータの匿名化の現状を明らかにするだけでなく、行政記録データの二次利用に関する最新状況を明らかにした。具体的には、イギリスにおける行政記録のリンケージの事例、さらにはデンマークにおける行政記録データのリンケージと利活用の現状について紹介した。デンマークは、個人に関する属性情報が行政記録によって把握されており、デンマークに居住する個人に備えられた識別番号によって、各種のレジスターで登録されている様々な個人情報のリンケージが可能になっている。これらのリンクされた個人に関する行政記録情報は、個人識別番号が仮名化された上で、非識別データ(deidentified data)の形で利用することができる。さらに、デンマークにおけるミクロデータ提供の大きな特徴は、リモートアクセスを通じてのみレジスターベースの非識別データの利用サービスを行っていることにある。したがって、匿名化ミクロデータ(anonymized microdata)やオンデマンド型の集計システムは存在しない。本報告では、デンマークで行われている匿名化処理が、直接的な識別子(氏名、住所)の削除とIDの仮名化のみとなっていること、それによって、人口社会、保健衛生、所得、教育、労働市場、企業経済等の様々な分野のリンケージされた非識別データの学術目的による利用が可能になっていることを明らかにした。

025RP2020 鴨川 仁(静岡県立大学)
全地球電気回路研究のための地上大気電場観測データのデータベース化とデータ解析システ ムの開発

本研究の目的は、極域及び中低緯度で観測された大気電場データのデータベース化とデータ解析システムの開発を行うことにより、全地球電気回路研究を進めるのと同時にその気候変動への影響を調査することにある。地球は、電離圏と大地との間で全球的な球殻コンデンサーをなしており、宇宙線によってわずかに電離させられた大気を通じてこのコンデンサーはたえず放電し、雷活動あるいは降水による電荷の移動によって充電されると考えられている(鴨川,2016) 。この全地球電気回路はグローバルサーキットとも呼ばれ、気候変動に部分的に寄与しているとの指摘は古くからなされているが、現状は仮説の域にとどまっている。全地球電気回路を把握するためには全球的な地上大気電場観測データを集積して統計的に解析することが必要であるが、大気電場観測は全世界的に多地点にて実施されているものの、データベースはこれまで未整備であった。しかしながら、近年英国を中心とした大気電場観測データベース化プロジェクトGlobal Coordination of Atmospheric Electricity Measurements (GloCAEM; https://glocaem.wordpress.com/)が活動を開始し始めた。本研究の申請者らは、これまで南極・昭和基地における大気電場観測のデータ解析を進めてきている他、昭和基地との地磁気共役点にあるアイスランドでの大気電場観測も実施している。さらに静岡県立大学は,小笠原諸島の父島、最近では石川県能登半島先端珠洲市での大気電場観測データを保有している。これらの観測点は、大気電場観測のノイズとなるエアロゾル粒子等の大気汚染が少なく、全地球電気回路を監視するために好適な観測環境にある。
本年度では、2つのプロジェクトを行った。1つ目は、過去に作成したコードの改変である。Boltek社製のフィールドミルに標準装備しているソフトでの収録は、ソフトの不安定さもあってしばしばダウンすることもあった。そのため、GloCAEMフォーマットに即時変換する、独自ソフトを開発した。本ソフトは、従来型のフォーマットをGloCAEM用に変換しファイル転送する機能もあわせて使えるようにハイブリット型になるようにした。次に、音羽電機社製のフィールドミルについてもインターネット・データ収集、プロット化ができるようにした。現在はGloCAEM対応にはなっていないが、装置利用、観測安定化には貢献した。つぎに、南極・昭和基地の過去データにフォーマット変換を一括処理を施し、GloCAEMプロジェクトに参画できる体制を整えた。

027RP2020 粕川 雄也(理化学研究所)
公共遺伝子発現データの再利用性向上に資するメタデータのアノテーションおよびキュレーション効率化

DNAマイクロアレイの開発によりゲノム規模での遺伝子の発現量の測定が可能となって以来、遺伝子発現データはさまざまな研究グループにより異なる測定手法を用いて産生され、公共データベースに蓄積しつづけている。これらのデータは、仮説の構築、研究計画の立案、実験データの解釈など、さまざまな状況において幅広い分野の研究者に利用される汎用的なデータだが、その膨大さや多様さのため、それらを自らの研究に利用することは困難な場合が多い。遺伝子発現解析の基準となる各遺伝子の遺伝子発現量を簡単に検索、閲覧できるウェブツール「RefEx」(https://refex.dbcls.jp/)は、ライフサイエンス統合データベースセンター(DBCLS)が開発し公開している。理化学研究所のFANTOMプロジェクトで産生された「FANTOM5」データは、RefExで閲覧できる代表的な遺伝子発現データの一つである。FANTOM5に由来する遺伝子発現データは、ウェブブラウザ経由で閲覧できるだけでなく、データ標準化フォーマットであるRDF形式データとしても作成され配布(https://integbio.jp/rdf/?view=detail&id=refex)されている。このRefExは、現在、次期版としてこのRDFフォーマットに準拠して整理した遺伝子発現データを使って、表示、検索、可視化、比較できる機能の実装が予定されている。一方で、FANTOM5プロジェクトから算出されるデータについては、phase1データセット(細胞等のスナップショットデータ、現行RefExに収載済み)に加えて、phase2データセット(時系列データやRNA-seq/miRNA-seqデータ)が新たに追加されており、それに伴うメタデータも更新されている。しかしながら、FANTOM5データには、コンソーシアム参加者の間での表記揺れや、オントロジー情報の複雑化による付与漏れといった理由によるメタデータの一部不備も見られるという問題や、必ずしもRefEx上でのデータ統合に必要とされる情報がすべてメタデータに含まれているとは限らないといった問題がある。また次期プロジェクトであるFANTOM6データについてもRefExへの収載が予定されており、その効果的な活用のためには公共遺伝子発現データの効率的なアノテーションおよびキュレーションのノウハウの蓄積が急務である。

そこで本年度は(1)サンプル情報のアノテーションを効率化させるため、サンプル関連オントロジーを自動付与するためDBCLSで整備されたツールをFANTOMデータに適用してその評価を行った。さらに、(2)昨年度行ったFANTOMデータベースの再利用性向上を目的としたメタデータの再アノテーションおよびキュレーション結果の公開を実施した。これらは、共同研究参加者によるインターネットを通じた議論に加え、2020年9月に広島で開催された国内版バイオハッカソンにROIS-DS-JOINTの支援を受けて参加し、集中的な議論ならびに作業を通じて行った。

まず、サンプル関連オントロジー情報の自動付与を行うため、DBCLSで整備されたツールをFANTOMデータに適用し、その可用性を評価した。このツールはMetaSRA (https://metasra.biostat.wisc.edu/)というサイトのデータ構築で使用されているものをベースとしたものである。MetaSRAは米国NCBI (National Center for Biotechnology Information) のSRA (Sequence Read Archive) リポジトリに登録されたシーケンス情報のデータセットに対して、サンプルについてのメタデータを再付与することを目的としたリソースであり、MetaSRAで使用されているオントロジーターム付与のためのツールがGitHubで公開されている。DBCLSではこのツールをベースに独自の機能追加を行ったツールを作成・公開している(https://github.com/sh-ikeda/MetaSRA-pipeline)。このツールを用いることで、サンプルに関するdescriptionや key-value 形式の情報から、該当するオントロジータームを自動的に選択して出力させることができる。 実際にFANTOMのサンプル情報に適用して評価した結果、以下の知見が得られた

定量的な評価はしていないが、サンプル情報のオントロジータームについては概ね正しいと思われるものが選ばれていた。
しかし、実際の利用では一方で自動で選択されたものをそのまま使用しても問題ないか手動で確認したい。そこで本ツールを確認し、元データのどの部分をオントロジーターム選択の根拠としたかハイライトされるようにした。これにより手動での確認が容易になると考えられる。
さらにツール上ではオントロジーターム以外にも、age や sex といった情報の正規化も可能のようであり、今後も検討を進める必要がある。

次に、昨年度作成したFANTOM5サンプル情報の再アノテーションデータをFANTOMのウェブサイトのデータダウンロードページで公開した。データはFANTOM5のreprocessed セクションから入手可能である(https://fantom.gsc.riken.jp/5/datafiles/reprocessed/)。具体的にはヒトとマウスに対して、これまでのSDRF形式のメタデータファイルに対して、 Ageや Developmental stageといった項目については再アノテーション結果に差し替えるとともに、オントロジータームの割り当て情報については新規の項目として追加した。これらの成果を含んだFANTOM Web Resourceの論文の最新アップデータに関する論文をNucleic Acids Research誌に発表した (doi: 10.1093/nar/gkaa1054)。

028RP2020 Kanai Masayuki(OTHER)
ウェルビーイングに関するアジア8ヶ国での国際比較インタビューデータの整備と公開

本プロジェクトの目的は、日本を含むアジア8ヶ国で2019年~2021年にかけて実施するウェルビーイング(幸福)に関する半構造化インタビュー調査のデータを整備し、韓国社会科学資料院(KOSSDA)で研究者向けに一般公開することである。この国際比較インタビュー調査は、2017年度~2019年度ROIS-DS-JOINTの助成を受けて2020年6月にKOSSDAでデータが研究者向けに一般公開された「Social Well-Being Survey in Asia(SoWSA)」調査と同じ国際共同研究チームがおこなうものであり、データが公開されれば、ウェルビーイングに関する国際比較可能な質的データとして大きな学術的価値をもつ。
初年度の2020年度は、質的社会調査データの整備のための学術的・実務的課題を検討するために、2020年12月にROIS-DSで対面ミーティングをおこなうための各国チームの代表者向け旅費を計上していた。しかしながら、新型コロナウィルス感染症の流行にともなう日本を含む各国の渡航制限により、日本で対面ミーティングを開催することがむずかしくなった。そこで、対面ミーティングの代わりにZoomを利用したオンラインミーティングを、2021年3月28日に開催した。このミーティングでは、各国のデータ整備状況を確認し合うとともに、データ公開にあたっての技術的な課題、特に匿名性の確保の手順について検討がおこなわれた。これについてはKOSSDAでのこれまでのノウハウも共有しながら、2021年度も引き続き検討を続ける予定である。なお、旅費として予定していた経費はすべて日本調査の日本語および英語のトランスクリプトを作成するための謝金に転用し、有効に活用した。

029RP2020 神沼 英里(東京医科歯科大学)
医療アクセス制限研究の属性共起分析による類似オープンデータ順位付けとデータサイエンス応用

医療データサイエンス研究分野では、倫理審査が必要なアクセス制限研究に取り組む場合には、データ素材を入手するまでに時間が掛かる。またオープンデータの情報も少なく、アクセス制限研究の代替オープンデータをデータサイエンス初学者が探し出す事は、容易ではない。本研究の目的は、アクセス制限研究に類似した機械学習用オープンデータの探索効率化である。課題解決に向けて、アクセス制限研究をクエリとするオープンデータ順位付け手法の確立を目指して、ROIS-DS-JOINTプログラムにて3年間研究を推進した。

初年度の研究では、全国糖尿病患者電子カルテ「J-DREAMS」をクエリとするオープンデータの順位付け実験を実施した。Google Dataset Searchで糖尿病「Diabetes」のキーワード検索結果をまとめて17件の糖尿病カルテのオープンデータを得た。ただし「属性KeyのMeSH Term自動注釈」で、自動注釈プログラムを作成するには、Ground Truthとなる属性注釈データを集める必要がある。属性注釈データのテキストは非構造化データである。そこで生物医学用語MeSHのTermを手作業により、17件の電子カルテ属性情報に割り当てる作業を行い、757個の注釈データセットを作成した。この時の処理工程は、全て手作業だった。手作業の介入回数を削減しないと、オープンデータ順位付けの実用化には結び付かない。そこで2年度目の継続研究では、ランキング上位のオープンデータの統合結果から属性値予測モデルを構築し、オープンデータ活用の有効性を検証した。また全工程が手作業である提案手法の実用化は、手作業のままではコスト高である為に、オープンデータ順位付け処理の自動化を行った。まず属性予測モデル構築のために、17件の糖尿病電子カルテオープンデータについて、属性注釈MeSH Term情報を基に、複数データセットの統合を検討した。糖尿病のキーワードで得られた17件の糖尿病データセットは、属性数や被験者数はばらばらである。属性毎に割り当てたMeSH Termを分析した所、糖尿病診断に用いられるHbA1cに相当するMeSH Termでさえ、オープンデータ間の被覆率が50%程度だった。この為、17データセットの統合の検討は後にして、提案手法の自動処理化を先に検討する事とした。手作業では運用コストが高くなるので、工程を部分的にでも自動処理化しないと提案手法は実用的に使えない。自動処理化が見込めそうな工程は2箇所が考えられる。1つ目は電子カルテのオープンデータの属性情報をインターネットから取得する「Web Scrapingによるデータセット自動取得」である。2つ目は「属性KeyのMeSH Term自動注釈」で、自動注釈プログラムを作成するには、Ground Truthとなる属性注釈データを集める必要がある。Web Scrapingプログラムは、属性予測モデルを構築したのと同じくGoogle Colab環境で開発した。Colab環境ではPythonだけでなくLinuxコマンドが使えるからである。まずGoogle Dataset Searchのキーワード検索結果からURLリストを抽出して、BioMed Central等の論文Supplementalデータが得られるFigshareのURLのみに絞り込んだ。最終年度の研究では、自然言語処理技術を用いてMeSH Termの自動注釈に取り組んだ。新規にMeSH定義ファイルから定義文とMeSH Termのペアデータセットを作成した。またMeSH Term推論に用いるNLP深層学習モデルは、BERTより新しいmT5 (Xue et al., 2020)モデルを採用した。本結果はまとめている途中の為、成果はGithubから後日公開予定である。

本提案研究の全体の成果として、全工程自動化は実現できなかったが、自動化に向けたオープンデータ順位付け自動処理手法の開発、またデータスクレイピング、MeSH Term自動割当といった支援ツールの開発を行う事ができた。今後、引き続き知見の収集が進めば、オープンデータ順位付けの提案手法は、医療データサイエンス分野で機械学習モデル構築の時間コスト削減に繋がる可能性があり、研究コミュニティへの貢献が見込まれる。

030RP2020 山口 敦子(東京都市大学)
生命科学分野の巨大なナレッジグラフの活用のための圧縮インデックス調査研究

ライフサイエンス統合データベースセンターが共同研究で開発した RDF ポータル(https://integbio.jp/rdf/)に含まれるRDFデータから,以下の4つのデータセットを選んで Front Coding の性能評価を行った.()内は大まかなトリプル数であり,BはBillion, MはMillionを指す.
1. DBKERO RDF (11B)
2. jPOST database RDF (239M)
3. RefEx RDF (123M)
4. Quanto (107M)
Front Coding のツールとして,SD(Front Coding のC++ライブラリ.https://github.com/WikiBox/SD)を用いた.Front Codingはバケットと呼ばれる区切りの長さによって性能が変わり,バケットが長いほど圧縮率が高いが検索速度が遅くなることが知られている.そこで,バケットの長さ(以下,Bと表す)を256, 512, 1024, 2048として,上記データセットに含まれるURIの圧縮後のサイズと検索速度の調査を行った.

圧縮の結果は以下のようになった.
DBKERO RDF 未圧縮:19GB, B=256: 1.33GB, B=512: 1.29GB, B=1024: 1.27GB, B=2048: 1.26GB
jPOST database RDF 未圧縮:510MB, B=256: 39.6MB, B=512: 38.5MB, B=1024: 38.0MB, B=2048: 37.7MB
RefEx RDF 未圧縮:832MB, B=256: 65.3MB, B=512: 63.5MB, B=1024: 62.6MB, B=2048: 62.1MB
Quanto 未圧縮:113MB, B=256: 21.5MB, B=512: 21.3MB, B=1024: 21.2MB, B=2048: 21.1MB
この結果から分かることは,未圧縮時のサイズに関わらず,バケットの長さが長くなると徐々に圧縮後のサイズは小さくなるが,その変化は十分バケットサイズが長ければ少なくなるということである.

検索効率については,各データセットのURIリストからランダムに100のURIを選び,そのURIをリストから検索する時間を計ることによって行った.検索時間の平均時間(単位はマイクロ秒)は以下のようになった.
DBKERO RDF B=256: 62.3, B=512: 63.8, B=1024: 70.5, B=2048: 104.0
jPOST database RDF B=256: 67.5, B=512: 41.6, B=1024: 44.9, B=2048: 67.4
RefEx RDF B=256: 23.7, B=512: 43.3, B=1024: 39.1, B=2048: 60.8
Quanto B=256: 34.0, B=512: 54.3, B=1024: 90.6, B=2048: 168.1
この結果より,データセットによって差があるものの,バケットの長さが長くなれば検索速度は遅くなり,特にバケットの長さが2048のときにはかなり遅くなる傾向を見ることができた.

さらに,バケットの長さをかなり短くしたB=16の場合の圧縮サイズと検索時間も計測した.()内はB=256のときの値である.
DBKERO RDF 圧縮後 2.51GB (1.33GB), 検索時間 31.0 (62.3)
jPOST database RDF 圧縮後 72.7MB (39.6MB), 検索時間 19.5 (67.5)
RefEx RDF 圧縮後 119.7MB (65.3MB), 検索時間 19.2 (23.7)
Quanto 圧縮後 27.8MB (21.5MB), 検索時間 19.5 (67.5)
計測結果より,圧縮サイズはかなり大きくなる一方,検索速度はかなり速くなっていることがわかる.

現状の結果からは,これらのデータセットに対して圧縮効率と検索速度のトレードオフのつり合いを考えると,上記のバケットの長さの中では,256や512にすることが望ましいと思われる.本件についてはより詳しい調査を今後も進めていきたい.

また,上記データセットからRefExを除き,BMRBを加えて,各データセットのURIのリストに対し,名前空間の一様性についても調査を行った.URIのスキームに続く文字列に対し,”/”で区切って先頭側から見ていった場合,どの程度同じ文字列が現れるかを調査した.ここには,トリプルの主語として現れるURIに対し,先頭側から二つまで見ていった場合,何種類の文字列が現れたかを示す.
DBKERO RDF 先頭から1つめ: 8種, 先頭から2つめ: 10種
jPOST database RDF 先頭から1つめ: 2種, 先頭から2つめ: 4種
Quanto 先頭から1つめ: 1種, 先頭から2つめ: 1種
BMRB 先頭から1つめ: 12種, 先頭から2つめ: 24種
このように,URIのスキームに続く文字列に対し,先頭側の多様性は著しく低いことが示された.この性質を利用し,Front Codingよりも生命科学分野のナレッジグラフに向いた圧縮技術を提案し,さらに本調査で示したFront Codingのベースラインと比較することが今後の課題である.

なお、予定していた国際会議が新型コロナの影響で中止になったため、当初予算の旅費を取りやめるとともに、新型コロナ影響下におけるRAの雇用が制度上難しかったため、その作業を外注に依頼した。

031RP2020 橋本 真美(地震予知総合研究振興会)
極域地球科学データのWikiによる情報共有システムの構築

これまで我々は南極昭和基地及び周辺露岩域で地震観測、インフラサウンド観測や映像観測といった複数の観測を並行して実施してきた。蓄積されてきた観測データは国立極地研究所の学術データベース等で順次公開されているが、観測そのものに関する情報の共有は不十分であった。観測で得たデータを利用して研究を行うには観測点の状況やデータ欠測の情報など、「どこでどのように収録されたのか」という周辺環境の情報も必要となる。また、観測機器や観測場所の変遷という情報も長期間にわたって解析を進める上では重要である。近年データ公開環境が整備されデータそのものはダウンロード可能であるが、実際に計測された物理データ以外の情報共有は十分とは言えなかった。さらに、継続して質の保たれたデータを取得するには観測点のメンテナンスは必要不可欠であるが、我々の観測は様々な機関の研究者が関わり毎回実施者が異なるという環境下にあり、継続した情報共有が課題となっていた。そこで本研究では、まず観測点の保守・運用に関わる情報を集約して共有することを目的とし、観測データ及びそれに関わる解析上必要な情報を速やかに提供できるようにすることで、データ利用者が効率よく研究が進められるような公開システムを整備した。

1.サーバアプリとしてのWikiの選定と導入
Wikiはwebブラウザ上での編集が可能で、一度環境を整えてしまえば比較的容易に誰でも情報を更新することができる。観測点やデータの異常に気づいたその場で情報をアップデートすることが可能であり更新の停滞が起こりにくい。共有する情報は内容により公開範囲が異なることが考えられるため、適切な公開範囲が設定でき、どこからでもアクセス可能、無料という条件のもとGitLabのWikiを利用した。

2.共有する情報の整理(波形データ、観測点情報、保守情報、他)とWikiへのアップロード
Wikiにはグループ内で保存されていた過去の報告書及びメール履歴から必要事項を抜粋し、これまでの経過がわかるような形で整理し記載した。またgitコマンドを利用して定期的にバックアップをとっている。システム構築後は各担当者が適宜情報をアップデートして運用を開始している。

3.公開用データの再整備
データに関する情報の整理に合わせて公開用データの見直しを実施し、変更が必要な点や今後の方針を整理した。

本共同研究の実施により、観測データに関する情報の更新が適切に行われ、かつ共有される状態が整えられた。観測の継続したデータ取得・提供につながり、公開データに必要な情報も整理されたことで利便性に優れたデータ提供が可能となった。公開システム整備後はデータや観測点に関する問い合わせに対しても、素早く対応できた。今後、観測データが広範かつ効率的に解析に使用されることが期待される。

予算の旅費に関しては、従来はデータ関係の打ち合わせを対面で行っていたため打ち合わせ等を想定していたが、新型コロナウイルスの影響で全てオンライン会議を利用したため使用しなかった。役務費に関しては、収録データに関する整備も想定して計上していたが、情報を整理していくなかで検討しなければならない事項が増え、すぐに実施するのは適当ではないとの判断により、外部へ委託する可能性のあった作業を実施しなかったため使用していない。

032RP2020 庄 建治朗(名古屋工業大学)
古日記天気記録の定量化に関する研究

1.本研究の目的
上記の古日記の天気記録は,観測データが存在しない歴史時代の水文気候環境を推定するための代替資料として広く活用されている。ただしその記述は定性的で,客観性に乏しいと考えられてきたため,これを降水量等の量的変数に変換するためには様々な仮定を必要とし,また本来は日単位ないしそれ以上の時間分解能をもつ天気情報を月単位や季節単位などに積算して用いられるのが一般的である。しかし,これまで日記天気記録の精度や客観性が具体的に評価されたことはほとんどない。本研究の目的は,日記天気記録と気象観測データを直接比較することにより,日記天気記録の質を評価・分析した上で,一般人が日記に記す「天気」の判断基準を可能な限り詳細に明らかにすること,さらにそれを踏まえて定性的な天気記録を定量的な気象変数へ変換する手法を構築し,日記天気記録のもつ精度・時間分解能を最大限に引き出す気候復元手法を見出すことにある。

2.研究の手順
上記の目的のため,今年度は以下の作業・検討を行った。
a)古天気記録の収集整理
歴史時代に近い条件下で記録されたと考えられる,観測時代初期の明治・大正期の古日記天気記録を収集整理した。昨年度までに収集済みの「西川日記」「村西日記」ほか京都・滋賀周辺の8日記に加え,東京周辺で記録された「地福寺日並記」「梅若日記」「石川日記」の翻刻本から毎日の天気に関する記述の抽出整理を進めた。また,これらの資料を含め,研究グループのメンバーがそれぞれ集約を進めてきた古天気資料に関する情報を,受入教員の市野美夏助教らが整備を進めている「れきすけ」(歴史資料に関する知識と経験の共有システム,https://rksk.ex.nii.ac.jp)に登録し,歴史資料を扱う研究者間の情報共有の円滑化を図った。
b)気象観測データの収集整理
a)で収集した天気記録と照合する気象観測データの収集整理を進めた。明治・大正期の気象観測データは,手書き気象観測原簿の画像データでしか得られない場合が多く,解析に用いるためにはそれらをデジタル化する必要がある。今年度は,観測開始から1925年までを対象期間として,天気記録の記録地点から近く長期間の観測データが得られる,東京,彦根,京都,大阪についての降水量と日照時間の入力整理に重点を置いた。降水量については,日別のデータだけではなく,時別または4時間ごと(1日6回観測)のデータの入力作業も進めた。
手書き気象観測原簿の画像データは,気象業務支援センターからCD-ROMまたはHDで頒布されているが,これらは原簿をページの順に写真撮影しフォルダにまとめただけのものであり,参照したい観測要素・期間を検索するのに手間がかかる。そこで,これらの原簿画像データを国立情報学研究所で運営するウェブサイト「デジタル台風」の歴史的データアーカイブ(http://agora.ex.nii.ac.jp/digital-typhoon/data-archive/)に登録し,IIIFビューアで閲覧できるようにした。これにより,ファイルを次々と開き移動する操作が容易になるとともに,拡大表示した箇所が次に開いたファイルでも引き継がれることで,デジタル化作業の効率が格段に向上した。
c)天気記録と気象観測データの関係の解析
a)とb)で整備したデータを照合し,天気種別と気象観測値との関係を解析した。これには様々な観点や手法が考えられるが,今年度は天気記録の「詳細率」(庄ら,2017)と降水記録精度の関係の解析に重点を置いた。

3.結果
日記に記載される天気の判断基準は,記録者により大きく異なる可能性があるが,ここでは記録者の天気観測精度の指標として,天気記録の「詳細さ」に着目した。
対象とする日記の対象とする期間について,天気記録の総日数のうち,「晴」,「雨」等と一つの天気種別が一語で記載されているのではなく,例えば複数種類の天気が並記されていたり,天気の時間変化に関する記述があったり,「大雨」など降水の規模に関する情報が含まれている等,より詳細な記録がある日数の占める比率を「詳細率」と定義する。また,対象とする日記の対象とする期間について,同じ期間の日降水量データと比較した場合に,日降水量が閾値以上となる日数が,日記に何らかの降水現象が記録されている日数と等しくなるような閾値を設定することができる。その閾値が日記における降水記録の精度(どのくらい小規模な降水まで記録されているか)を表すと考える。
図1は,明治・大正期に京都・滋賀周辺で記録された8日記について,天気記録の詳細率と,降水記録の閾値との関係を散布図で表したグラフである。詳細率と閾値との間に明瞭な負相関(相関係数 –0.89)を認めることができる。このことは,日記記録者により降水を記録する基準・精度は大きく異なるが,その差異のかなりの部分は天気記録の詳細さによって説明できることを示している。天気記録が詳細であるほど小規模な降水まで記録されていることは当然予想されることではあるが,その関係が客観的に示されたのは(おそらく)初めてである。
さらに,図1では日記ごとに全期間を通した詳細率と降水記録の閾値を求めたが,1つの日記を多くの期間に分割し,その期間ごとに詳細率と閾値を求めた。図2は、図1で用いた8日記のうち,「西川日記」と「村西日記」(どちらも記録期間1900-1912年)について,1年ごとの詳細率と閾値を表したグラフである。「西川日記」では目立った傾向的変動は見られないが,「村西日記」では経年的に詳細率が低下しており,一方で閾値には上昇傾向が見られる。また図3は, それぞれの日記について月ごとに分けて求めた詳細率と閾値である。「村西日記」では季節ごとの差異はあまり見られないが,「西川日記」では冬から春にかけて詳細率が低く、夏から秋には高い傾向が見られる。閾値はそれとは逆に,冬から春の方が夏から秋よりもやや高い。図4は,年別または月別に求めた詳細率と降水記録閾値との関係を散布図に表したグラフである。年別のデータでは「村西日記」に,月別のデータでは「西川日記」に,それぞれ逆相関の関係が見られる。このように,異なる日記間だけでなく,同じ日記内の異なる期間や季節間でも詳細率と降水観測閾値との間に逆相関の関係が認められたことは,詳細率が異なる天気記録者間だけでなく,同一記録者の時期や季節による天気観測基準の差異も調整する普遍的な指標となり得る可能性を示唆するものといえる。

4.今後の課題
手書き気象観測原簿をデジタル化する作業は,今年度の共同研究でかなり進展したが,入力ミス等を点検する作業がまだ不十分である。また,時別または4時間ごと(1日6回観測)の観測データの整備を進めて時間帯に分けた解析を行い,日記に記された天気が主にどの時間帯の現象を記録しているのか,記録者による差異がどのくらいあるのかなど,日記天気記録と気象観測データとの対応関係をより詳細に検討する必要がある。
今年度は,日記天気記録による降水量復元の精度向上を目的とした検討を中心に行ったが,今後は詳細率を用いて天気判断基準の差異を調整する手法が日射量の復元にも適用可能かどうかについても検討していきたい。そのためには,日照時間や雲量について手書き観測原簿データのデジタル化を進めるとともに,詳細率の定義を降水量の復元を目的とする場合と異なるものにする必要があるかどうか検討することも課題となる。特に,「快晴」,「晴」,「天気よし」等を区別すべきかどうなのか,それぞれの天気種別と雲量や日照時間の観測データとの対応に有意な差があるのかどうか,さらに資料を増やして様々なケースについて検討する必要がある。

033RP2020 山本 真行(高知工科大学)
南極インフラサウンド観測データ収録公開システムの構築

南極・昭和基地および周辺地域において、2008年より観測を継続しているインフラサウンド観測結果について、その全データを国立極地研究所のデータベース内にアーカイブしているが、このデータを一般公開するためのWeb表示ツールを作成した。
具体的には、2008年(JARE49)の設置以降2011年までの期間は昭和基地のみ1センサーによる単独観測、2012年(JARE54)以降には昭和基地では計3センサーによるアレイ観測を実施してきた。さらに昭和から概ね200 km圏内の内陸氷床上やリュツォ・ホルム湾周辺露岩の地域においても単独またはアレイ観測を実施しており、現状では昭和基地およびラングホブデでは継続的なモニタリング観測を実施、それ以外の場所ではプロジェクト観測を行っている。
これらのデータセットは、昭和基地の観測においては衛星回線経由で翌日には参照できる状態で逐次アーカイブされており、昭和基地以外の周辺地域の観測データはJARE観測隊員が訪問時に回収し帰国後に過去1年分などのデータを追加する形で蓄積されてきた。
本テーマでは、これら全地点の南極インフラサウンド観測データをすべてオンデマンドでグラフ化できるWebページを作成し、国立極地研究所 昭和基地・周辺 インフラサウンド データアーカイブとして公開する仕組みを構築した。
2008年以降の各地点での連続観測データのうち欠測期間を除く全データについて、微気圧波形のグラフを参照できるよう整備した。以前のバージョンでは横軸(時間)は1時間で固定としたが、今回は15秒から1週間の時間範囲で選択可能な仕様とした。表示開始の日付・時刻(時、分、秒)をWeb上で指定し、当該時刻から指定時間範囲分の各センサーのグラフが計3地点まで同時表示できる。なお衛星回線経由で準リアルタイム収集している昭和基地の最新データについては、観測システム側では日本時間の昼12時半頃に前日分の全データが転送される仕様のため、その直後から前日分のデータが参照できる。

国立極地研究所 昭和基地・周辺 インフラサウンド データアーカイブ
http://infrasound.mydns.jp/isound3/index.php