「ROIS-DS-JOINT 2019」成果報告一覧表

一般共同研究

001RP2019 加藤　太一郎（鹿児島大学）
日本産ゲンジおよびヘイケボタルのゲノム解析の完成

本課題の⽬的は、⽇本産ホタル(ゲンジボタルおよびヘイケボタル)という遺伝⼦資源についてゲノム情報の全体像を明らかにすることであった。そのため本研究では、①これまでのシーケンス解析によって得られた⽇本産ホタルのゲノム配列に対する遺伝⼦アノテーションを完了すること、②ゲンジボタルとヘイケボタルの遺伝⼦構成の⽐較を⾏うことで⽇本におけるホタル進化の過程を明らかにすること、の2点を遂⾏することを⽬指した。このことにより、未解明のままだったゲンジボタルのゲノム情報の全貌を明らかにできると共に、本研究の進展によって地域間および地域内の遺伝⼦多様性を体細胞DNAレベルで⽐較できるようになり、⽇本各地にホタルが進出していった経路をより正確に推定することができ、また、発光周期の違いのような表現型を決める遺伝⼦解明の加速化を期待した。研究実施の結果、ゲンジボタルゲノムDNA解析についてアノテーションを完了しDDBJに登録することが出来た(NCBI/DDBJ BioProject number: PRJDB7197)。今後は論文執筆を行っていく予定である。
本研究期間中、以下の日程にて野口英樹特任教授との研究打ち合わせ、および同研究室での解析実習を実施した。

2019年9⽉9⽇〜11⽇：加藤、小野、柴田の3名での解析実習事前打ち合わせ
2019年10月28日～11月28日：柴田派遣による解析実習
2020年2月17日～19日：平石、柴田の2名派遣による解析実習
2020年3月23日～25日：加藤が打ち合わせのため訪問する予定であったが、コロナウイルス感染拡大懸念のため予定をキャンセル

002RP2019 坪井　誠司（海洋研究開発機構）
昭和基地地震観測網を用いた機械学習による震源決定法開発

本研究の目的は、昭和基地周辺の地震活動を監視し震源決定を行うために地震観測波形を蓄積している昭和基地地震観測網の地震観測波形を用いて、機械学習による震源決定手法の開発を行うことである。機械学習による震源決定手法には申請者等が開発中の理論地震波形記録を教師データとした深層学習による手法を用いる。南極の地震活動は地殻内部で発生するテクトニック地震や氷床内で発生する氷河地震など様々な種類があり、それぞれの発生位置や規模を正確に決定することは地震活動を定量化する上で不可欠である。しかしながら、南極大陸内部における地震活動は低調であり、多くの地震は南極プレートの境界となる海嶺付近で発生している。また、1998年バレニー地震のように、これまで大きな地震が報告されていなかったところで地震が起きることも報告されている。地震活動が低調であることから、過去に地震が起きていなかった場所で今後も大きな地震が起きる可能性は否定できず、過去の観測に頼らずに震源決定を行うことが可能となる手法は有効となることが期待できる。
本研究では、昭和基地地震観測網および南極大陸内で記録された地震波形データを用いて、震源決定を高精度で自動化する可能性のある機械学習を用いた手法の適用を試みる。この手法では、機械学習で用いる教師データを理論地震波形記録により構築することが特徴となっている。理論地震波形記録の計算には、地震を仮想的に任意の場所に設定することができるので、過去の地震活動の履歴を考慮することが必要とならない。また、地震の規模等についても、理論地震波形記録計算を現実的な計算時間で行うことができる範囲ではあるが、自由に決めて機械学習のための教師データを構築できる点に大きな利点があると考えられる。今年度は、機械学習による震源決定手法を南極大陸地域に適用するための準備として、これまでの南極大陸及びその周辺域における地震活動の定量化を行うために、国際地震センター(ISC)の地震カタログから、南極地域の地震とその余震活動を抽出することを行った。解析には、ISC地震カタログの1904年から2019年までの、南緯60度以南で起きた地震8744個を抽出した。抽出した結果の1998年バレニー地震周辺域についての地震活動を図1に示した。バレニー地震の余震活動は周辺のテクトニクスとは関連のない断層に沿って起きているように見える。このことは、バレニー地震のようなこれまで観測されたことのない地震の観測には従来の手法のみでは不足となる可能性があることを示している。また、南極プレート内で起きる地震は深さは浅く、それぞれが単発で発生し、余震活動もあまり見られないことも分かった。
このような南極大陸周辺地域の地震活動を基にして、機械学習による震源決定手法を検証するために、必要となる教師データの構築について考察を加えた。機械学習を用いる場合、前提条件として、一般に、教師データとなるビッグデータを保有しているか、または機械的に大量生成できるかという点が、精度実現に必要となることがよく知られている。一方、地球科学分野へ機械学習の応用においては、観測データを収集して教師データを作る場合に、極端現象のデータ量が不足することが課題となる。例えば、巨大地震のように稀な現象の学習は困難である。そこで我々は理論地震波形記録を基に教師データを作成することを考えた。ここでは、理論地震波形記録から作成した地表における地震波伝播画像を基にして震源パラメータを推定するニューラルネットワーク(人工知能と言い替えることも出来る)を構築することを考えた。機械学習によりニューラルネットワークを構築するためには、前述のように大量の教師データが必要となる。活発な地震活動と稠密な地震観測網が存在する日本列島のような地域では、多くの地震波伝播の画像を地震波の観測データから構築することが出来る。しかしながら、その場合でも地震の起きる場所とそのメカニズムはほぼ決まっているので、地震数を増やしても教師データとして適切な多様性が得られるわけではない、一方、理論地震波形記録は、任意の震源位置およびマグニチュードの地震に対して計算することが出来るので、大量の理論地震波形記録を計算し、教師データとして用いた機械学習を行うことで機械学習の精度を容易に向上させることが可能となる。また、南極大陸のように地震活動が活発でない地域で起きる地震や、大地震のように観測記録が少ない地震に対しても教師データを用意することが出来る等が長所となると考えられる。
理論地震波形記録を数値的に計算するための手法には、差分法や有限要素法など様々なものが存在する。これまでは、地殻やマントルの不均質性を考慮に入れて数値的に計算する場合、膨大な計算資源が必要となるために現実的な地球モデルに対する計算はあまり行われてこなかった。しかしながら、21世紀に入ってから、いわゆるスーパーコンピュータと呼ばれる高速大容量計算機の進展に伴い、現実的な地球モデルに対する計算が行われるようになった。ここでは、大規模並列計算機に適した手法の一つであるスペクトル要素法を用いて、地球内部地震波速度3次元構造を考慮した理論地震波形記録を教師データとして用いることを考えた。理論地震波形は、スペクトル要素法のSPECFEM3D_GLOBEを用いた。 SPECFEM3D_GLOBEは全球を伝播する地震波形を計算するためのプログラムであるが、地球を6個のブロックに分けてモデル化するので、その一つのブロックを使うことで地域的な理論地震波形記録を計算することが出来る。このようなプログラムを使うことで、地域的な理論地震波形記録計算においても、地球の曲率を考慮に入れた正確な計算を実行することが可能である。震源決定手法を開発するための領域としては図2に示した南極大陸地域を対象とし、震源決定を行うニューラルネットワークを構築するための理論地震波形記録による教師データの構築について検討した。教師データとして用いる理論地震波形記録は、海洋研究開発機構・地球情報基盤センターが運用するスーパーコンピュータシステムの256個のCPUコアを使って計算した。計算に用いた3次元地球モデルはS20RTS、理論地震波形記録の精度は周期17秒である。 S20RTSモデルは全球のS波速度3次元モデルであり、周期17秒という長周期の実体波を用いて推定を行うので、3次元モデルとしてはこのような長波長モデルで十分と考えられる。
教師データの生成には、震源を図2の領域に緯度方向、経度方向、および深さ方向に適切な間隔で配置し、それぞれの地震に対して0.2秒間隔で2分間の理論地震波形を、南極大陸状に存在する図2の緑丸の観測点に対して計算し、地表における地震波伝播画像を生成することとした。作成した教師データに基づいたニューラルネットワークの構築は今年度は間に合わなかったので、次年度に行う予定である。

003RP2019 中川　正樹（東京農工大学）
古典籍の漢字仮名混じり文の認識と文脈活用のための調査研究

本研究の究極の目的は日本古典籍の機械認識である．そのために，深層ニューラルネットワークによる文書画像からの行切出し，CNNによる特徴抽出，LSTMとCTCによる文章行の認識，CTCへの言語文脈の導入を計画している．このことにより，日本古典籍の自動認識を，内容がある程度分かるレベルにまで高めることが期待できる．
2018年度には，漢字仮名交じり文の認識を実験し，文字認識率84％を達成し，また，FCN (Fully Convolutional Network)を用いた文書画像からの文字行切出しを試作し，画素レベルで91%の切出し率を得た．
2019年度は，行切り出しをせずに複数行のテキスト画像を認識するため, 注意メカニズムによる畳み込みシーケンス変換 (Attention-based convolutional sequence to sequence: ACseq2seq) モデルを提案した．ACseq2seqモデルは，特徴抽出層とエンコーダ，デコーダの三つの部分からなる．第一層の特徴抽出層ではCNNによって入力画像から特徴の列を抽出し，第二番目のエンコーダではBLSTMによって特徴列を上位の特徴列にエンコードし, 3番目のデコーダではLSTMと注意メカニズムによってエンコードした上位特徴列を文字列に変換する．実験では，第21回PRMUコンテストのレベル2 (１行のテキスト画像)と3 (複数行のテキスト画像)を対象にACseq2seqモデルを評価した．レベル2の評価セットで約96％の文字認識率，レベル3の評価セットで約87％の文字認識率を達成し，最高認識精度を更新した．
文字行の切り出しでは，学習画像が2,222しかないことから，むしろ，CNN層を4つ省き，パラメータ数を4700万から1000万に減らして学習することで，学習を高速化し，過学習をなくし，精度を 98.75%にまで高めることができた．
なお，昨年に引き続き，海外における歴史文書のディジタル化の動向調査も計画したが，予算の制約や新型コロナウィルスの影響などから実施できなかった．CTCへの言語文脈の導入も今後の課題である．

004RP2019 堤田　成政（埼玉大学）
地理的加重モデルによる多変量地理空間データ解析

本研究プロジェクトは、地理空間上の局所的な特性を柔軟に捉える方法として知られる地理的加重モデルの発展を目指し、[A]多様な地理空間データのためのGWモデルの構築、[B]地理空間データの統合解析に向けたGWモデルの構築、[C]大規模地理空間データや時空間データのためのGWモデルの実装、を目的としている。 2019年度は、2018年度に着手し、開発を進めてきた以下の点においてさらなるツールの開発およびケーススタディへの適用を実施し、研究発表やソフトウェアの公開をすすめてきた。具体的には以下の通りである。

[A]　地理空間データのなかでもカウント、組成、順序といった特徴のあるデータ解析をするための地理的加重一般化線形回帰(GW generalized linear regression)の開発を進めた。組成データの地理的加重一般化線形回帰への適用に関する技術開発に関しては、2020年度に開催予定であるThe XIV World Conference of the Spatial Econometrics Association 2020において発表予定である。また、順序データの地理的加重一般化線形回帰への適用に関しては、京都大学数理解析研究所研究集会（RIMS）「生物数学の理論とその応用」内のシンポジウムModel spatial heterogeneity in environmental and ecological processesで発表した。

[B]多変量の地理空間データを統合解析するための地理的加重非負値主成分分析(GW non-negative PCA)の開発を進めた。本開発ツールは、GithubおよびCRAN(https://cran.r-project.org/web/packages/GWnnegPCA/index.html)においてRパッケージを公開した。また、国際学会Geocomputation 2019での口頭発表およびプロシーディングスの発表に加え、国際論文の投稿を準備中である。地理的加重半偏相関分析 (GW semi partial correlation)については、探索的分析を容易に実施するためのインタラクティブなマップツールの開発を進めた。このマッピングツールは29th International Cartographic Associationでポスター発表を実施したことに加え、FOSS4G 2019 KANSAI.KOBEではポスター賞を受賞した。現在は本内容をまとめ、International Journal of Geographical Information Scienceへ投稿中である。

[C] 高解像度化する大規模地理空間データや高頻度化する時空間データへの応用に向け、[A]、[B]の発展として、GWモデルにおける大規模データ処理のための高速化のアルゴリズムの開発および実装をすすめ、scgwr(https://cran.r-project.org/web/packages/scgwr/index.html)としてCRANでツールを一般公開した。同ツールの2019年度のダウンロード数は3,011回であり相当程度の利用があったことを確認している。また同共同研究プロジェクトの一環で2018年度末に招聘したBinbin Lu講師（武漢大学）との協働で、同様のアルゴリズムをさらに約8倍高速化した上で、関連分野の主要パッケージであるGWmodelに実装・公開することができた。また、arXivでの論文発表を実施し、Annals of the Association of American Geographersへの採択が決定した。

上述の成果に加え、RIMS共同研究「生物数学の理論とその応用」においてシンポジウムModel spatial heterogeneity in environmental and ecological processes (https://tbmaxvi.weebly.com/day4.html)を開催し、本プロジェクトの成果報告を総括的に実施した。プロジェクトとしては２年目であり、着実に成果が生まれている。現在投稿中および投稿準備中の論文がいくつか見られることから、来年度も引き続き本プロジェクトをすすめていき、地理的加重モデルを通じて多変量地理空間データ解析の発展に貢献していきたい。

006RP2019 天竺桂　弘子（東京農工大学）
昆虫由来化合物の新奇な構造を創る代謝酵素CYPの同定

・・・非公開・・・
これまでの共同研究により、昆虫の代謝系を経ると植物由来成分の生物活性が変化すること、この現象には植物由来成分の代謝酵素（CYP）が関与することを明らかにしてきた。この昆虫CYPは複雑な化学構造を持つ植物由来成分の側鎖構造を変化させ、生物活性の変化に寄与する。昆虫CYPの機能を解析し、化合物の化学構造の側鎖変換に利用することができれば、産業における利用が可能である。このためには、食性が異なる昆虫CYPのアミノ酸配列を比較解析し、それぞれの昆虫CYP機能を推定することが必要であるとともに、どのように昆虫CYPが植物由来成分を代謝するのか、というプロセスの推定が必要である。近年、大規模データを処理する技術の飛躍的な進歩と、公共データベースの情報の利用が可能となったことから、モデル昆虫のトランスクリプトームデータを公共データベース経由で取得することが可能となった。しかし、特別な食性を持つ昆虫のトランスクリプトームデータに関しては、独自に解析し、データベースに含める必要がある。本年度は、特別な食性を持つ昆虫種を加えてデータベースの予測精度を向上させることを目的とし、研究を行った。
天竺桂と坂本は、特別な食性を持つ昆虫の組織を収集するとともに、それらをトランスクリプトーム解析に供し、昆虫の代謝機構の特性解析を実施した。これらの成果については、国際科学誌Developmental Biology, BMC Genomics, Scientific Reportsに報告した。坊農博士は、昆虫CYPの機能比較の解析手法を開発するとともに、NGSデータベース(SRA)にある昆虫のトランスクリプトームデータを再解析し、食性が異なる昆虫由来のCYPアミノ酸配列を抽出・比較し、機能を分類した。昆虫比較トランスクリプトームの成果については2020年3月に国際科学誌BMC Genomicsに投稿した。
一方で、仲里博士は、食草成分が昆虫の代謝を経て生物活性が変化することに着目し、食草成分の薬理活性と昆虫の種類の情報を紐付けし、これをデータベース化した。中野は、このデータベースから選択した昆虫の代謝物成分と食草成分を比較し、昆虫の代謝産物成分において、生物活性が変化することを確認した。これらの成果は、2020年5月頃Scientific Reportsに投稿する。
新堰は、昆虫CYPのアミノ酸配列の特徴、機能、代謝産物の情報の統合に向けて、特殊な食性を持つ昆虫CYPの同定と機能比較を行い、詳細に機能を分類した。その後のパスウェイ解析により、１つの植物由来成分に対して複数の昆虫CYPが連続的に関与する可能性を見出した。今後は、どのような順序で昆虫CYPが植物成分を代謝するのかについて、実験的手法を用いて確認するとともに、昆虫代謝酵素を複数組み合わせて化合物の側鎖を変換する技術開発に引き続き取り組みたい。

007RP2019 深沢　圭一郎（京都大学）
観測・数値シミュレーション・機械学習の融合による宇宙プラズマ現象予測モデルの開発

本研究では、飛翔体宇宙プラズマ観測データとプラズマ数値シミュレーションを、機械学習によって統合的に解析することで、低空間次元・小観測数・単地点観測（=時空間変動分離が困難）という観測データを時空間拡張し、環境変動を抽出することを目的としている。究極的には、この時空間拡張されたデータを、数値シミュレーションと融合させることで、観測したい宇宙プラズマ現象がいつどこで起きるかを予測するモデルの構築を目指している。
　本年度は3年の研究期間の2年目であり、1年目に準備した観測データと数値シミュレーションデータに対して機械学習で利用できるように地理的変換などのデータ整正作業を行った。特に、観測データでは、同時刻の複数箇所におけるオーロラ地上観測画像を緯度経度など地理的に正しく合成することで、地球の極域に広がるオーロラの構造を再現した。画像の書式などが定まった後は、機械的な作業になるため、東北大学と九州工業大学の学生に役務として、作業を依頼した。数値シミュレーションでは、磁気圏全体の計算結果から、観測と対応する極域のオーロラ画像（上向き沿磁力線電流）を生成した。物理的には、この上向き沿磁力線電流が一般的なオーロラに対応すると考えられているが、下向き沿磁力線電流がブラックオーロラに関連している示唆もあるため、下向き沿磁力線電流のみ、上向き＋下向き沿磁力線電流のデータもそれぞれ生成した。ブラックオーロラは、オーロラが出ている時に、そのオーロラと対となるオーロラが見えない領域であり、その意味から、上向き沿磁力線電流と対となる下向き沿磁力線電流が発生理由の1つと考えられている。 “これら準備したデータのみ”を訓練データとし、欠損のあるオーロラ観測結果を復元していく。これらのデータセットに関して、本共同研究の目標と共に深沢が代表としてAGU Fall Meeting 2019において、ポスター発表を行った。このような研究開発は、他では行われておらず、興味を持って発表を聞いてもらえることが多かった。特に観測に対応した数値シミュレーションの結果をまとめたデータセットは存在しないため、使いたいという要望もあった。太陽地球惑星系物理分野では、Planetary Data System（PDS）と呼ばれる観測データの利用ツールがあるが、こういうところに導入されるとありがたいというコメントもいただいた。 PDSは責任者が別研究の共同研究者なので、議論を進めていくことになった。
　こちらで準備したデータのみを利用する理由は、いわゆる機械学習は様々な画像データを学習し、そこに現れる特徴を認識し、推定しており、この際、特徴とはデジタルデータ上の何らかの集合（形状）であり、その集合が物理法則に従っているかは不明であるためであり、科学的に利用する場合には、この物理法則の担保が必要となる。本研究ではこの問題に対し、物理法則に従って、データを作成する数値シミュレーションのみで学習を行うことで、数値シミュレーションと同程度の物理的担保を実現することを目指している。
　また、1年目で実行したシミュレーションでは、THEMISによる観測キャンペーンが行われた期間の太陽風データを入力としたMHDシミュレーションを行ったが、本年度では、これを更に進めて、木星探査機Junoの観測結果に対応するために、Junoが観測をしているある特定期間の磁気圏シミュレーションを行った。 Junoでは木星到着前に太陽風データも観測しており、この太陽風データを利用し、現実的な入力パラメータでのシミュレーションを行った。このシミュレーション結果と観測には、相関があることが分かり、観測結果の説明に利用できることを確認した。これらの成果はAGU Fall Meeting2019において木村により報告されている。
　来年度は、昨年度実験的に結果を得ている見かけ上の復元を行った、いわゆる通常のGANを利用した復元モデル（観測データや数値シミュレーションデータを利用しておらず、オープンなデータセットを利用した場合）を応用し、本年度準備した訓練データのみを使い、モデルを調整し、物理的正しさを保証したオーロラ画像欠損復元を目指す。

008RP2019 馬場　壮太郎（琉球大学）
南極岩石試料レポジトリの確立によるデータサイエンスへの応用

天然の地質や岩石の分布は多様・不均質であり、採取する岩石試料は研究対象とする地質の一部を研究者が意図を持って切り取ったもの（トリミング）したものである。そのため、岩石試料だけ、あるいは、試料のカタログだけでは、岩石試料の情報として不十分であり、データサイエンスの観点で岩石試料を取り扱う際には、野外での産状や岩石の記載岩石学的情報など付帯するデータが重要となる。第1次南極観測以来採集された南極の岩石・鉱物試料、ならびにスリランカ、インド、アフリカなどの岩石・鉱物試料あわせて約2万点が極地研究所で保管されている。それ以外にも、大学などで現在進行中の研究・解析のために岩石試料が一時保管されている。それらの貴重な岩石試料を活用して地球科学、あるいは、それ以外の研究、また、データサイエンスに応用するために、南極で採取された岩石試料のカタログ化と付帯情報の整備が求められている。
　そうした背景から、データサイエンス共同利用基盤施設極域環境データサイエンスセンターの支援を受けて、岩石試料のカタログと各種情報を紐付けていくための岩石レポジトリー（NIPR Rock Repository）の構築をすすめている。そのための研究打合せを極地研究所でおこなった。岩石レポジトリーの最初のデータとして、研究代表者らが参加した第58次南極地域観測隊（2016-2017年）で南極大陸において採取した岩石試料に関するデータの整備と投入をすすめてきた。 2019年度は、その作業を継続して当該隊次のほぼ全試料（1743点）のデータをひとまずデータベースに投入することができた。また、第60次南極地域観測隊（2018-2019）のデータの一部（1258点）を投入した。しかし、岩石レポジトリーの確立のためには、第１次観測隊（1957年～）からの紙媒体で記録されている情報や、特にGPSがまだ使用されていない隊次（第1次隊～第44次隊）の紙媒体からの試料採取地点情報を電子化するための膨大な作業が必要な状況である。これまでに第1次隊から第25次隊までの紙媒体の採取地点冊子からの座標読み取り作業をすすめて、読み取りが可能な部分に関してとりあえず数値化の作業が終わったところである(約1300点）。しかし、採取試料のリスト本体は、隊次、採取者、採取年月日で分かれているところであり、また、補足情報などは資料、野帳、写真、岩石薄片、など他の資料・情報も参照する必要がある。一方で、採取地点の記載された地図は、地域、露岩、地図の図画（同一露岩でも、異なる地図に分かれることがある）、などに細分されており、電子化された数値情報を採取リストと1対1で対照していく膨大な作業が必要となっている。その作業は、地質調査の経験や熟練したスタッフの関与が不可欠であり、現在、マンパワーと予算の制約から、なかなか進まない状況にある。紙媒体からの座標の読み取りも、南極大陸の露岩域の地形図が整備されるよりも以前の古いデータも多く、手書きの地図などから国土地理院が整備してきた最新の南極地形図やGoogle Earthなどの衛星画像と対照させて採取地点を地図上で確認・確定して、座標を読み取るという作業のために、ある程度、地図の読解や野外調査の素養など経験・熟練が必要な作業となっている。この部分に関して、本年度もこの一般共同研究費の謝金で熟練者に作業を委託して743点の資料採取地をデータ化した。こうしたデータをさらにデータサイエンスに活用するために、岩石試料そのものに付帯する情報の整理が必要である。例えば、岩石試料の記載学的特徴、特に岩石薄片にして基本情報を取得することが第一歩となり、そうした基礎データの整備をすすめている。加えて公表可能な鉱物化学組成、全岩化学組成、U-Pb年代値等をどのようにデータベース上に反映させるかについては今後検討すべき課題である。
　こうした南極観測で採取された岩石試料に加えて、岩石資料室で保有する関連地域（アフリカ、インド、スリランカ）の実試料との紐付けのために、南極岩石試料と同様に試料リスト本体と採取地点マップの電子化、また付帯情報の取得と紐付けの作業についても準備をすすめているが、現時点では基礎資料の収集と保管場所の整理と確認にとどまっている。

009RP2019 鈴木　香寿恵（法政大学）
NOAA/AVHRR雲画像を用いた降雪をもたらす雲の検出法および降雪量の推定

本研究課題が採択され，国内学会・国際シンポジウム等での発表を行うことが出来，その結果共同研究者らとの議論も深まり，また外部の機械学習に明るい研究者らとの議論も行うことが出来た．本研究結果をまとめたものを，2020年度人工知能学会全国大会・国際セッションに投稿し，口頭発表として採択された．研究成果としてアブストラクトを以下に転載し，成果内容として学会論文を添付する．
本研究内容を南極だけでなく北極にまで拡張し両極における熱輸送メカニズムの違いに着目した研究課題が，令和2年度基盤研究Cに採択された．今後は北極域のデータについて，引き続きDS施設の利用をしたいと考えている．論文出版費として準備していた予算についてはデータのバックアップ環境の増強に換えさせていただき，今後研究に必須となる北極域の衛星雲画像データのアーカイブ先として役立てていきたいと考えている．
--
近年の温暖化環境における南極氷床の涵養量の変動のふるまいは、地球全体の水収支に大きな影響を及ぼすことから関心が高まっているが，その厳しい環境や降雪量の観測自体が難しいという現状である。限定された観測データを組み合わせ降雪量推定モデルの開発を行ってきた。
今回は南極・昭和基地において観測された降雪時の雲画像に対して、CNNを適用し，二値および三値の自動識別を試みた。「Atmospheric River」と呼ばれる高高度の連なる雲が降雪に寄与しているとし，その雲構造をもつ降雪時の画像を正例，その雲構造がない，もしくは画像視野が十分でない場合準正例とした｡ネットワーク構造としてはVGG16にInception構造を加え，全結合層をGlobal Average Poolingに置き換えてパラメタ数を削減した｡学習に対し正例138, 準正例477, 負例511のサンプルを用いた｡二値問題には正例と準正例を正例として扱った｡
識別精度は，二値(三値)分類は71.00%(65.37%)であった｡ Grad-CAMによる可視化結果は三値分類時に雲構造を捉えられている様子を示していた｡

010RP2019 渡部　諭（秋田県立大学）
犯罪統計データの解析法とオープンデータに向けた検討

本共同研究の目的は、次の2点であった。 1点目は、高齢者の特殊詐欺被害を防止するために、科学技術振興機構（JST）社会技術研究開発センター（RISTEX）採択のプロジェクトにおいて既に開発された高齢者の特殊詐欺抵抗力を判定できるアプリを用いて収集されたデータの分析方法の検討を行うこと。 2点目は、警察庁を始め各警察によって収集された犯罪データの開示について検討を行うこと。
　第1回目の研究会は2019年12月27日14：00～17：00に国立情報学研究所1210室で7名の出席の下開催された。当日は、「アプリ・ショートバージョン項目のセレクション」（青森大学、澁谷泰秀）と「ROIS-DS-JOINT2019犯罪統計データの解析法とオープンデータに向けた検討」（秋田県立大学、渡部諭）の発表が行われた。前者は、既に開発が終了していた特殊詐欺抵抗力判定アプリから質問項目を取捨選択してショートバージョンを作成するための方法についての発表であった。また、後者はこれまでにアプリで収集されたデータの分析によって明らかにされたことについて紹介し、併せてショートバージョン開発の意義について発表を行った。続いて出席者からの質問やコメントを出していただき、協議を行った。出席者より、ショートバージョン項目選択の理由について質問が出た他、アプリデータの分析についてもアドバイスが出された。
　第4回社会データ構造化シンポジウムの準備のための研究会を2月27日に、また、第2回目の研究会を3月19日に予定していたが、新型コロナ感染拡大のため止むを得ず中止した。
　申請時に記載した本共同研究で期待される効果のうち、高齢者の特殊詐欺抵抗力のある者とない者との相違がどのような点に起因するかが明らかにされ、それによって、特殊詐欺に対する抵抗力と関連する認知的要因が明確になり、特殊詐欺防止に結びつく対策を導き出すことはある程度達成されたと考えられる。しかし、犯罪統計データのオープン化及びオープンデータ利活用における課題を抽出し、犯罪統計オープンデータの仕様及び利活用に向けた検討を行うことは、新型コロナ感染により研究会開催ができなかったため残念ながら達成できなかった。次年度の共同研究の課題にしたいと思う。

011RP2019 山本　容正（岐阜大学）
遺伝子構造解析による地域社会への薬剤耐性菌の蔓延機序解明

本研究では、地域社会における抗生物質等の薬剤に耐性を示す細菌（薬剤耐性菌）蔓延の機序を解明するため、分離した多剤耐性を示す大腸菌ならびに関連嫌気性細菌のゲノムデータを解析することにより、薬剤耐性遺伝子の転移・伝達のシステムおよびその経路・履歴を明らかにすることを目指した。同一健常人の腸内細菌叢より分離したBacteroides thetaiotaomicron（ヒト腸管細菌叢を構成する主要偏性嫌気性菌種）とEsherichia coli（腸管細菌叢を構成する代表的通性嫌気性菌種）のゲノム配列情報（NGSショットガン・シーケンス・データ）について、ゲノムデータ解析支援センターにてデータ・アセンブリおよびアノテーション解析を行うと同時に保有する主要薬剤耐性遺伝子の比較検討を行った。その結果、解析した両菌種株にサルファ剤耐性遺伝子(sul2)を含むsul2-strA-strBカセットと関連性が示唆された転移因子(IS)の存在が明らかとなった。同一の健常人の腸内細菌叢から分離された通性嫌気性菌と偏性嫌気性菌の両方にsul2カセットが見出されたのは初めてであり、本研究の成果の一部を学術誌Journal of Global Antimicrobial Resistanceにゲノムデータ解析支援センターとの共著論文として発表した。
本研究の成果を元に、研究分担者およびゲノムデータ解析支援センターの共同研究者と今後の課題についても議論を行い、腸内細菌叢から分離された薬剤耐性菌の個別のゲノム解析のみならず、腸内細菌叢全体でのメタゲノム・レベルでの解析も含め、耐性遺伝子カセットおよび転移因子の腸内細菌叢間における分布解析が今後の課題として、次年度への継続申請の必要性の共通の認識に至った。さらに、腸内細菌叢からの分離および維持が困難な理由から、偏性嫌気性菌種のゲノムデータの登録数は通性嫌気性菌種に比べて圧倒的に少なく、ゲノム情報として未解明な部分（例えば転移因子の同定など）が多く残されている点からも、将来的な偏性嫌気性菌感染増加に備え、ゲノムデータの早急な拡充の必要性と本研究の重要性が再認識された。

012RP2019 山本　真之（情報通信研究機構）
大気レーダーによる風速・大気乱流測定データ品質向上のための信号処理手法の開発

研究の背景と目的
　大気レーダーは、晴天域における風速の高度プロファイルを主な測定対象とするレーダーである。電波の波長の半分に相当するスケール（ブラッグスケール）を持つ電波屈折率の揺らぎが、大気レーダーで検出される電波散乱エコー（大気エコー）の生成源である。大気乱流に起因する気温や水蒸気の擾乱は電波屈折率の揺らぎを発生させるため、大気レーダーは大気乱流の観測手段としても有用である。大気レーダーは、大気の力学過程・降水過程などの解明を目的とした学術研究に貢献している。下層大気（対流圏及び下部成層圏）における風速の高度プロファイルを主な測定対象とする大気レーダーは、ウィンドプロファイラ（WPR）とも呼ばれる。 WPRは、気象状況の把握と予報を行う気象業務にも利用されている。
　大気レーダーから得られる風速等の観測プロダクトの品質向上は、大気レーダーのさらなる高度利用につながる。観測プロダクトの品質を低下させる要因の一つに、非所望のエコー（クラッタ）がある。受信信号のドップラースペクトルに混入するクラッタは、大気エコーに関する観測量（ドップラー速度など）の誤推定を発生させる場合がある。クラッタは受信アンテナのサイドローブからも混入するため、地上・海上・空中に存在する様々な対象がクラッタ源となりうる。そのため、クラッタを低減する技術の開発は、大気レーダーから得られる風速等の観測プロダクトの品質向上に不可欠である。
　高速で移動する航空機等からのクラッタ（以下、高速移動クラッタ）は、従来の技術による低減が困難である。高速移動クラッタを低減する新たな信号処理手法として、Sidelobe-Shaping Pulse Compression Scheme（SSPCS）が提案されている。高速移動クラッタは、周波数エイリアシングにより、大気エコーが通常存在するドップラー周波数の範囲に混入する。そのため、ナイキスト周波数を従来よりも広く確保するSSPCSは、大気エコーが通常存在する範囲に高速移動クラッタが混入する頻度を低減することができる。本研究課題は、SSPCSが高速移動クラッタを低減できる有望な信号処理手法であることを、観測実験により実証することを目的として実施された。

研究の実施内容と成果
　SSPCSの観測実験には、情報通信研究機構（NICT）が有するWPR（LQ-13）を用いた。 SSPCSの観測実験においては、LQ-13の主アンテナに加え、12台のクラッタ受信用のサブアレイアンテナ（クラッタ抑圧用サブアレイ）も使用した。 LQ-13の主アンテナと12台のクラッタ抑圧用サブアレイから測定データを得るために、WPR用多チャンネルデジタル受信機（以下、WPR用デジタル受信機）を用いた。 WPR用デジタル受信機は、汎用のソフトウェア無線用データ収集装置であるEttus Research社製USRP X310とワークステーション（WS）で構成される。 WSとUSRP X310間の通信インタフェースは、10ギガビットイーサネットである。 WPR用デジタル受信機は、1ユニットあたり1台のWSと4台のUSRP X310を使用する。 1ユニットあたりの最大受信チャンネル数は７である。本研究課題で実施したSSPCSの観測実験では、2ユニット（合計で2台のWSと8台のUSRP X310）を用いることで、LQ-13の主アンテナと12台のクラッタ抑圧用サブアレイからの測定データを取得した。
　SSPCSの観測実験におけるナイキスト周波数（ナイキスト速度）は、625 Hz（約69.1 m/s）とした。従来よく使用していた観測パラメータにおけるナイキスト周波数（ナイキスト速度）は125 Hz（約13.8 m/s）あるいは156.25 Hz（約17.3 m/s）であるため、実施した観測実験では、ナイキスト周波数（ナイキスト速度）は4～5倍に拡大された。
　SSPCSの観測実験で得られた測定データから、以下のドップラースペクトルを得た。

(1) SSPCSの観測実験で取得した広いナイキスト周波数の測定データを、そのまま高速フーリエ変換（FFT）することで得たドップラースペクトル。
(2) SSPCSの観測実験で取得した測定データを、従来の観測におけるナイキスト周波数と同程度になるまで時間積分（コヒーレント積分）し、その後にFFTすることで得たドップラースペクトル。従来の観測パラメータで取得されるドップラースペクトルと同等である。
(3) SSPCSの観測実験で取得した測定データから、大気エコーが通常存在するドップラー周波数範囲のみを取り出した（周波数フィルタ処理を行った）ドップラースペクトル。取り出したドップラー周波数範囲は、(2)と同じである。周波数フィルタ処理を行うことで、周波数エイリアシングによる高速移動クラッタの混入を(2)よりも低減できる。また、(1)よりも測定データの保存量を減らすことができる。

(1)において大気エコーが通常存在するドップラー周波数範囲（以下、大気エコーのドップラー速度範囲）よりも大きいドップラー速度を持つ高速移動クラッタが、(2)において大気エコーのドップラー周波数範囲に混入する観測事例を見出した。 (2)における高速移動クラッタの混入は、高速移動クラッタが周波数エイリアシングすることで発生していた。この観測事例では、(3)における周波数フィルタ処理により、高速移動クラッタを除去できることを確認した。また、この観測事例では、ACSは高速移動クラッタを完全に除去できていなかった。これらの結果は、SSPCSが高速移動クラッタの低減に有用であることを示している。
　WPR用デジタル受信機は、リアルタイムデータ処理の大部分をWS上のソフトウェア処理により実行するため、リアルタイムデータ処理に多くのメモリを利用することができる。この特長が、本研究課題で実施したSSPCSの観測実験に活用された。 WPR用デジタル受信機が大気レーダーの技術開発に有用であることを示せた点でも、本研究課題の実施は意義があったと考えている。今後も、WPR用デジタル受信機を活用することで、大気レーダーの観測技術の高度化に貢献していきたい。
　LQ-13において、主アンテナを構成する13台のサブアレイアンテナのそれぞれから受信データを得るための検討を進めた。主アンテナを構成するサブアレイアンテナを活用した技術開発を行うことで、観測プロダクトの品質や観測分解能のさらなる向上につながる技術開発が進むことが期待できる。大気レーダーの技術開発等に関するデータサイエンス共同利用基盤施設とNICTの共同研究を今後もさらに推進することで、リモートセンシングの発展につながる技術を生み出したいと考えている。

013RP2019 山本　真行（高知工科大学）
南極インフラサウンド観測データ収録公開システムの構築

本共同研究では南極域インフラサウンド観測データ群を準リアルタイムで実施・保管しつつユーザーが利用しやすい形で可視的にアーカイブする。生波形に加えて周波数解析等の1次解析データを揃え、将来的には地震計データや衛星からの氷床観測画像など比較対象との連携も視野に入れ、関係機関と調整しつつ数年以内に統合表示と公開を進める。
　これまで国立極地研究所一般共同研究や科学研究費補助金・基盤研究(A)（金尾代表；H26-H30）等を活用し、南極昭和基地周辺のインフラサウンド2地点アレイ観測データを用いた波源解析と衛星データとの比較により、昭和基地周辺域における巨大な流氷の移動に伴うインフラサウンドの発生と考えられる興味深い現象を捉えるなど成果を挙げてきた。海洋起源の低周波波動であるマイクロバロムズの季節変動についても複数年の観測結果を蓄積してきた。これらの研究成果を受け、極域環境変動についてインフラサウンドのモニタリングを通した科学的研究を長期に継続して行う必要がある。

　インフラサウンド観測データについては、専用サーバ及び極地研内の大容量サーバ（crux）の双方で鋭意アーカイブ作業を続けているが、2017年度までは公開には至っていなかった。本研究により、まず2018年度に昭和基地の既存および参照時点の直前日までの観測データについて生データを１時間単位の開始日時から１時間幅（固定）でグラフ表示するデータ公開用ページを開発した。
　その時点で周波数解析結果など１次処理データまでの公開について、2019年度中を目処に予定しつつ一部データの自動処理化も並行して進めてきたが、本年度にはこれをリンクさせる形で、オンデマンドで6時間幅の期間を選択する形でのデータ公開システムを追加構築した。これにより波形データのみで無くスペクトル（PSD）画像を参照できるようになった。今後、2020年度中には、昭和基地インフラサウンド観測について準リアルタイムでの１次処理データを含むデータ公開を進めていく予定である。

　本公募型共同研究制度を活用したアーカイブの整備とデータ活用研究については以下を想定し進めてきた。 2018年度の実施項目として掲げた
1．南極昭和基地インフラサウンドモニタリング観測データのアーカイブ（収録システムの構築）
2．南極リュツォ・ホルム湾周辺インフラサウンド多地点観測データのアーカイブ
については、既存データについての作業をほぼ終えている。
3．以上を活用した地震観測データとの比較研究（国立極地研究所一般共同研究等のスキームも活用）
については進捗中である。

　2019年度以降の計画として掲げていた
1．南極インフラサウンド観測データの1次処理データのアーカイブ
は、その周波数解析の部分の自動化とともに、実装を終えており、
2．南極昭和基地インフラサウンドモニタリング観測データの準リアルタイム公開（公開システムの構築）
については、本共同研究を活用して2018年度に昭和基地のみのデータを対象に雛形となる仕組みを作った。これらを、上述の昭和基地以外での観測データアーカイブへと適用範囲を広げ、既にアーカイブされている周波数解析画像などをリンク表示させる機能を追加していく。さらに、
3．以上を活用した各種大気観測データとの比較研究
を2020年度に計画的に進めていく。既に、国立極地研究所の宙空研究グループとも連携しオーロラ全天カメラ画像との比較研究を進めている。

　本共同研究では、これまで南極・昭和基地において2008年より観測を継続しているインフラサウンド観測結果について、その全データを国立極地研究所のデータベース内にアーカイブしてきたが、これらのデータを一般公開するためのWeb表示ツールを開発した。具体的には、2008年（JARE49）の設置以降2011年までの期間は１センサー、2012年（JARE54）以降は計３センサーによるアレイ観測を昭和基地にて行っており、現在はモニタリング観測に位置づけられている。
　これらのデータのうち欠測期間を除く全データについて、微気圧波形のグラフを参照できるよう2018年度にWebデータベースを整備した。横軸（時間）は１時間で固定とし、観測の日付と時刻（時のみ）をWeb上で指定し、当該時刻から１時間分の各センサーのグラフが表示される。最新データについても、観測側では日本時間の昼12時半頃に前日分のデータが転送される仕様のため、その直後から前日分のデータが参照できる。
　さらに微気圧波形のグラフに対応するスペクトル解析情報を1次解析結果として、パワースペクトル密度（PSD）を6時間幅で画像化した図を参照できるよう2019年度にWebデータベースを追加整備した。横軸（時間）は６時間で固定とし、観測の日付と時刻（時のみ）をWeb上で指定し、当該時刻から６時間分の各センサーのグラフが表示される。最新データについても、観測側では日本時間の昼12時半頃に前日分のデータが転送される仕様のため、その直後から前日分のデータが参照できる。

昭和基地インフラサウンド観測データアーカイブ
http://infrasound.mydns.jp/isound2/

　本共同研究に関わるデータ公開関連の情報は、Polar Data Journalに論文（Ishihara et al., 2020）として掲載されたほか、関連論文については、上述のWebページ内のリンクとして関連論文リストを掲載した。

014RP2019 加藤　千尋（信州大学）
昭和基地宇宙線観測データのためのリアルタイム・アーカイブシステムの構築

2018年2月より，昭和基地における宇宙線中性子及びミュー粒子の連続観測を行っている。本申請課題では，前年に作成したデータ公開用ウェブサーバーの整備を目的としている。本年度中に，目的としていたデータの自動更新の実装，プロットの縦横軸の任意設定，及びシミュレーションによる予測値のプロットの追加を行うことができた。本経費は消耗品，及びデータの自動更新とウェブページ上のプロット改善の役務に使用した。ページのURLは変更しておらず，データはhttp://polaris.nipr.ac.jp/~cosmicrays/ で公開している。この機構によって宇宙線観測データを簡単に見ることが出来るようになり，宇宙線強度の変化や宇宙天気現象等イベントの発見が容易になるものと考える。今回の実装で，任意の期間についてのプロットが可能となり，また中性子カウント値の長期予測値も表示されるように設定された。

015RP2019 粕川　雄也（理化学研究所）
公共遺伝子発現データの再利用性向上に資するメタデータのアノテーションおよびキュレーション効率化

DNAマイクロアレイの開発によりゲノム規模での遺伝子の発現量の測定が可能となって以来、遺伝子発現データはさまざまな研究グループにより異なる測定手法を用いて産生され、公共データベースに蓄積しつづけている。これらのデータは、仮説の構築、研究計画の立案、実験データの解釈など、さまざまな状況において幅広い分野の研究者に利用される汎用的なデータだが、その膨大さや多様さのため、それらを自らの研究に利用することは困難な場合が多い。遺伝子発現解析の基準となる各遺伝子の遺伝子発現量を簡単に検索、閲覧できるウェブツール「RefEx」(https://refex.dbcls.jp/)は、ライフサイエンス統合データベースセンター(DBCLS)が開発し公開している。理化学研究所のFANTOMプロジェクトで産生された「FANTOM5」データは、RefExで閲覧できる代表的な遺伝子発現データの一つである。 FANTOM5に由来する遺伝子発現データは、ウェブブラウザ経由で閲覧できるだけでなく、データ標準化フォーマットであるRDF形式データとしても作成され配布(https://integbio.jp/rdf/?view=detail&id=refex)されている。このRefExは、現在、次期版としてこのRDFフォーマットに準拠して整理した遺伝子発現データを使って、表示、検索、可視化、比較できる機能の実装が予定されている。一方で、FANTOM5プロジェクトから算出されるデータについては、phase1データセット(細胞等のスナップショットデータ、現行RefExに収載済み)に加えて、phase2データセット（時系列データやRNA-seq/miRNA-seqデータ）が新たに追加されており、それに伴うメタデータも更新されている。しかしながら、FANTOM5データには、コンソーシアム参加者の間での表記揺れや、オントロジー情報の複雑化による付与漏れといった理由によるメタデータの一部不備も見られるという問題や、必ずしもRefEx上でのデータ統合に必要とされる情報がすべてメタデータに含まれているとは限らないといった問題がある。また次期プロジェクトであるFANTOM6データについてもRefExへの収載が予定されており、その効果的な活用のためには公共遺伝子発現データの効率的なアノテーションおよびキュレーションのノウハウの蓄積が急務である。
　そこで本共同研究では、(1)FANTOMデータベースの再利用性向上を目的としたメタデータの再アノテーションおよびキュレーション作業と(2)そのノウハウについてのドキュメント化を行った。これらは、共同研究参加者によるインターネットを通じた議論に加え、2019年9月に福岡で開催された国際版バイオハッカソンにROIS-DS-JOINTの支援を受けて参加し、集中的な議論ならびに作業を通じて行った。 FANTOM5のサンプル情報に関するメタデータの再アノテーションならびにキュレーションとして、以下の改良を行った。
1．サンプルのタイプを大別するためのカテゴリーの決定
FANTOM5で行われたカテゴリー分けを拡張し、Sample type category と experimental type category の２種類でサンプルを分類するようにし、そのためのルールを決めた。
2．がん細胞由来の細胞株に対して、由来するがんに相当する NCI Thesaurus のタームを付ける
FANTOM5では細胞株について体系的な名前付けがなされていなかったことから、NCI Thesaurus のタームを用いたcontrolled vocabulary を決めて再アノテーションを行った。
3．Cell type の分類として Cell Ontology のタームを付与する
FANTOM5での細胞由来のサンプルについて、cell type による分類をより利用しやすいものとするため、Cell OntologyのTermとの対応づけを行った。
4．Tissues の分類として UBERON のタームを付与する
FANTOM5での組織由来のサンプルについて、3.と同様にUBERONのTermとの対応づけを行った。
5．Age, Developmental stage の記法を統一する
FANTOM5では年齢や発生時期の記法のゆらぎが大きかった。そこで年齢の情報を、数値を記入する列と単位を記入する列に分離し、Developmental stage には adult, infant といった分類を記入した。年齢については数値と単位を分離したり、Developmental stage については、ヒトは FDA (アメリカ食品医薬品局) のドキュメントGUIDANCE FOR INDUSTRY CONTENT AND FORMAT FOR PEDIATRIC USE SUPPLEMENTSでの定義をベースに、マウスはボストン大学のドキュメント Anesthesia and Analgesia: Neonatal Mice and Ratsに基づき、再定義したルールに従って再アノテーションした。
　これらの再アノテーション・キュレーションにより改良されたFANTOM5サンプル情報は今後FANTOMの公式ウェブサイト等を通じて公開する予定である。さらにまた、これらの再アノテーション・キュレーションの内容は、FANTOMデータに限らず、多くの発現データに対するサンプル情報のアノテーション作成にも有用であることから、公開ドキュメントとしてまとめ、RefExのGitHubサイト(https://github.com/dbcls/refex/)より公開予定である。
　本共同研究では、FANTOM側で用意したテーブルベースのサンプル情報を修正するとともに、既存のオントロジーへの対応づけを手動で行った。これによりある程度の品質を持ったサンプル情報への改善が達成された。しかしながら、近年Zooma等の適切なオントロジー用語の対応づけをコンピュテーショナルに行う手法が登場してきている。手動でのアノテーション・キュレーションにはスケーラビリティに課題もあり、より洗練された手法の構築が今後の課題であり、引き続き進めていく。

016RP2019 杉山　峰崇（広島工業大学）
高度発酵バイオテクノロジーによる社会貢献を加速する有用出芽酵母のゲノム解析とトランクプリプトーム解析

自然界から単離された出芽酵母Saccharomyces cerevisiaeの中で、史上最も高い高温耐性(42℃)を示す野生株SPY3に加えて、酵母種全体の中でも最も高い高温耐性(50℃)を示すOgataea polymorphaは、高いストレス耐性と発酵能力を示すことから産業利用が非常に期待されており、発酵バイオテクノロジーの高度化とそれによる社会貢献が期待されている。しかし、両株の優れた高温ストレスの耐性機構は全く未解明であり、その要因としては、SPY3のゲノム配列情報が得られていないこと、そのストレス耐性に関わる遺伝的・分子的基盤が未解明であることや、NCYC495においてはゲノム配列情報が得られているものの遺伝子等に関するアノテーション情報が部分的にしか整備されていないことなどが挙げられる。これら高温ストレスの耐性機構の遺伝情報基盤を整備する上で、トランスクリプトーム情報の解析は重要である。そこで、本研究の目的は、バイオインフォマティクス解析を駆使することでSaccharomyces cerevisiae SPY3とOgataea polymorpha NCYC495のゲノム情報および、種々の発酵条件下でのトランスクリプトーム情報から、これまでは全く未解明であった酵母の高温耐性に関わる遺伝情報基盤の解明を試みることである。
　本年度は、まず、両酵母のde-novoゲノム解析を進めた。 SPY3のゲノムデータ解析については、イルミナ社のMiSeqとオックスフォード・ナノポアテクノロジー社のMinIONシーケンスを用いて、十分量のショートリードとロングリードデータを取得した。ゲノムデータ解析支援センターで高精度解析を行った結果、reference酵母の全ゲノムの16本の染色体に相当する長いコンティグ16本を構築することに成功した。 6,051個のORFの同定にも成功した。現在、SPY3のゲノムの詳細な解析をショートリード配列を用いた補正により進めている。また、reference酵母ゲノムにはなくSPY3にユニークな領域も見出し、当該領域上の遺伝子が高温耐性に影響している可能性もあることから、今後これらの領域上の遺伝子を詳しく調べて行く予定である。
　SPY3の優れた高温耐性機構を明らかにするために、トランスクリプトーム解析を行った。ゲノムデータ解析支援センターと共にデータ解析を進めている途中であるが、高温感受性株であるBY4743と比較して2倍以上高発現している遺伝子を419個、2倍以下に発現が低下している遺伝子を362個見出した。その中でも、SPY3において複数の抗酸化遺伝子の発現量が上昇していることを見出し、これらが優れた高温耐性に関与することを明らかにした。さらに、SPY3で高発現していた419個の遺伝子の60%以上を制御しうる転写活性化因子として5つの転写活性化因子を見出し、これら5つの転写因子がSPY3の高温耐性獲得に非常に重要であることを明らかにした。現在、ゲノムデータ解析支援センターと共にこれら5つの転写活性化因子、およびその上流に存在するシグナル伝達因子や下流に存在する機能因子の遺伝子配列の個別調査を進めている。加えて、今後は、トランスクリプトームデータから新たな高温耐性に関与する遺伝子の推定とその機能解析を行う予定である。
　次に、NCTC495株のゲノムデータ解析については、ロシュのFLXとイルミナのGAIIx、イルミナMiSeqおよびPacBioシーケンスを用いて、十分量のショートリードとロングリードデータを取得した。そして、ゲノムデータ解析支援センターの協力を得て、reference酵母の全ゲノムの7本の染色体に相当する長いコンティグ7本を構築することに成功した。 4,359個のORFの同定にも成功した。現在、NCYC495のゲノムの詳細な解析をショートリード配列を用いた補正により進めており、遺伝子アノテーション情報の整備に取り組んでいる。
　NCYC495の優れた高温耐性機構を明らかにするために、トランスクリプトーム解析を行った。現在、ゲノムデータ解析支援センターと共にデータ解析を進めている途中であるが、NCYC495株は37℃の低温条件下に比べて45℃の高温条件下において、264個の遺伝子が2倍以上高発現しており、261個の遺伝子が2倍以下に発現が低下していることを見出した。いずれの温度においても高発現を示す遺伝子がNCYC495が持つ優れた高温耐性に関わりがあるとの考えのもと、低温および高温の各条件において高発現している遺伝子を検索した。その結果、両条件において最も高発現している遺伝子が同一遺伝子であることを見出した。この遺伝子産物は、ホモロジー検索からS. cerevisiaeの細胞壁タンパク質と相同性を示した。 S. cerevisiaeではこのオーソログ遺伝子は高発現しておらず、さらに、NCYC495においてこの遺伝子を破壊したところ、顕著な高温感受性を示すようになったことから、この遺伝子はNCYC495が優れた高温耐性を示すために重要な役割を担うことを明らかにした。現在、この遺伝子の上流・下流配列を含めた遺伝子配列を詳細に解析している。今後は、高温ストレス条件下や乳酸発酵条件下で特徴的な発現を示す遺伝子をゲノムデータ解析支援センターの協力を得て探索し、NCYC495が示す優れた高温耐性や乳酸生産の機構解明を目指す予定である。

017RP2019 吉沢　明康（富山国際大学）
文字列高速検索技術とRDFを用いたタンパク質配列同定リソースの開発とその応用

添付図1（fig.1）に示したのは、本研究全体のフローである。本年度に実施予定だったのは二重線の下の項目で、灰色に着色した部分は実行済み、グラデーション表示した部分は「概ね実行済み」を示す。本年度は最終年度であり、2つのツールの完成と公開、及び学会発表を目指した（論文発表は翌年度以降に計画）。
　結論から言うと、今年度の計画実施には複数の問題が生じ、開発については多くを達成できたがjPOSTサーバでの公開については未達成である。

1) プロテオーム研究用配列同定ツール「pepsearch」
　予定どおりアミノ酸配列タグの分布統計の計算は完了したが、主要な利用者の一つとして想定していた質量分析によるプロテオーム研究者からの具体的な意見聴取では「長さ2個のタグも入力データとして扱えることが極めて望ましい」という結論になった。「長さ2個のタグ」を用いた検索は候補が非常に多数得られるため、計画開始時から意図的に除外してきたが、要望が明確に多かったこと、及びそれ以外の研究分野（GWAS解析関連研究や生理活性ペプチド研究、癌化機構研究など）の研究者からも同様の要望があったことから、仕様の変更を検討した。現時点での解決策として、長さ2個のタグについてのみPPPeptideではなく事前に作成した辞書を用いて検索を行うこととし、その統計も別途計算して取得した（長さ3個以上については今までどおりPPPeptideを用いる）。
　またタンパク質同定に、従来から用いられてきた「タグ検索法」（配列タグ1個のマッチと、その前後のアミノ酸配列の質量とマススペクトルのマッチから配列を絞り込む方法）を併用する方法も検討し、一部実装したが、この機能が必須であるケースをまだ見出していないため、システムへの組み込みはまだ行っていない。
　なお今後データベースサイズが拡大する（ヒト以外の生物種対応などのため）ことを想定すると、外部サービス用のエンジンは現行のGGRNA方式（圧縮接尾辞配列のインデックスをインメモリで検索）ではなく、GGGenome方式（接尾辞配列およびFM-indexのインデックスを大容量のSSDに格納する）に変更するべきである、という結論が得られた。このためには　GGGenomeの塩基配列検索エンジンをアミノ酸配列検索向けに拡張する必要があり、これはエンジンの開発を担当したレトリバ社に依頼済みであった。 12月の分子生物学会会場にて詳細な打ち合わせを行ったところ、大幅な修正を要するため年度内に改良が完了するのは困難という見通しであったため、現行エンジンのまま公開することも検討したが、以下3)に示すサーバの問題が発生したため未公開状態である。

2) アノテーション・ツール
　アノテーション・ツールの実装は前年度に概ね完了しており、想定ユーザーによる評価の段階である。 12月に10日間、熊本大学に出張し、実際の想定ユーザーと共同で作業することによって問題点の洗い出しなどを行った（なお出張旅費は別予算によるものである）。得られた要望は主に「問い合わせ配列（試料）の生物種と最近縁である生物種」に於けるオーソログ関連情報を強調して表示することを求めるものであり、本質的には大きな変更を求める要望はなかった。いっぽう、このときにはむしろ「ゲノムのシークエンシングは終わっているがアノテーションがまったくない状態で、ORF配列データのみが公開されている生物種」のゲノム全体のアノテーションが必要とされたが、これは本ツールを超えたアプローチが必要になると考えられる。

3)ツールの公開
　これらのツールの公開は大幅に遅れている。最大の理由は、（これらの成果物をwebツールとして公開する予定だった）jPOST計画のサーバが2019年度中にリプレースされる予定であったにもかかわらず、その実施が長期間遅れたことである（新サーバは2019年度後半から設置・調整を開始し、最終的に2020年4月8日にサービス開始・公開された）。加えて、12月の分子生物学会でのレトリバ社との打ち合わせ・熊本大学での意見聴取を反映させて1月以降に調整を進める予定であったのが、COVID-19の蔓延によりスケジュールが大幅に狂ってしまった（COVID-19は、関係者に罹患者はいないものの、各種の作業の遅れや共同作業がオンラインに限定される点などで、スケジュールの面からは破壊的な影響があった）。
　幸い、予算を必要とする作業はほぼ終了しているため、以後は（オンラインのみの作業で）公開までこぎ着ける予定である。

4)発表
　9月の日本バイオインフォマティクス学会、12月の日本分子生物学会で、それぞれアノテーション・ツール、pepsearch及びPPPeptideについてポスター発表した（本予算の助成は明記した）。両学会共に、「ときどき訪問者が途切れるが、それ以外のときは概ね1，2人の訪問者がいる」という“中程度”の注目度であったと考える。

018RP2019 梅村　宜生（名古屋大学）
データ駆動型研究を促進させる賛同型コンソーシアム形成に係る基盤研究

本研究では、機構が推進するデータ駆動型科学社会の実現を背景に、機構賛同型コンソーシアムを作り、機構と各大学・研究機関が連携して推進するための体制の検討と、各研究現場におけるデータ活動に関する諸課題の解決を行った。対象を、1. 事業提携先となり得るビジネスパートナー、2. 研究データ連携元となり得るデータプロバイダー（PI）、3. 実際のユーザに区分し、さらに、1のビジネスパートナーと2のデータプロバイダーとは、推進の観点を、a. データ整備、b. 品質確保と提出（キュレーション）、c. 運用に関わる人的サポートに区分して、検討を進めた。

項目1については、九大・京大・名大等の主要大学における各データ関連部署と研究集会にて議論し、データ科学をこれから確実に実行フェーズに移行していくためには機構等の事業者と各機関がT・π型接続していくことが極めて重要であること確認した。データ関連部署および各大学図書館は、国研に続き、データリポジトリの再整備、データポリシーの策定を開始しており、コンソーシアムとしても、その活動は、データの整備と公開促進（1-a）、品質確保とデータ提出（1-b）、人的サポート（1-c）を広域かつ根幹で支えるものに資すると確認して、積極的に連携していく旨を示した。また、JAIRO Cloudとサービス連携に関する検討会を開催し、データアーカイブと科学活動を両立していくためには、JAIRO Cloudに保存した研究データを各分野や機構等の科学データベースからも参照できること、メタデータについては、各々が必要とする情報量の観点、および、一体運用の観点から、分野が持つサイエンスメタデータを源泉としてJAIRO Cloudに転送することが望ましいと合意した（1-a, b）。実際のデータ・メタデータ連携は試行しているところである。

項目2については、データ整備（機械可読化と公開）とその品質確保は、分野によっては、各々の研究者にばらばらに求められている状況にあることが問題として提起された。統一的に進めるには、各機関や分野活動（学会、あるいは、機構のそのスモールモデル）がともにPIを支援する体制を取り、データ整備に関わる品質指針やツール等の基礎基盤を提供して、PIがそれを実行する体制が望ましいとの合意を得た（2-a, b）。コンソーシアムとしても、九州・関西・中部・関東等といった地区拠点を開設して立川本拠点と繋ぐ、項目1と同様のT・π型体制を取ることが、機敏性や浸透性を持って進めるために不可欠であることを確認した（2-c）。

項目3については、高度人材を育成する実際の教育の場面では、各データの特性や、上述のPIごとの品質のばらつきから、どのデータが各々の活動目標にマッチするかの判断が難しい、そのデータを使って科学的考察をする際に不安を拭いきれない等の問題が提起された。カタログ型データベースはもちろんのこと、PIとの接触機会そのものも増やすことが極めて重要であることを確認し、科学発展や人材育成の場面においても、項目2-cと同様に、各拠点での機敏的体制が有効であることを確認した。

結果として、データ駆動型科学の全体推進のためには、機構も含み、各事業者、大学・研究機関、教育現場の全体が、T・π型接続して進めていくことが不可欠との結論に至った。この総合体制では、研究データの整備・公開に関わる基本主導は分野と学会、アーカイブは各機関およびJAIRO Cloud、実際のデータ整備はPI、データ駆動等の特有要素の支援は機構と、物的・人的リソースのみならず資金の切り分けも踏まえて推進していくことが重要であると捉えた。コンソーシアムの発展型、あるいは、機構が掲げる大学・研究機関支援体制の将来構想においても、このT・π型連携の体制を取っていくことが不可欠と考える。

特記事項として、2020年2月に発生した新型コロナウィルス感染症の拡大に伴い、本研究では、2月27日の研究集会への参加を最後に実際の移動を取りやめ、以降の活動はオンラインにて実施した。このことにより、項目2-cに記した地区拠点化は、構想に留まり、試行および実行には至らなかった。また、項番1-aでは、JAIRO Cloudとの実データ連携は実証には至らなかった。

019RP2019 鄭　躍軍（同志社大学）
継続的国際比較調査データの二次分析と公開方法の実証的検討

本研究課題は、アジア・太平洋諸国の価値観を中心とした継続的国際比較調査データのメタ分析により、国際協力促進の一助となる情報を抽出するとともに、一般公開方法を探究することを目的とする。特に、以下の１）～３）を遂行する。
１）２１世紀初頭から統計的標本抽出に則って収集してきた継続的価値観国際比較調査データの統合的解析を行うことによって、人びとの価値観を計測するための指標と尺度を開発する。
２）既存の調査データのメタ分析を遂行することによって、グローバル化時代におけるアジア・太平洋諸国の価値観の実態、構造的特徴を解明する。
３）諸国民の価値観の集団的特徴を基に、基礎情報として有益な調査データ及び分析結果を一般公開するための方法を模索する。
全体的には、調査データのメタ分析とデータ公開方法の検討に重点を置き、現代東アジア価値観の実証的研究を推進してきた。初年度の令和元年度は、研究の全体的な枠組を確立すると同時に、中心となる研究課題を念頭に、既存の縦断的調査データのデータベース化及び各国の基礎資料(社会・経済・文化など)の収集を礎とする価値観計測用の指標と尺度の構築を主として遂行した。主な研究成果以下のとおりである。
　１）既存の縦断的調査データの形式と内容を確認した上で、既存の情報を参照しながら各国・地域の異なる時期に使われた質問項目のプロフィルを作成し、リレーショナル型データベースの構造を検討した。
　２）既存の分析結果を確認しながら、海外研究協力者との連携により、東アジアを中心に、調査地域の社会・経済・文化に関する情報収集を行った。
　３）国内外の研究事例やGSS、ISSP、WVS等の報告書・文献をレビューした上で、国民性、価値観、環境意識などの測定用指標・尺度について検討した。
　４）現在複数のHPで公表している情報を再検討し、個人情報流出のないデータ公表の仕組みの検討に着手し、特に公表可能な個人属性の範囲を重点的に検討した。
　５）既存の調査データを内容により統合できるデータベースの構築を試みながら、メタ分析の具体的な方法を検討した。
　６）価値観に関する国内外の先行研究を再確認し、計測用の尺度・指標の検討に着手し、主な指標として家庭観、金銭観・労働観、文化観、幸福観、人生観、宗教観、領袖観、規範観を中心に構築すると結論付けた。
　７）人々の価値観形成過程のシナリオを整理し、意識の上位因子と下位因子を基に、連鎖関係モデルのマルチレベル構造と機能を検討し始めた。
　今後、データベースを基に探索的なメタ分析及び統合的データ解析を試行錯誤しながら、価値観計測用の指標・尺度を最終的に確立する。また、国内外の共同研究者との連携を密に取り、価値観形成過程を分析するための連鎖関係モデルのパラメータを国・地域単位で同定していく。

020RP2019 賀茂　道子（名古屋大学）
社会調査データを活用した戦後国民意識と占領改革の関連性の歴史学的検証

研究概要と目的
　本研究は占領期にGHQによって行われた情報教育政策が日本人に与えた影響を、文献史料の分析といった歴史学の方法のみならず、アーカイブされた社会調査データの統計的分析といった計量社会学の方法を併用してデータを用いて実証的に検証することを目的とするものである。
　占領期に、日本を二度と米国の脅威とならない民主主義国家として再生させるべく、様々な制度改革、及び日本人に民主的な思考を啓蒙するための情報教育を実施した。こうした諸改革は日本の戦後レジーム形成に大きく影響を及ぼしたが、国民意識にどのような影響を及ぼしたのかは明らかとなっていない。こうしたこともあり、昨今の右派論壇では、現在の日本人が抱いている歴史認識や戦争観などは、占領期の教育改革や情報教育政策によって「洗脳」された結果であるとの言説が広く流布されている。
実際、GHQが軍国主義思想を排除し新たに民主主義思想を啓蒙するための情報発信を行っていたことは事実であるが、その影響に関しては、実証研究がなされておらず不明なままである。本研究では終戦直後（1953年）から継続して実施されている「日本人の国民性調査」をはじめとしたDS施設が管理する社会調査データを用いて、占領期に行われた情報教育政策がどのような影響を及ぼしたのかを実証的に明らかにしようとするものである。
　
実施状況
　本年度は、GHQによる情報発信のなかで最も力を入れていた民主主義の啓蒙に着目し、「日本人の国民性調査」のなかの「民主主義はよいか」という項目との関連性を検証した。
　情報発信を担当したGHQ民間情報教育局（Civil Information & Education Section以下CIEと略す）は、情報発信ツールとして最も積極的に活用したメディアはラジオである。ラジオの速報性と影響力を評価していたCIEは、ラジオに関しては新聞と異なり直接統制を行った。内幸町のNHK会館にオフィスを置き、番組を指導するだけでなく自らの政策意図に沿った番組を制作していた。その後次第に日本側が自主的に番組を制作するようになったが、CIEがNHKに同居していたこともあり、その影響力は新聞の比ではなかった。
　ラジオ同様、CIEが情報発信に積極的に活用したのが映画である。テレビがなかった当時、映画は国民にとって最大の娯楽であり非常に集客力が高かった。 CIEは民主主義を推し進めるための映画上映を積極的に推進し、映画館のない地域には映写機を持ち込んで上映会を開催していた。この民主化促進のための映画はCIE映画、もしくはそこで使われた米国ナトコ社製の映写機の名前をとってナトコ映画とも呼ばれた。
　本年度は、ラジオと映画によって発信された民主主義啓蒙のための情報と日本人の民主主義に対する考え方の関連性を明らかにするために、以下の2点を中心に研究を進めた。

①民主主義啓蒙のための情報発信はいかに行われたのかを明らかにするための資料収集及び検証。
②「日本人の国民性調査」にある「民主主義はよいか」との問いに対し「よい」と回答した人に着目し、民主化啓蒙のための情報発信は民主主義の肯定に効果があったのかという問いを立ててのデータ分析。

①に関して以下の資料を収集し検証を行った。
・1949年に開始された民主主義啓蒙のためのラジオドラマ「新しい道」の脚本の大部分を入手するとともに、「新しい道」の第3回録音放送を視聴した。
・CIEのラジオ課報告書を入手し、ラジオドラマ「新しい道」はじめ、他の民主化啓蒙のためのラジオ番組に対する議論および制作過程を検証した。
・CIE映画の一覧表を入手した。
・CIE映画の一つである「清らかに美しく」を視聴した。
・CIEが各県に提出させた1950年度のCIE映画観客数を記載したGHQ史料を入手した。
県別に日付と上映した映画、その観客数が記されている。これを集計し、一人当たりの県別年間CIE映画視聴回数を割り出した。

②に関しては、「日本人の国民性調査」の民主主義関連項目の中から「民主主主義はよいかとの質問において、最も年代の古い1958年調査で「よい」と回答した人に着目し、「よい」という回答に影響を与えている要因を分析した。なお、データ分析はDS共同利用施設の加藤直子特任助教が行った。

本年度に得られた成果
　本年度の研究により得られた成果として、次の2点の結論が得られたことが挙げられる。第一に、GHQの行ったラジオや映画を通じた民主主義啓蒙のための情報発信は、全体としてみれば、国民意識の変革に顕著に有効であったとは言えない。ただし、「民主主義はよいか」の問いに対し「よい」と回答した人の割合は1958年が高くその後下がっていることを考えれば、ラジオや映画と言った個別の情報発信そのものは大きな影響を与えなかったかもしれないが、占領改革によって醸し出された民主主義肯定の空気が日本人に影響を与えた可能性はある。
　次に、一方でもともと民主主義を受け入れる土壌を持っていた層に対しては、ラジオによる啓蒙は有効であった。この結果は、ナチスのユダヤ人排斥に関するプロパガンダ研究とも一致する。（Nico Voigtlander and Hans-Joachim Voth, “Nazi indoctrination and anti-Semitic beliefs in Germany” Proceedings of the National Academy of Sciences of the United States of America vol.112）この研究では、もともとユダヤ人に対して悪感情が強かった地域ではプロパガンダが有効に働いたという結果が出ている。いわゆる、人は自身にとって心地よい情報を取り入れるというエコーチェンバー効果である。
　最後に、史料の分析から、CIEは女性教育に力を注いでいたことが明らかとなったが、女性の民主主義に対する肯定度は高くない。 DK（わからない）が多いことから、女性に対する意識改革はうまくいかなかったと推察される。ただし、これに関しては他のジェンダー項目などと合わせて分析を行う必要があると考える。

　本年度はGHQ資料の収集に多くの時間を割いたため、データ分析はラジオ受信契約率およびCIE映画年間視聴回数と1958年に「民主主義はよい」との回答をした人との関連性に絞った分析しか行うことができなかった。次年度は、本年度に得た結果を検証するために、ジェンダー項目との関連性や保守的思想との関連性、特徴的な地域に絞った分析など、多面的な分析を行う予定である。

021RP2019 塩田　さやか（東京都立大学）
時系列データのための深層学習を用いたデータ拡張に関する研究

本研究の目的は時系列データのためのデータ拡張法を提案することで時系列データを扱う識別問題の頑健性を向上させることにあった．その実現のために，時系列データの代表的な信号の一つである音声信号を識別することに焦点をおいた．また，目標とする識別問題として，入力された音声は登録された話者によって発話されたものか，そうでないかを識別する話者照合を用いた．話者照合の研究分野においても近年の機械学習および深層学習の発展により，最先端技術として用いられる手法はx-vectorと呼ばれるDeep neural network（DNN）を用いた話者表現ベクトルを用いた照合を行っている．しかしながら，この技術を用いて高い識別性能を得るためにはDNNを十分に学習しうる量のデータが必要となる．どのようなデータを用いれば高い性能が得られるかということについては重要な研究となっており，一方で，システムを学習するためのデータ量がはじめから不十分であった場合にどう学習するべきかという研究についても大きな注目を浴びている．他の研究分野でも知られているようにデータ量の拡張は深層学習を行う際の重要な課題である．
そこで，本研究ではまずベースラインとなる最先端の話者照合システムとしてi-vectorおよびx-vectorと呼ばれる2手法を据えて，データ拡張の必要性について研究した．本年度に発表した論文誌において，i-vectorおよびx-vectorのデータ量が少ない場合にどのような影響があるか，また，話者性を復元できるデータを用いた学習データの拡張の必要性について言及した．この際，深層学習によるデータ拡張法と非学習型のデータ生成手法を用いたデータ拡張手法について言及した．実験において非学習型のデータ生成によって生成されたデータのうち音声品質が高く人間が聞いて好ましいと思われる音声よりも，多少ノイズが乗った音声であっても音声スペクトルの近さが近い方が機械学習を用いた識別機には望ましいということを確認できた．
その結果を踏まえて，国際学会において非学習型のデータ拡張手法を用いた深層学習に基づく話者照合であるx-vectorの性能向上が可能かを調査した．論文では，元のx-vectorに基づく話者照合システムを構築する際に必要なデータ量が少ない場合に，非線形型帯域拡張方（N-BWE）と線形予測分析に基づく手法（LPAS）を使うことで，データ不足による性能低下を大幅に抑えることができることを示した．さらに，データ量がある程度十分にあった場合においても提案した手法を組み合わせてデータ拡張することでさらに性能が改善することも示した．これらの結果から時系列データである音声のためのデータ生成及びデータベースの拡張手法としてある程度音声のバリエーションを増やすことが必要であり，ただ純粋にデータを増やすのではなく選択的にデータを生成して拡張することの必要性を示すことができた．国際学会においては，本計画の代表である塩田グループから研究発表を行った．発表では，実験に関する詳細の確認や，データ生成の必要性の示し方についての質疑及び，単純なデータの量産ではなく話者数の増加が影響を与えた可能性についても議論があり，とくに話者数についてはすぐ確認及び検証ができるものではないものの考える必要がある観点であることを確認できた．さらに同行した高道先生からは音声合成に関連した敵対的学習を用いた研究の発表もあり，今後は話者照合のためのデータ生成に適用するための議論について合わせて議論を行うことで今後の方向性についてもより明確にすることができ非常に有意義な発表および学会参加となった．
さらに，発表までは至らなかったが敵対的学習を用いたデータ生成手法として，FGSMを用いた話者ベクトルの生成についても検討を行った．前述にi-vectorおよびx-vectorに基づく話者照合のために生成した話者ベクトルであったが，敵対的学習を用いたデータ生成にはある程度のばらつきが存在しているため，適切な選択手法の考案が必須であることがわかった．今後はデータ生成およびデータ選択の手法について検討を行い，最先端の話者照合システムを用いて実験を行い検証することを考えている．それらについては発表可能な成果が得られ次第順次発表していく予定である．

022RP2019 Kanai　Masayuki（OTHER）
アジア7ヶ国で実施したウェルビーイングに関する国際比較調査データの一般公開に向けたデータと関連文書の整備

2018年度から始まった本共同研究の最終年度にあたる本年度は，昨年度までにデータ整備を終えた東アジア3ヶ国（日本・韓国・台湾）のデータセットを韓国社会科学資料院（KOSSDA）で公開するとともに（2019年6月27日付），残る東南アジア4ヶ国（タイ・インドネシア・フィリピン・ベトナム）のデータ整備のためのミーティングを，2020年2月1・2日に国立情報学研究所にて実施した．研究代表者が代表を務める科研プロジェクトとの共催として開催された本ミーティングには延べ28名が参加し，うちROIS-DS-JOINTの費用負担で参加したメンバーは13名であった．このミーティングにおいて，教育や職業のような基本属性の整備方法や今後のスケジュールなどが確認された．3年間のプロジェクトの集大成としての全7ヶ国分のデータセットは，2020年4月を目途にKOSSDAにて公開される予定である．参考資料として，上記ミーティングのプログラム，および2020年3月3日に開催予定だった第4回社会データ構造化シンポジウム用に作成した研究紹介ポスターを添付する．

023RP2019 永崎　研宣（OTHER）
西洋近代の歴史財務文書を対象としたOCRと構造化データの解析モデル構築

本研究の目的は、西洋近代の歴史財務文書を対象としたデータ解析のための一連のモデルを構築することであった。そのため本研究では、（1）英語の手書き歴史財務文書のOCR、（2）OCRテキストを対象とした構造化データの作成、（3）構造化テキストに基づく、企業間ビジネス関係を把握するためのデータ解析を行うとした。以下、それぞれの検討課題の成果を説明する。
　（1）本研究では、歴史財務文書の例として、イギリスのニューカッスル大学海洋技術工学特別コレクションが所蔵する、船舶解体業者Thos. W. Ward社の支出帳簿史料（約150ページ、306隻分の情報を掲載）を用いた。この史料を基に、機械学習を用いた手書き文書翻刻支援ツールTranskribusを利用して翻刻データを作成した。 Transkribusは、翻刻モデルの作成に学習用の翻刻データを必要とするため、50ページほどを手動で翻刻し、学習データとした。この翻刻データの取り扱いについては史料所蔵機関と調整する必要があり、現在検討中である。
　（2）、（3）については、成果発表を行った。内容としては、オーストリアの研究チームDEPCHAが提供する歴史財務文書の構造化のためのモデルを上記翻刻データに適用してTEI/XMLおよびRDF/XML形式のデータを作成し、これに基づいて情報を抽出・加工・分析する一連のPythonプログラムを適用し、Ward 社とビジネス関係にあった企業との間でやり取りされた資金の流れを示すというものであった。
この成果については、下記「学会誌等への発表」の①および②で発表した。 ①の成果については、小風尚樹（当時東京大学大学院生）が筆頭著者として人文科学とコンピュータシンポジウム「じんもんこん2019」において発表を行い、学生奨励賞を受賞した。 ②については、3月2日、ウィートン・カレッジ（米国マサチューセッツ州）でのワークショップにおいて口頭発表を行う予定だったが、新型コロナウイルス感染予防の観点から出張をキャンセルした。その代替措置としてオンライン会議システムZoomを用いたワークショップが当地にて同一日程で開催されたため、そこで発表を行い、当地のデジタル歴史学研究者達と活発な意見交換を行った。
以上のように、本研究では、歴史財務文書のデータ駆動型研究を一定の規模において成果として国内外の研究コミュニティに提示することができた。それだけでなく、歴史学分野全般におけるデータ駆動型研究の実践例が日本ではまだ決して多くないことから、そのケーススタディを提供したという点でも意義を見出し得るだろう。
なお、上記の事情により予算の主要部分を成す米国出張がキャンセルとなったため、予算の執行が十分にできなかった点はご容赦いただきたい。

024RP2019 金澤　雄一郎（国際基督教大学）
組織において信頼されることの文脈に沿った理解：国際共同研究

This study contextualizes trust research using an organizational role by examining the nuances of trustworthiness within the American, Canadian, and Japanese socio-cultural context. Specifically, we focus on the roles of employees within an organization, roles intended to foster higher levels of efficiencies. We define trust as a willingness to place ones’ self in a vulnerable position to another and trustworthiness as an assessment of another’s likelihood of honoring that vulnerability. We posit each respondent holds his/her idea of depersonalized trustworthiness of employees in terms of the relative strength of ability, benevolence, and integrity of Mayer, Davis, and Schoorman (1995). Still, we include the “others” category to account for the socio-cultural diversities among these countries.
Yamagishi and Yamagishi (1994) influenced the way we see trust and trustworthiness in a cultural context, but their comparisons were primarily between the United States (the West) and Japan (the East). In addition to these two countries, we wish to explore how such distinct values core to Canadian culture as a balance between individualism and collectivism, egalitarianism, and deference to authority, can contextualize their employee trustworthiness. About 250 undergraduates at a university in each of those three countries were recruited to describe in the abstract, a trustworthy “employee,” while prompted not to think of any specific individual whom they may have a relationship. His/her written response was translated into the categorical distribution by two trained raters independently and then reconciled. In all three countries, 53% to 58% of people found the integrity to be the dominant factor within ABIO (ability, benevolence, integrity, and other) framework. However, there are significant differences in all other response clusters between the US and Japan and between Canada and Japan. Japan’s history of rice farming may partially explain its low relational mobility in Thomson et al. (2019), and this mobility may explain the distinct “trustworthiness” formed within Japan.

この研究は、アメリカ、カナダ、日本それぞれの社会文化的文脈を通して、かつ組織における役割を用いて「信頼」のニュアンスを調べることにより、「信頼」することに関する研究が文脈に如何に依存するかを調査するものです。具体的には、より高い効率を求められる組織内の従業員の役割に焦点を当てました。本研究では自分を他者に対して脆弱な立場に置く意欲を「信頼」と定義し、「信頼に値すること（trustworthiness）」は他人がその脆弱性をどの程度の確率で尊重しているかの評価と定義します。 Mayer、Davis、およびSchoorman（1995）は「信頼に値すること（trustworthiness）」は能力（ability）、慈善（benevolence）、および誠実さ（integrity）から構成されるとしています。本研究でこれにならい（特定の個人を念頭においたものではなく）一般的な被雇用者の信頼性について、これらの要素の相対的な強さで表現可能な考えを個々の回答者が持つと仮定しました。しかしながら調査対象となる国々の文化的多様性社会を説明するために「その他（others）」のカテゴリを加えて設定しました。
　　　　　山岸と山岸（1994）は、私たちの信頼（trustfulness）の見方と文化的文脈における信頼すること（trustworthiness）に影響を与える重要な研究ですが、その比較は主に米国（西洋の代表）と日本（東洋の代表）の間で行われました。本研究では、個人主義と集団主義、平等主義、権威の尊重のバランスとして特徴づけられるカナダの文化が被雇用者の「信頼に値すること（trustworthiness）」にどのような影響を与えているかを、米国と日本に加えて分析することにより、よりニュアンスに富んだ「信頼に値すること（trustworthiness）」に対する理解を深めることを目的としています。
　　　　　これら3カ国それぞれの大学の約250名の学部の学生は、信頼できる「被雇用者」とは何か文章によって要約するということを求められました。その際に自らと関係のある特定の個人についてではなく、一般的な被雇用者を思い浮かべるように促されました。これらの学生の文章による回答は、訓練を受けた二人の評価者によって別々に能力（ability）、慈善（benevolence）、誠実さ（integrity）、およびその他（others）の４つのカテゴリーにどの程度重きが置かれているかを表すカテゴリー分布に変換され、その後評価者間の違いは調整されました。 3か国すべてで、53％から58％の人々が、誠実さがABIO（能力、慈善、誠実さ、その他）の枠組みにおける主要な要素であると考えていることがわかりました。ただし、米国と日本間、およびカナダと日本の間では、その他のすべての応答クラスターに大きな違いがあります。特に日本における稲作の歴史は、トムソンら（2019）が述べているように低い流動性を部分的に説明するものですが、この低い流動性が、日本国内で形成された独特な「信頼性」をある程度説明しているのかもしれません。

025RP2019 櫻井　伸一（京都工芸繊維大学）
ポリマー材料の一軸延伸過程での亀裂発生メカニズム解明のためのデータ同化シミュレーション

本研究では、データ同化と有限要素法によるシミュレーションを融合し、高分子材料にひずみを印加した場合、あるいは同じひずみを継続的に加え続けた場合の構造変化の予測を行うことを目的とした。デジタル画像相関法（DIC）の普及により、材料のひずみデータの収集効率が著しく向上し、様々な材料に対するひずみの莫大な空間情報の蓄積が可能となってきている。一方、材料の力学挙動を予測する際に広く使用されている従来の有限要素法を用いた手法では、巨視的な応力—ひずみ関係のみから材料の構成モデルと材料パラメーターを特定する。このような従来のプロセスでは、DICやX線散乱などの最新計測から得られた貴重な情報を有効活用できているとは言い難いので、本研究では、DICや様々な計測から得られる時々刻々のデータを、逐次、有限要素法に組み入れることにより、データ駆動型の材料評価技術を確立することを目的とした。
　DICから得られるひずみ場と、微視構造計測から得られる材料のミクロプロファイル（X線散乱測定結果を解析することによって得られるミクロな構造パラメータ）を有限要素法にインプットし、力の平衡条件を満たせるように構成モデルを逐次修正した。そして、修正された構成モデルを用いて後続の時間における材料の変形状態と構造変化（フーリェ空間（逆空間）における構造振幅）を予測した。これにより、材料の長期使用に対する劣化や損傷の前駆現象の早期予知を行える技術の開発を目指し、昨年度は、高分子材料のくびれ伝ぱ現象を例題として基本的な予測プロセスを構築した。今年度は昨年度の成果を下記の分野に応用すべく研究を継続した。
1．データ同化による計算機シミュレーション構成モデルの逐次修正
2．高分子材料のくびれ伝ぱ現象を例題とした基本的な予測プロセスの構築
3. 高分子材料のくびれ伝ぱ現象にともなうX線散乱データ計測と計算機シミュレーションへのデータ同化
　（逆空間データの計算機シミュレーションへの直接取り込み手法の構築）
　なお、当初計画していた実験結果（データ）の討議のための打合せは、令和２年に入って、コロナウィルスの影響拡大を受けて実施することが出来なかった。それに代わる方法として、メールに実験結果を添付して、それにコメントを記入して双方で送受信を複数回繰り返すことによって、研究結果を支障なくまとめることができたことを申し添えます。

026RP2019 横井　翔（農業・食品産業技術総合研究機構）
ミツバチのゲノム育種に向けた公共データベース中の転移因子のアノテーションと比較ゲノム解析

ミツバチ属の6種における転移因子Mariner-like-element(MLE)の分類と解析手法を検討し、結果として図1に示すよう行なった。
公共データベース上に公開されている6種類のミツバチ属のゲノムデータに対してRepeatMaskerを用いて、転移因子(TE)と繰り返し配列を検索した。その結果、全てのミツバチ種においてTEおよび繰り返し配列がゲノム全体に占める割合は大体5%前後であった。 RepeatMaskerによって同定されたTEのうちMarinerもしくはMariner-like-element(以降合わせてMLEとする。 )の配列を取り出した。その結果Apis mellifera(Am)では2000前後、その他のミツバチ種では100-150程度のMLEを検出した。
得られたMLEを詳細に分類するために、Drosophila 属におけるmariner (Dromar)の分類(Wallau et al., 2014,以下Dromar classとする。 )に基づいて行なった。まずWallau et al., (2014)で示されている、各Dromar classに属するMLEsの配列を20種Drosophila属ゲノムデータから抽出し、Dromar classごとにアライメントを行なった。このアライメント結果を利用して、hmmerを用いて各Dromar classの特徴をhmmerによって抽出し、hmmer profile fileを作成した。作成したhmmer profile fileとnhmmer programを利用して、先ほど検出したミツバチのMLEをDromar1-36に分類した。図2に分類した結果を示す。ミツバチ６種全てにおいてmauritianaとmelliferaのsubfamilyの属するDromar classに多くのMLEが分類された。一方、Amにおいては先述のsubfamily以外のsubfamily、すなわちvertumnnana、irritans、drosophila に属するDromar classに分類されたMLEが存在したがそれ以外の5種のミツバチでは存在しなかった（例外として、Dromar35にはApis florea, Apis cerana japonica,Apis drosataの各種においてそれぞれ1つだけMLEが分類された）。ただしその数はmauritianaとmelliferaに分類されたMLEの数に比べると少なかった。このことからミツバチ属のゲノム中に見出されるMLEのprofileがAmだけ異なり、他の5種はお互いに似ていることが明らかになった。またミツバチのMLEの多くはmauritiana,melliferaのsubfamilyに属することも明らかになった。
次に各Dromar classごとにApis MLEとDrosophilaのMLEのアライメントを実施し、結果をもとに系統樹を描いた。 Dromar26(mauritiana)の結果を図3に, Dromar17(mellifera)の結果を図4に示す。これらの結果からAmMLEのみで構成されるクラスターとミツバチ属6種のMLEで構成されるクラスターがどちらの系統樹でも見られた。 AmMLEのみで見られるクラスターを形成しているMLEは他のMLEと距離が非常に離れていた。これらのMLEは水平伝搬によってAmのゲノムに導入されたのち、コピーが増えたと推定される。一方6種のApis属のMLEで構成される後者のクラスターに属するMLEsはミツバチ属の祖先種から存在し、transposaeが活性を失うことで移動能の失いミツバチ属のゲノムに定着したと考えられる。
以上のまとめると、nhmmerを用いたミツバチのMLEは詳細に分類することができ、この分類方法は有用であることが示唆された。さらにその分類結果を元に解析を行うことで、MLEのミツバチ種の進化の過程を推定することができた。これらの結果をまとめて、BioRvixにアップロードした(DOI:10.1101/2020.04.15.035063)。

027RP2019 小舘　亮之（津田塾大学）
多次元尺度法を用いたオープンデータ・ビッグデータからの消費者感性情報の抽出とマーケティングへの利用研究

本研究の目的は、「オープンデータ・ビッグデータを活用した共同研究におけるデータ・ライフサイクルマネジメントの検討」と「オープンデータ・ビッグデータからの消費者感性情報の抽出・可視化」である。
ビッグデータやオープンデータなど大規模なデータを効果的に活用し、社会的課題の解決をはかる取組に注目が集まっている。一方で、ソーシャルメディア上のデータを含むビッグデータ（以降、ソーシャルビッグデータと記す）や上のデータ活用に関連する多くの課題、論点が指摘されている。特に、行動履歴、購買履歴、通信ログ、アクセス記録など多様なデータが自動的に記録され、技術的に利用可能な環境が進んでいる。ソーシャルビッグデータには、少なからずこのようなパーソナルデータが含まれる危険性が指摘されている。また、これらのデータ利用の取り扱いにおいて、プライバシー・個人情報保護と利活用の適切なバランスの確保が課題となっている。著作権を含むデータに関する権利処理の問題がある。また、データ利活用に際して提供者本人からの同意が取られているのか、利用目的は明示されているかなどについても、提供者から同意確認の取得など、データマネジメントに関する課題が生じる。よって、研究目的でこれらのデータを利用する場合、これらの問題に研究者個人が適切に対応することが求められており、円滑なデータ利活用の妨げになることが懸念されている。
　加えて、特に社会科学系の研究者にとって、ソーシャルビッグデータから研究対象のデータをWeb空間から取得すること、また、取得したデータを研究用に利用できるように加工・整備するためには、情報処理などに関する専門的な知識・技術を要するため、容易に利用することが難しいことも想定される。
こうした課題の解決策としては、企業や国・地方自治体などが保有するデータを学術研究用に提供することが１つの有力な手段となり得る。ただし、こうしたデータを利用する場合、特に複数の所属機関の異なる研究者が参加する共同研究などの場合には、データの利用条件の留意し、研究に活用するためのデータ・ライフサイクルマネジメントを行う必要がある。
　そこで、本研究は、学術用データセットとして国立情報学研究所情報学研究データリポジトリ（以下、IDR）が提供する学術データを活用し、実際に複数の機関に所属する研究者が参加する共同研究を行い、その共同研究の中で提供されたデータのデータ・ライフサイクルマネジメントの在り方を検討した。また、ソーシャルビッグデータを活用した共同研究では、近年マーケティングの分野で注目を詰めるユーザの感性情報を抽出し、可視化することにより、マーケティングに活用する方法を検討することをテーマとして行った。
　本研究では、IDRよりYahoo！知恵袋のデータセットを共同研究の共通データセットとして提供を受けた。この際、IDRとのデータの利用契約は各研究者の所属する機関との契約締結が必要なため、各研究者が代表者・使用責任者となり、IDRとの間で利用契約を結ぶ形となる。
このため、本共同研究では、Yahoo！知恵袋のデータを共通データとして利用するが提供を受けたデータや、例えば、分析を行うための下処理としてデータクリーニングを行ったデータセットや、テキストマイニング処理などを行った結果、得られた分析データなどを直接共同研究者が共有することは、IDRとの利用契約に反する可能性が高く、また、データセットに含まれる個人情報やデータそのものの漏えいリスクの観点からも共有すべきではないと考えられる。そこで、本研究では、共通データについては各研究者が個別に管理を行う。さらに、このデータを処理するためのデータクリーニングなどの基準・方法、データマイニングの処理方法などデータ処理・分析のためのプロトコルと、実際にデータを処理するためのスクリプトを共有することにより、データの処理結果・分析結果を共有することを可能にした。
　また、実際に、これらのデータを活用して行った「オープンデータ・ビッグデータからの消費者感性情報の抽出・可視化」の検討で得られた成果について、報告を行った。
　下記に、本共同研究で行った報告の中から、いくつかを抜粋してその成果を報告する。

・Q&Aコミュニティにおける質問文からの製品情報の分析（佛教大学：吉見憲二）
　ソーシャルメディアの普及に伴い、消費者の生の声をマーケティング等に活用するソーシャルリスニングがさまざまな場面で活用されている。特に、TwitterやFacebook、Instagramといったサービスは世界的に多くのユーザーを抱えており、ソーシャルリスニングから期待される効果も大きい。しかしながら、こうしたサービスの投稿内容には多くのノイズが含まれるため、有用な知見を得るためには多くの工夫が必要となる。他方で、Yahoo!知恵袋に代表されるQ&Aコミュニティでは、より明確な問題意識の下に質問が投稿されていることから、製品・サービスの抱える課題に言及しやすいことが予想される。本研究では、日本最大のQ&AコミュニティであるYahoo!知恵袋のスマートフォンカテゴリを対象に、質問文から製品情報の分析を行った。
　分析の手順として、まず頻出上位単語を比較し、それぞれの機種に特有の表現について検討した。次に、共起ネットワーク分析を用いて抽出した単語間の共起関係について示した。共起ネットワーク分析の描写に当たっては全体の5%以上に登場している単語を対象とし、Jaccard係数0.1以上の共起関係を基準とした。
　共起ネットワーク分析の結果から、iPhoneカテゴリでは機種変更に加えて、「iTunes」を通してのパソコンでのバックアップに関する質問の比重が大きいことが読み取れる。それに対して、Androidカテゴリでは、SDカードを通しての写真や画像のデータ保存に関する質問が目立っていた。両者の共起ネットワークの比較より、両カテゴリにおける質問傾向の把握、さらには、両製品におけるユーザーの「悩み」を効率的に把握することが可能となっている。（共起ネットワーク分析の結果については、添付資料１を参照）
　分析の結果、iPhoneカテゴリとAndroidカテゴリのそれぞれにおいてユーザーが抱えている蓋然性の高い悩みを把握することができた。

・テキストマイニングによるサーフィンの普及に向けた課題の分析-共起ネットワークによる可視化の試み（大阪市立大学：谷本和也）
　本研究では近年、東京オリンピック競技に選定されたことから広く認知されつつあるサーフィンを取り上げ、我が国におけるサーフィンの普及に関する課題について探索することを目的とする。手法としては、「Yahoo!知恵袋」のサーフィンカテゴリに投稿されたデータを対象とし、サーフィンにおける課題抽出のため、サーフィンに関する疑問の全体的な傾向を把握することを目的として共起ネットワークによる可視化することによって、消費者のサーフィンに対する認知の可視化を試みた。その結果、「サーフボードに関するグループ」、「サーフィンをおこなう環境・場所に関する情報のグループ」、「サーフィンの技術に関するグループ」、「サーフィンにおける体温調整に関するグループ」の大きく４つのグループが可視化された（共起ネットワーク分析の結果については、添付資料２参照）。 4つのグループから抽出された課題は、特にサーフィン初心者から経験者に対しての質問とその回答が集約されていると考えられる。つまり、サーフィン開始初期や今から始めようと考えているサーファが経験する悩みが凝縮されており、これらの解決を促進する取り組みはサーフィン普及のための一助となる可能性があると考える。

　以上、本研究では、企業や国・地方自治体が保有するデータの（IDRのようなデータ・アーカイブセンターから）提供を受け、研究を行うことが研究者、特にデータの収集手段を持たない社会科学系の研究者に取って、有用であることを示すとともに、データを活用する際、特に共同研究として実施する際のデータ・ライフサイクルマネジメントの在り方を検討した。この結果、データ処理のプロトコル・スクリプトの共有により共同研究の中でデータマネジメントを行いつつ、十分な共同研究を実施することが可能であることを示した。今後は今年度の成果を踏まえて、さらに研究成果へのオープンアクセス・オープンデータに対応するため共同研究内でのデータマネジメントから研究データ・成果を公開するためのデータ・ライフサイクルマネジメントへ対応するための方法を検討していく。
また、オープンデータ・ビッグデータからの消費者感性情報の抽出・可視化については、提供されたデータセットを活用が、本研究の目的の第１段階である消費者感性情報の抽出・可視化に有効な手段であることを示すことができた。今後は、今年度の成果を踏まえて、抽出した消費者の感性情報を実際のマーケティングなどに活用するために企業などと共同で、課題の検討などを行う必要がある。また、その際に、データ・ライフサイクルマネジメントの観点から、学術研究の成果をどのように社会実装していくべきか、その在り方の検討を行う必要がある。
　この点を次年度の共同研究のテーマとして取り組むとともに、教育、特に学部学生の教育に活用するための在り方を検討する。

028RP2019 桑原　知巳（香川大学）
既知ゲノム情報に基づく難培養性ルミノコッカス科バクテリアの培養条件設計

2019年度は培養培地データベースとそれに対応する菌株情報、菌株間の機能類似性との関係を効率よく検索できるシステムを構築することにより、培養培地条件の設定をより簡便にできるようにした。培地情報としては、理化学研究所のバイオリソース研究センターが提供するJCM株に対応する843培地情報、製品評価技術基盤機構の生物リソースセンターが提供するNBRC株に対応する649培地情報に加え、独自に文献から抽出した152培地情報をResource Description Framework (RDF)でデータベース化した。その際に、共通のオントロジーを用いて成分情報をデータベース化することによって、複数の機関が提供する培地情報を共通の枠組みで検索できるようにした。これらの培地情報に、対応する菌株情報を加え、培地、成分、生物種の3種類の情報を検索できるインタフェースを構築し、http://growthmedium.org/ からTogoMediumデータベースとして公開した。培地の成分や菌株名をキーワードとして入力し、検索結果から、培地情報、成分情報、生物種情報それぞれのページを表示できるようにし、各ページからは関連する別のページを参照することもできる。 TogoMediumでは、2018年度に実施した菌株間の機能的な類似度から関連する培地情報や培地の共通成分を調べるための仕組みも提供するようにした。対象生物種を200種まで増やし、これらを機能モジュールの充足率であるMCRによる生理・代謝機能類似度でクラスタリングした結果を分類木の形で表示するようにした（http://growthmedia.org/media_alignment）。分類木の末端ノードは200種の菌株に対応し、好気性・嫌気性により色分けされている。内部ノードをクリックすると、そのノード以下の菌株を培養できる培地情報を検索し、成分でソートして表示するため、培地の共通項、独自項を整理しやすくなった。当初の計画では通性嫌気性菌50種に関する培地の調査およびデータ入力の役務費を270,000円計上していたが、予測精度を向上させるため、偏性嫌気性菌を含めた約70種の調査・データ入力に範囲を拡大したため、370,500円に増加した。台風や新型コロナウイルス感染症の影響により、年度の中間および年度末の対面での研究打ち合わせを実施できなかったが、メールや電話等で進捗や問題点の共有は十分に行えた。そのため、当初計上していた旅費392,000円の執行額が46,020円と大幅に減少した。

029RP2019 松前　ひろみ（東海大学）
Museomics: ライフサイエンスと博物館のデータを統合する菌類博物館標本のゲノムシーケンシング解析

本研究では、これまで生物学において個別の体系で蓄積されてきた博物館標本とライフサイエンス（ゲノム）という２つのデータを融合させるMuseomics (Museum+Omics) 型研究の立ち上げを目的として、具体的には博物館標本由来の菌類のゲノム解析を中心として行い、合わせてデータベース情報の集約を進めた。

【背景】　
動物や植物に比べ、集団遺伝学に基づいた菌類の全ゲノム情報を用いた遺伝的多様性解析は進んでいない。その一つの理由として、後述のように菌類からのゲノムDNAの抽出が難しいことが考えられるが、いくつかの先行研究から、菌類は動植物とは異なる遺伝的多様性の特徴、例えば極端に高い多様性等をもつことが示唆されている。集団遺伝学というデータ科学の観点から見ると、これまでヒトやマウスなどの遺伝的多様性が低い種のデータが蓄積され、その解析手法が数多く開発されている。一方、ゲノム多様性が高い生物種の研究は発展途上であり、解析手法も揃っていないことが先行研究でも指摘されている。そこで、博物館資料を含めた国内の菌類を広く集め、ゲノムの特徴を明らかにすることができれば、a) データ統合としての博物館資料の新しい活用方法の提案と、b) 複合的な進化・生態学・分類学な課題に一度に挑戦する、という2種類の学問の壁を越えた研究を展開することができる。

① NGSを利用した菌類のゲノム多様性の解析
本研究では、当初、国立科学博物館やバイオバンクで収集・維持されている日本国内のスエヒロタケの標本（菌株）について、地域差を考慮して、多数の菌株のゲノムを解析・比較する計画を立てた。しかし、菌類は夾雑物が多く、本種でもNGSに耐えうるDNA抽出が予想以上に難航したため、今年度は計画を変更しDNA抽出法の検討を中心に行った。その結果、本予算も用いて、試験的に2株の菌株から二つのNGS（ショートリードのIllumina・NextSeq、ロングリードのOxford Nanopore Technologies・MinION）で、本種のゲノムサイズに対してそれぞれ100x以上に相当するリード配列を得ることができた。今後の菌類ゲノムのNGSでの解析に弾みがついた。

①-1. 菌株の収集
菌株は分担者・細矢の所属する国立科学博物館と、千葉大学真菌医学研究センターの2箇所から譲渡されたものを研究に使用した。分担者の細矢らと、ゲノムDNA抽出に適した培養法の探索から行い、複数の培養方法を試した。その結果、DNA抽出の効率を上げるためには、特に液体培地での培養が、培地の混入が少なく適していた。通常、液体培養を行うとよく成長するが、株によっては液体培養をしても増えない株があり、株の表現型の差ではないかと考えられた。

①-2. ゲノムDNA抽出方法
効率的な菌類からのDNA抽出には、事前に菌株を凍結乾燥し、さらに凍結粉砕をすることが必須であることが分かった。代表者の所属する東海大学医学部にはそれらに必要な装置がなかったため、共同研究先の横浜市立大学木原生物学研究所にてDNA抽出実験を行った。菌類で実績のある3つのDNA抽出法(商用キットA, 商用キットB, 商用キットを用いないプロトコルC)を試し、本研究の目的にどれが適しているか、評価を行った。加えて、トラブルシューティングも整理した。
まず、分光光度計(NanoDrop)を用いてDNA抽出物の純度を評価した。 MinIONは、タンパク質や多糖類などの夾雑物を含むDNA抽出物ではシーケンシングができない。分光光度計を用いれば、夾雑物のコンタミネーションの指標を得ることができるため、DNA抽出では必ず使われている。分光光度計の値を比較してみると、三つのDNA抽出法のうち、ショートリードによく使われる商用キットAがタンパク質・多糖類共に最も混入しやすいことが分かった。商用キットBとプロトコルCは、タンパク質の混入については問題が無かったが、多糖類はどちらも手法でも完全な除去が難しい株が少なくなかった。純度の違いは、実験者の技術的な誤差よりも、菌株の差を反映していると考えられるケースがあった。
次にDNA抽出効率（濃度）と品質の関係について、商用キットBとプロトコルCで同じ株を2回ずつ抽出した場合を比較した。濃度は、夾雑物の影響を受けやすい分光光度計と、夾雑物の有無に左右されにくく定量性の高い蛍光光度計(Qubit)で測定したDNA量を評価した。全体的に見れば商用キットBは安定性が高かった。ただし株によってはプロトコルCが適している場合もあり、やはり夾雑物が影響していると考えられた。夾雑物の除去については、今後、機会があれば、植物や菌類の核酸抽出の専門家に相談して進めていきたい。
操作性という観点から、プロトコルCは細かいトラブルシューティングが可能であるが、最長で11時間かかったこともあり、実験者の負担が大きい。商用キットBは5-6時間で終了し、操作も容易であり、もし常に使えれば、コストパフォーマンスが高い。
なお、商用キットAで抽出したDNAでイルミナのライブラリを作製したが、品質が悪いDNAではライブラリを作ることができなかった。今後ショートリードには商用キットBのキットを使っていくことを検討している。
シーケンシングは、当初、本予算では地域多型などを考慮して24株程度をイルミナで、　並行してアセンブルの精度を上げる目的で小数株をMinIONで解析する予定であった。しかし、DNA抽出に時間がかかったこと、また新型コロナウイルスの感染拡大などにより、研究計画を大幅に変更し、各NGSに必要な品質の条件を達成したサンプルについて、予備実験としてシーケンシングを行った。本研究助成の予算を用い、2株を共同研究先であるチューリヒ大学のNextSeqでシーケンシングを行った。並行してプロトコルCでDNAを抽出し、精製した1株を、代表者の所有するMinIONでシーケンシングを行った。その結果、いずれにおいても、ゲノムサイズに対して、予想されるカバレッジが100x以上となる十分量なリード配列を得ることができた。この結果により、苦戦していた分子生物学実験の予備実験を完走することができ、研究計画全体に弾みがついた。得られたリード配列のデータについては、今後、アセンブル等のデータ解析を行っていく。

② ゲノム（GenBank）, 博物館情報（GBIF）のデータベース情報の集約
本研究によって得られたスエヒロタケのDNA配列と、これまでに報告されたDNA配列とを比較検討するため、公共データベース中のスエヒロタケデータの状況を調べるとともに、配列を取得し、参照するための基盤整備を行った。
ゲノム配列としてNCBIにScaffoldレベルで4つの登録がなされていた。最もScaffold数が少ないのはv1.0として登録された37 scaffoldで、ゲノムサイズは約38Mbである。ただし2010年のデータであるので信頼性を確認する必要があるかもしれない。 SRAに登録されたNGSデータは31プロジェクトあり、さまざまな株でのResequencingやWhole genome sequencingデータがあるので、必要に応じて今度ダウンロードし、アセンブルすることで今回得られたデータとの比較検討を行う。遺伝子としてはNCBI GeneにH4-8株で13,191遺伝子の情報がある。これらの情報をたとえばゲノムブラウザなどの形でとりまとめ、今回シーケンスしたサンプルも交え、今後、比較検討を行う予定である。
スエヒロタケは、遺伝的多様性が大きいことが知られているが、その検討材料の一助としては、DNAバーコーディングのデータを用いることも検討している。 DNAバーコーディングのデータとしては、UNITEに598のバーコード配列が登録されており、今後の解析の結果によっては、この情報も交えてその後の解析を行う予定である。一般的に、DNAバーコーディング情報には、標本や採集地の情報も付与されており、必要に応じ、オカレンスのデータベースであるGBIFのデータも利用する予定である。

【予算執行の変更について】
研究計画の変更に伴い、シーケンシングの規模を縮小したことにより、予算が余ることとなった。更に世界的なコロナウイルスの感染拡大のため、海外へ発注していたシーケンシングの領収書の到着が遅れるなどのトラブルが生じた他、打ち合わせのための出張をキャンセルした。

【まとめ】
2019年度はスエヒロタケのNGS解析における分子生物学実験の確立を目指した。細かい課題はあるが、概ね、多検体のシーケンシングを進められる目処が立ったと考えている。今後は、本来の目的である、博物館資料のゲノム解析を進め、博物館におけるオカレンス情報なども活用して、菌類の多様性と進化の背景を切り開き、博物館とライフサイエンスの統合を進めたい。

030RP2019 梶山　朋子（広島市立大学）
データの構造化と多面的な検索を支援するインタフェースを応用した横断検索システム

本研究では，多面的な検索を支援するリング状検索インタフェースを応用し，様々なデータ形式に対応できるような検索システムの開発を目指した．既存のリング状検索インタフェースは，各検索属性に対し各データは1対1で属性値を持つ必要があり，検索属性に対する属性値は1次元に整列させリング状に配置した，離散量属性や連続量属性に対応できるが，1つの検索属性に対し複数の属性値を持つデータや，階層構造を持つ検索属性への対応ができない問題点があった．これらの問題を解決するために，DB構造および検索アルゴリズムを再検討し，リング状検索インタフェースの改良を行った．
　本検索インタフェースでは，検索結果を画像で表示することが最適であるため，検索結果として表示するデータの表現方法についても平行して検討を行った．テキストや画像など既存データそのものを表示するのではなく，データ使用者の印象やデータ特性を反映させた象徴画像の生成を目指した．評価実験の準備を進めていたが，新型コロナウイルスの感染拡大に伴い，実験の実施を断念したため，提案画像の評価には至っていない．

031RP2019 佐藤　光輝（北海道大学）
昭和基地で取得した1-100Hz帯ELF磁場波形データの共有と可視化

本課題では，次の2つの項目を実施した。第一に，これまで取得したELFデータの管理・保管体制の改善，第二にIUGONETからの公開に向けたELFデータのCDFファイル化処理である。
第一の項目に関する実施内容は次の通りである。昭和基地では1-100 Hz帯ELF磁場波形データを2000年2月から現在に至るまで継続的に取得しているが，そのデータは北海道大学において管理してきた。データ総量は約2.65 TBと膨大であるにも関わらず，データの管理方法に関して必ずしも洗練されているとは言えず，2005年頃まではCD-ROM, DVD-RAM等のメディアに，それ以降の年代はコンピュータ外付けUSBハードディスク（HDD）にデータを保管している状態であった。特に，外付けHDDは一度破損するとデータが永久に失われる危険な状態にあった。これら全てのデータを，1つの大容量ハードディスクに一元的にバックアップして保存・管理にするべく，本課題では容量16 TBのネットワークHDD（NAS）（I-Oデータ製HDL4-X16）を2台購入した。これらのNASをセットアップして，2000年2月からのELFデータの逐次バックアップを開始した。本課題終了時点で全てのELFデータのバックアップを完了してはいないが，今後もデータのバックアップ作業を継続し，2021年3月末を目標に完了させる予定である。
第二の項目に関する実施内容は次の通りである。 ELFデータをどのプラットフォームからどのような形で公開するべきか，極地研究所・田中良昌准教授と協議を重ねた。その結果，太陽地球惑星関連のデータが統合的に公開されているIUGONETのプラットフォームからELFデータを公開するのが，世界の研究者の今後のデータ利活用にとって相応しいとの結論となった。このため，ELFデータをIUGONETから公開するべく，データのフォーマットや処理方法，および作業方針について詳細を検討した。その結果，(1) データフォーマットはCDFとし，CDFファイルを作成するためのメタデータを整備すること，(2) ELFデータは1ファイル/分の割合で作成されているが，これを1ファイル/時と変更すること，(3) IUGONETのデータ解析ツール（SPEDAS）によってプロットができること，(4) サンプルとして1ヶ月分のELFデータをCDF化して公開すること，の以上4項目を2019年度の到達目標と設定した。まず(1)について，すでにサーチコイル磁力計の磁場波形データをIUGONETから公開している名古屋大学作成のCDFファイル用メタデータを参考に，ELFデータ用のメタデータを整備した。ファイル自体はエクセルファイルで作成することとなっており，CDFファイルに盛り込む変数や単位などを定義するなど，ELF観測の内容を反映させる形で修正を行った。このファイルをcsv形式で保存し，メタデータの作成は完了した。次に(2)に関して，まずは1分間のELFデータをCDFファイル化してみることを試みた。極地研究所・田中良昌准教授の協力とアドヴァイスを得つつ，データ処理ソフトウェア（IDL）によってcsv形式のメタデータおよび1分間のELFデータの読み込みとCDF変換処理，そしてCDFファイル出力に成功した。次に，60分間分（=60ファイル）のELFデータを逐次読み込ませ，変換したデータを1つのCDFファイルに書き込み出力することに成功した。次に(3)に関して，SPEDASによってELFのCDFファイルを読み込ませプロットできることを確認した。添付の画像Fig.1は，作成したCDFファイルを読み込ませ波形をプロットした結果である。図の上から，2010年12月10日17:00:55 - 17:01:05 UTのGPS IRIG-E波形，磁気南北方向のELF波形，磁気東西方向のELF波形のプロットである。またFig.2は，2010年4月1日00:00:00 – 01:00:00 UTの磁気南北方向ELFデータ1時間分のダイナミックスペクトルをSPEDASによって計算しプロットしたものである。これらによって，ELFデータはSPEDASによって正常に処理・解析されることを確認した。最後に(4)に関して，サンプルとして2010年4月の1ヶ月分のELFデータを処理し，CDFファイルを作成した。これらのファイルをIUGONETからテスト的に公開した。 2019年度の到達目標としては1ヶ月分のELFデータのCDF化処理と公開であったが，その後もデータ処理を継続し，現時点（2020年4月末）までで2010年の1年間分のELFデータのCDF化が完了している。ただ，各日のELFデータの品質を確認しながらCDF化処理を進めるため，短時間のうちに全て自動処理で作業が一気に進むというわけではない。今後も継続してデータのCDF化処理を行い，数年分などある程度処理が進んだ段階でIUGONETから逐次公開するという作業を進める予定である。
当初は，研究打合せ（年4回）および成果発表会参加（年2回）のための旅費と，大容量ストレージ（NAS）購入用の消耗品費として，合計約65万円を計上していた。実際は研究打合せを1回のみ行い，学会等での打合せ，電子メールによる打合せにより研究を推進した。さらに，学会開催時に本研究課題の成果が十分に出ていなかった等の理由で，成果発表のための旅費支出が無かった。また，当初購入を予定していたNASは8 TBの容量のものであったが，これをより大容量の16 TBのものに機種を変更したため購入経費が予定より約1.8倍多くなった。以上により残金が出たが，これは年度末近い2020年2月末に返納することとした。

032RP2019 神沼　英里（東京医科歯科大学）
医療アクセス制限研究の属性共起分析による類似オープンデータ順位付けとデータサイエンス応用

2019年度の継続研究では、ランキング上位のオープンデータの統合結果から属性値予測モデルを構築し、オープンデータ活用の有効性を検証した。また全工程が手作業である提案手法の実用化は、手作業のままではコスト高である為に、オープンデータ順位付け処理の自動化を行った。

[1] 糖尿病電子カルテオープンデータから属性予測モデルの構築
ランキング上位のオープンデータから属性予測モデルを構築して、実際にデータサイエンス教育の教材として活用する。「医療・創薬データサイエンスコンソーシアム」では、全国糖尿病患者電子カルテ「J-DREAMS」データベースを扱う国立国際医療研究センターへ受講生を研修生として派遣している。研修前に、「オープンデータ入門」の教材として、属性予測モデルのプログラミング部分をまとめて、受講生に提供する事にした。

まず、属性予測モデル構築のために、2018年度に解析を行ったランキング上位の糖尿病電子カルテオープンデータの属性注釈のMeSH Termを用いて、複数データセットの統合方法を検討した。 2018年度に、糖尿病のキーワードでGoogle Dataset Search検索結果から、17件の糖尿病データセットが得ている。各データセットの属性数や被験者数はばらばらである。 2018年度のオープンデータランキング手法の結果があるので、上位のデータセットを統合して、教材を作成する事が望ましい。しかし、属性毎に割り当てたMeSH Termを分析した所、オープンデータ毎に属性がばらばらで、糖尿病診断に用いられるHbA1cに相当するMeSH Termでさえ、被覆率が50％程度だった。この為、ランキング上位のデータセットをそのまま統合すると、統合後の属性情報は欠損値がほとんどになってしまう。属性情報を考慮しながら複数のデータセットを統合するには、知見を集める必要がある。この理由から、今年度は複数オープンデータの統合する属性予測モデル構築は断念して、１オープンデータのみの利用により属性情報の重要度を調査する事とした。

糖尿病電子カルテの17のオープンデータから１件を選択して、属性予測モデル構築した。まず被験者数が多く、属性数が少ないデータセットを１件選択した。 J-DREAMSに対するオープンデータランキングでは上位8番目の、Woo YCらの香港の高齢者集団を対象とした糖尿病への心血管疾患リスクの調査研究(PMID:28910380)のデータセットである。元論文の目的である心血管疾患リスクテストの属性や、被験者番号属性などを除いた7属性を入力変数として、糖尿病(DM: Diabetes Mellitus)の有無を分類する機械学習モデルを構築した。 Google ColaboratoryでPython言語によりXGBoost(勾配ブースティング決定木)アルゴリズムの分類モデルを実装した。被験者のデータは、1,415名（DM=95名）を7：3で訓練とテストに分割した。またGrid Searchにより最適な木構造Depthを決定した。試行分でのテストデータの分類精度は100%（Accuracy）となった。属性変数の重要度を計算した所、2hG(ブドウ糖負荷試験の2時間後血糖値 )が0.91, FG(空腹時血糖値)が0.08, 年齢が0.01となった。 HbA1cは0.003と年齢よりも一桁低い重要度となった。

2012年発行の「糖尿病の分類と診断基準に関する委員会報告（国際標準化対応版）」(糖尿病」 Vol.55 (2012) No.7 p.485-504)によると、糖尿病の臨床診断基準は、①空腹時血糖(FG)≧126mg/dL(7.0mmol/L),②75g経口ブドウ糖負荷試験（OGTT）2時間値(2hG)≧200mg/dL（11.1mmol/L）,③随時血糖≧200mgdl④HbA1c（NGSP）≧6.5 ％のいずれかを2回以上確認すれば確定となる。上記で構築した、糖尿病の有無を分類する属性予測モデルでは、木構造の分岐条件となる変数閾値を確認出来る。最初の木構造の分岐条件は2hG≧11.05で糖尿病有との判定だった。続く2hG＜11.05の分岐条件は、FG≧6.95で糖尿病有との判定となった。これらの分岐値は、前述の国際標準の診断基準値に近かった。データサイエンス初心者向けの教材としては、モデルの解釈がし易いかもしれない。これらはe-Learning教材としてまとめて2019年度後半に公開済で、19名の受講生が利用した。

[2] 提案手法の自動処理化
提案手法である「アクセス制限研究の代替オープンデータランキング手法」の工程は、現時点で全て手作業である。手作業では運用コストが高くなるので、工程を部分的にでも自動処理化しないと提案手法は実用的に使えない。自動処理化が見込めそうな工程は2箇所が考えられる。 1つ目は電子カルテのオープンデータの属性情報をインターネットから取得する「Web Scrapingによるデータセット自動取得」である。 2つ目は「属性KeyのMeSH Term自動注釈」で、自動注釈プログラムを作成するには、Ground Truthとなる属性注釈データを集める必要がある。昨年2018年度に手作業で属性注釈を収集したが、757個なのでMeSH Term単位で注釈量を増やしていく必要がある。また2018年度に収集したデータは、糖尿病「Diabetes」のキーワード検索結果のみだった。本来は、代替オープンデータのランキング手法は、汎用的に自由記載の疾患名をキーワードとして利用可能である。しかい、手作業の為にデータセットの収集コストが高い。自由記載キーワードでの代替オープンデータを収集する為に、本年度は「Web Scrapingによるデータセット自動取得」のプログラムに注力して開発を行った。

Web Scrapingプログラムは、属性予測モデルを構築したのと同じくGoogle Colab環境で開発した。 Colab環境ではPythonだけでなくLinuxコマンドが使えるからである。まずGoogle Dataset Searchのキーワード検索結果からURLリストを抽出して、BioMed Central等の論文Supplementalデータが得られるFigshareのURLのみに絞り込む。 Figshareを採用した理由は、ダウンロード仕様が統一（APIも提供）されている事と、Figshareデータは基本CC0設定の為に著作権を気にする必要がないからである。次にFigshareサイトから、1)オープンデータと2)論文情報を得るためのメタデータ(bib形式ファイル)、の2つをGoogle Colabクラウドに取得する。最終的に、Google ColabからLocal PCに全データをダウンロードする流れとした。

実装したプログラムで主要な疾患キーワードを入力してオープンデータを取得する試行実験を行った。昨年度の「Diabetes(糖尿病)」をキーワードとした場合は、Google Dataset Search(GDS)ヒット数からオープンデータを取得できた割合は0.075(226件検索ヒット中17件取得)だった。今回、他の疾患キーワードを試みたがGDSのヒット数自体が少なかった。例えば脳卒中「Apoplexy」の検索ヒット数は97件、figshare　URLが拾えた数が8件、更に論文Supplementalとして統計値や単に図だけのファイルも多いため、被験者を単位とする医療情報データが取得できたのは1件(1/97=0.013)だった。同様に医療情報オープンデータが取得できた「Cancer(がん)」2件、「Heart Disease(心疾患)」１件、「Diabetes(糖尿病)」新規１件、の計5件のオープンデータを2019年度分データセットとして収集した。これら5件のオープンデータの属性総数は175件、被験者総数は508名であった。収集した属性は、自動注釈用の学習データを増やす為に昨年度と同プロトコルでMeSH Termを手作業で割り当てた。

[3]　研究成果まとめ：成果発表とプログラムコード公開
全体の研究計画は、下記の通りである。昨年度(2018年度)は①の部分まで達成した。
①アクセス制限研究をクエリとするオープンデータ順位付け手法の提案、工程確立
②高順位結果のオープンデータから属性予測モデルを構築
③提案するオープンデータ順位付け手法の自動処理化

2019年度の進捗として、上記全体研究計画の②と③まで達成する事が出来た。一方で、②属性予測モデルの構築では、単一オープンデータの利用にとどまった。今後、複数オープンデータの統合方法を検討していく必要がある。また③の自動処理化では、工程の一部であるWeb Scraping部分を自動化した。自由記載の疾患キーワードを入力してファイルダウンロードまで自動処理されるが、Figshareからのオープンデータ・ダウンロードに限定される点に注意が必要である。構築した③Web Scrapingプログラムコードは、②の糖尿病属性予測モデルと共に、 Google Colab環境プログラムとしてhttps://github.com/ekaminuma/ROIS-DS-JOINTから公開した。また、2018年度分の研究成果をまとめて、2019年11月開催のJAMI &amp; JSAI AIM 合同研究会(日本医療情報学会と人工知能学会の合同研究会)にて口頭発表を行った。

033RP2019 嶋田　健一（OTHER）
オーソログ共進化パターンに基づく遺伝子間相互作用の推定

目的・概要: タンパク質複合体あるいはパスウェイとして機能発現している遺伝子群の間に強い相互作用がある場合、それらのうち一つが欠けただけでも、発現していた機能が欠けてしまうことがある。これらの遺伝子群は、1)進化における保存パターンが似ているはずで、2)細胞株を用いた遺伝子欠損実験においてある遺伝子を必要とする細胞は、同群の他遺伝子も同様に必要とするはずである。本研究では、phylogenetic profilingとゲノムワイドshRNA/CRIPSRスクリーニングデータ(DepMap)を統合解析して、その妥当性を示したい。 2019年度は、これまでに行っていたデータ可視化やツール化を超えて本研究固有の価値を上げることを目的とし、DBCLSでの共同研究を2020年2-3月に行うことを予定していた。しかし、新型コロナウイルスの影響から、日本・アメリカ両国間での渡航が規制される可能性が生じ中止を余儀なくされたため、オンラインでコミュニケーションを取りながら、作業を行った。

1. phylogenetic profiling情報の拡充

本研究は、元々2015年に報告された Dey et al., Systematic discovery of human gene function and principles of modular organization through phylogenetic profiling, Cell Reports. 2015で計算された177種間の真核生物のオーソログ情報を使用しているが、この数年の間にゲノム情報は飛躍的に増えており、UniProtにおいても、1,398種の真核生物の高品質プロテオームデータ（reference proteome ）が登録されている（2020年5月時点）。更に、既存のプロテオームは頻繁にアップデートされているため、我々の使用するオーソログ情報もアップデートすることとした。これまでに、2018年度よりスタンフォード大学のTobias Meyer教授、ユニバーシティ・カレッジ・ロンドンのGautam Dey博士研究員と共同で既存の177種に加えて、新規に追加する種の検討、またin-house blastサーバの構築、そこから各ヒトオーソログの保存度（ビットスコア）の算出を行った。今後、このスコアから、改良アルゴリズムを用いてphylogenetic profilingを計算し、オーソログの真核生物間の保存パターンを再定義していく。

2.DepMap解析の終了

上記2種類のデータ（phylogenetic profilingとDepMap）のうち、別プロジェクトとして始まったDepMap （423種の細胞株におけるゲノムワイドshRNA/CRISPRスクリーニングデータ）の解析を行い、その特徴をまとめてshiny appの作成を行った (https://labsyspharm.shinyapps.io/depmap)。これ自体は元々別プロジェクトではあるが本課題と密接に関連しており、今後の統合解析の対象として重要になると考えられる。

034RP2019 伊藤　伸介（中央大学）
データ構造から見た公的統計ミクロデータの利活用のあり方に関する研究

本研究の目的は、諸外国における公的統計のミクロデータの作成・提供の最新の動向を捉えた上で、わが国における公的統計ミクロデータを中心とする大規模データの利活用のあり方を模索することである。そのため、本研究では、ミクロデータの安全な利活用に関する法制度的措置や技術的措置について国際的な動向を探るだけでなく、主として、わが国における公的統計のミクロデータを対象に、データリンケージの方法論とリンケージデータの利用可能性を追究することを指向している。
　2019年度については、研究代表者の伊藤と共同研究者の南が、国際連合欧州経済委員会(The United Nations Economic Commission for Europe=UNECE)と欧州統計局(Eurostat)が共同で開催した「統計データの秘密保護に関するワークセッション(Work Session on Statistical Data Confidentiality、(2019年10月30日、31日於：スペイン、バレンシア)に参加し、研究発表を行った。伊藤の研究報告では、アメリカセンサス局が行った2010年人口センサスに関する実証研究の事例を紹介した上で、公的統計の分野において、個体情報の安全性を確保した上で統計データに付与されるノイズを調整するする方法として、主に情報工学の分野で展開されてきた「差分プライバシー(differential privacy)」の方法論の可能性を追究した。また、南の研究報告においては、表データのセル秘匿問題に関して、表セルの２次秘匿に決定論的アルゴリズムを用いる場合に秘匿セル値の可能区間を絞り込むマッチング攻撃の可能性を検討し、その対策として、ランダムにダミーの一次秘匿セルを導入する非決定論アルゴリズムを実装するだけでなく、その実証的評価を行った。さらに、海外の統計作成部局の実務担当者、ミクロデータと集計表の秘匿処理に関する研究者、データアーカイブ施設の専門家とミクロデータの安全な利活用に関する現状と課題について意見交換を行った。
つぎに、伊藤は、2019年度統計関連学会連合大会(於：滋賀大学、9月12日)において、海外の公的統計ミクロデータの提供状況やリンケージされた行政記録情報に関する利活用の現状について研究報告を行うことによって、公的統計のミクロデータの匿名化の現状を明らかにするだけでなく、行政記録データのリンケージに関する最新状況を紹介にした。具体的には、イギリスにおける行政記録のリンケージの事例について紹介した。イギリスでは、北欧諸国のような個人の人口社会的情報、経済的情報に関するレジスターは存在しない。しかしながら、イギリスでは、近年行政記録データの二次利用が展開されており、行政記録データと公的統計のミクロデータとのリンケージがなされた行政記録データや行政記録データ同士でリンケージされたデータの提供も行われている。とくに、イギリスにおける行政記録データの利用は、2017年4月にDigital Economy Act 2017の法案が議会を通過し、2018年に法律が施行されたことによって新たに展開されてきた。そこで、本報告では、Digital Economy Actが施行されて以降のイギリスにおける行政記録データの二次利用の現状を紹介した。
　なお、2020年3月2日は統計数理研究所で予定していた研究打ち合わせについては、新型コロナウィルスの影響を勘案し、中止となったが、メール等で今後の研究方向について意見交換を行った。執行予定であった旅費については、消耗品による支出を行った。

035RP2019 村田　健史（情報通信研究機構）
町丁目地理データ（行政境界データ）のスケーラブル可視化スキーム作成と外部利用Web

本研究開発では、NIIがこれまでに作成してきた日本の行政境界データの有効利用のためのスケーラブル可視化スキームを確立し、有効なWebアプリケーションを開発（さらには公開）することを目的としている。 2018年度は、市区町村／町丁・字（以下町丁目と表記する）等を対象としたリストである「標準地域コードインデックス」作成し、町丁目を一意に示すIDを付与した。さらに、公共団体が国勢調査を実施毎（5年毎）に設定した調査区の境界を基に作成した「国勢調査町丁・字等別境界データセット」をGeoJSON形式で構築し、「国勢調査町丁・字等別境界データセット|Geoshapeリポジトリ」（http://geoshape.ex.nii.ac.jp/ka/）において一般公開した。これにより、「この町丁・字等はかつてどの市区町村に属していたのか？」などを調べることが可能となった。一方で、単純なGeoJSONによるデータでは画面上に表示される町丁目数が多い（全国には市区町村はおよそ2千であるが、町丁目数は約22万もある）ためにインターネットを介した可視化（描画）が実用上困難であることも明らかになった。
　そこで2019年度計画では申請者らがこれまでに開発してきた「ひまわりリアルタイムWeb」の地域版（http://amaterass.nict.go.jp）において確立したスケーラブル可視化（図1）を利用し、任意の町丁目データセットに対するWeb GIS可視化を行うためのスキームを開発した。可視化対象データ（例えば町丁目ごとの人口数）登録については非専門家ユーザにも親和性が高いCSV形式でのデータテンプレートを用意することで、誰もがWebから容易に町丁目画像を生成しWeb閲覧できるサービスを構築した。具体的には、2018年度の本プロジェクトにより構築した現代町丁目地理データ（行政境界データ）の有効利用のためのスケーラブル画像生成・表示スキームを確立した。具体的には、次の3点を実現した。（１）可視化対象データ（町丁目データ）可視化用汎用データテンプレート作成。（２）並列分散処理を活用した汎用データからのスケーラブル可視化。（３）外部ユーザへのGISデータ（画像）生成サービス（Webベース）作成。可視化対象データ（例えば町丁目ごとの人口数）登録については非専門家ユーザにも親和性が高いCSV形式でのデータテンプレートを用意することで、誰もがWebから容易に町丁目画像を生成しWeb閲覧できるサービスを構築できる。
　図2はこれにより生成した行政境界データ地図Web（NIIサーバで公開中）である。また図3は国勢調査町丁・字等別境界データセットWeb（同様にNIIサーバ上で公開中）のうち、東京都千代田区のマップである。これらはベクタタイル化することでこれまでよりも軽量になり、ユーザからのアクセス性が向上した。
　なお、上記の「国勢調査町丁・字等別境界データセット|Geoshapeリポジトリ」ウェブサイトのコンテンツは、CC BY-SA 4.0の下に提供している。同サイトで利用している「国土数値情報行政区域データ」利用規約については、e-Stat利用規約を参照するルールとした。 e-STATの利用規約（https://www.e-stat.go.jp/terms-of-use）によると、e-STATコンテンツ利用については出展の明記および編集・加工の経緯の明記を除いては特段の利用制限がない。また、本計画で利用するのはe-STATの町丁目境界情報のみであるため、第3者の権利等の侵害には当たらない。

036RP2019 河野　憲嗣（大分大学）
大分県におけるインバウンド観光客の動線分析

2019年9月に小出と河野が大分県庁を訪問してインタビュー調査を実施した。当方から本研究の概要や狙いを説明した後、地域行政の立場から観光統計調査の充実に向けて「デジタルマーケティング推進の側面的支援」「統計結果の正確性の確保」「地域データの収集と分析」「観光に係る危機管理体制の整備」といった課題について意見交換をして情報収集を行った。 10月に本研究の比較分析の検証データを収集するために河野が京都を訪問して町家旅館の関係者などへのインタビュー調査、町家旅館の施設見学、および主な観光スポットにおける観光動線の行動観察を実施した。また10月に後藤、小出が大分を訪問、11月には後藤が再度大分を訪問して河野とともに別府の宿泊施設などへのインタビュー調査を実施した。当時、大分を中心とした九州北部では韓国からの外国人観光客がインバウンド全体の６～７割を占める状況にあったが、日韓外交問題の影響を受けて全体数は減少傾向であった。特に別府温泉や由布院温泉など伝統的な温泉観光地では減少傾向への影響が顕著であった。今後の対策としてラグビーワールドカップ開催で増加した欧米豪の外国人観光客を新たなターゲットとして規定し，積極的なプロモーションを行っていく方針などについて地域として取り組んでいることなど情報を収集した。別府市ではインターコンチネンタルホテル別府の開業など外資系高級ホテルの進出が相次いでおり，欧米豪からの外国人観光客の観光スタイルに対応した外国人特化型の観光案内所を設けるなどして滞在型観光の拡大に注力している状況を観察した。 12月に本年２回目となる大分県との打合せを大分大学河野研究室にて実施した。このとき小出もスカイプにて打合せに参加した。前回9月の意見交換で出たテーマに基づいて、観光庁調査ではわからない県内地域ごとのデータを収集・分析してエリアに応じた的確な施策展開を可能にすることの必要性や、ビッグデータを視野に入れつつ動線分析に留まらず消費動向を直接把握する方策といった課題の存在について情報収集を行った。
　また12月には沖縄で開催された日本観光研究学会全国大会において、ここまでの研究成果として小規模宿泊施設における宿泊料金の決定に関する課題と手法について小出と河野が共同で学会発表を実施した。宿泊施設として類似の特徴を持ち、かつ１施設あたりの供給量が限定されている小規模な宿泊施設のケースとして町家旅館を取り上げて、近接する小規模宿泊施設を単一の仮想敵な宿泊施設とみなし、客室短歌を動的に最適化するイールドマネジメントの手法について論じた。「１室しかもたない宿泊業者は客室単価をどう設定すれば良いか」という現実的な問題を設定し、これについてWebビッグデータを活用したアプローチでの既存のイールドマネジメント手法の応用について数理的な側面から考察した。
　本研究成果を文理融合型のデータサイエンス教育へ活用する取り組みも実施した。活動実績としては大分大学経済学部の専門科目授業「技術革新論」に小出を非常勤講師として任用し、9月5日の1限から5限に登壇、講義した。対象は大学3年生および4年生で約70名が受講した。講義内容は本研究の活動内容の解説やデータ資本主義やDXを巡るビジネス環境の動向分析などである。また小出は2020年1月にも大分大学経済学部の専門科目授業「研究開発マネジメント論２」に登壇し、データサイエンスの基礎知識について講義した。対象は大学3年生および4年生で約14名が受講した。

037RP2019 大塚　雄一（名古屋大学）
北極域における人工衛星電波を用いた電離圏シンチレーション観測データベースの構築

電離圏にはプラズマが存在しているため、電離圏内を伝搬する電波は、荷電粒子との相互作用による影響をうけ、真空中での伝搬とは異なった速度をもつ。電波の伝搬遅延の大きさは、電波の伝搬経路上に存在するプラズマ密度の積分量に比例することから、人工衛星から送信される電波を用いて全電子数(Total Electron Content; TEC)を計測することができる。また、電離圏中にプラズマ密度の疎密構造が存在すると、電離圏を透過する電波の位相や振幅が変動することがある。この現象はシンチレーションと呼ばれている。シンチレーションは、衛星放送・通信やGPSなどの衛星測位などに影響を及ぼすことがある。本研究では、極域に設置した電波の受信装置で得られたデータを用い、他観測と組み合わせることにより、以下の成果を得た。

1．シンチレーション指数とROTIの比較
ノルウェーのトロムソEISCATレーダーサイトにアンテナ間隔約200mで近接して設置している3台のGlobal Navigation Satellite System(GNSS)受信機を用い、約1.2GHzと1.5GHzの2周波の受信信号強度と位相、疑似距離をサンプリング周波数50Hzで取得し、シンチレーションとTECを観測することにより、極域に発生する電離圏不規則構造の特性について調べた。
　2013-2015年の3年間にGNSS受信機で得られたデータから振幅シンチレーション指数であるS4と、電子数(Total Electron Content; TEC)の変動率であるROTI(Rate of TEC change Index)を求め、その季節・時間変化を調べた。振幅シンチレーション及びROTIの増大で表される電離圏不規則構造は、春・秋及び冬季の夜間に発生頻度が高いことが明らかになった。これは、主にオーロラ活動に起因する電離圏不規則構造を観測しているためと考えられる。また、振幅シンチレーション指数S4は、2014年に大きく、2015年に小さい傾向があり、太陽活動と相関があることが明らかになった。これは、オーロラ活動及び背景の電子密度が太陽活動と正の相関をもつためと考えられる。
また、S4とROTIの増大に関し、両者の対応関係を調べた。その結果、必ずしも常に両者の増大が一致しているわけではないことが分かった。 S4は比較的長時間増大が続き、昼間でもしばしば大きな値を示すことがあるが、ROTIの増大は短時間であり、ほとんどが夜間だけに起こった。 S4が増大した事例について、ROTIの増大が同時に起こる場合と、ROTIの増大を伴わない場合の違いを調べるため、それぞれの場合において、2点間の受信信号強度の相互相関係数の値を調べた。その結果、ROTIの増大が見られた場合には、ROTIの増大が観測されなかった場合に比べて相互相関係数の値が低いことが明らかになった。この結果より、ROTI及びS4の増大を起こす電子密度不規則構造は、オーロラを生成する粒子の降込みによって生成されているものと考えられる。
２．電子密度不規則構造とドリフト速度との比較
近接する三地点に設置されたGNSS受信機で得られた信号強度の相互相関係数から電離圏電子密度不規則構造の水平面内ドリフト速度を求め、S4及びROTIと比較した。 2014年3月1日に、国立極地研究所の全天デジタルカメラで撮影された画像と、S4、ROTI、ドリフト速度の東西、南北成分、及び速度の大きさを示す。それぞれの値は1分毎に得られている。 20UTごろにS4とROTIともに同時に増大しており、ドリフト速度の増大およびドリフト速度の東西・南北成分の変動がみられた。それとほぼ同時刻にケオグラムにおいてオーロラ爆発が観測されていた。 GNSS受信機で観測されたドリフト速度は、東向きに約340 m/sであり、オーロラの移動速度と同程度であった。

3. 磁気嵐によるTEC数変動
極域だけでなく全球におけるGNSS-TECデータを用いて2004年11月7－8日及び2017年5月27－28日に発生した磁気嵐時の電離圏電子密度変動を解析した。その結果、IMF (Interplanetary Magnetic Field) が南を向いた後1時間程度経過すると、昼側の高緯度または中緯度域にStorm Enhanced Density (SED)に関連したTEC増加域が出現したことが明らかになった。このとき、低緯度に赤道異常に関連したTEC増加域は見られず、中緯度SEDの発達から2－3時間遅れて出現していた。以上の解析結果から、SEDは赤道異常の高緯度側への拡大によって形成されるのではなく、高緯度または中緯度域に最初に発生することが示された。これは、従来考えられてきたSEDの生成機構とは適合しない。
また、磁場観測から、IMFが南を向いた後に昼側の赤道域に北向き磁場成分の増加が見られた。一方、IMFが南を向いた後1－2時間程度経過すると、夕方側の赤道域にプラズマバブルを示すROTI増加域が出現していた。その後、2004年11月と2017年5月の磁気嵐時に発生したプラズマバブルは、それぞれ磁気緯度45°Nと50°Nの中緯度域まで拡大し、これらは中緯度トラフを横切ることなくその構造に沿って西向きに移動していた。 2017年5月の磁気嵐では、中緯度SuperDARNレーダーが西向きドップラー速度をもつプラズマバブルに伴うエコーを観測していた。

共同研究集会

001RM2019 横井　翔（農業・食品産業技術総合研究機構）
昆虫のゲノムデータベースとそれを活用したデータ解析 III

本研究集会の参加者は、1)実験を主として研究を進めており必要に応じてデータ解析を行っている研究者、2)昆虫の次世代シーケンサー(NGS)などのデータ解析をメインに行っている研究者、3)これからデータ解析を研究に取り入れようとしている昆虫の研究者、の３つのカテゴリーに分けられる。以下各講演（演者と所属、演題を記す。）・セッションの概要を記す。
宇賀神篤（JT生命誌研究館）
「ミツバチの賢さの秘密を探る−初期応答遺伝子に着目したアプローチ−」
ミツバチの学習・記憶能力に関与する初期応答遺伝子の網羅的探索にNGSを用いて同定したという内容を講演いただいた。本講演でのデータ解析は、解析を行う研究者とタッグを組んで研究を行ったケースであった。本研究でRNAseq解析を行った結果、既知の遺伝子の発現データがリーズナブルではない結果であったこと、候補遺伝子の予測exonの外にRNAseqのデータがマッピングされていた事態が発生し、データの再解析を行ったとのことであった。これらのエラーの原因を解決し、再解析したところリーズナブルな解析結果を得られて、ミツバチの初期応答遺伝子を複数同定できたということだった。解析する研究者と実験する研究者が組む場合は密に連携し、実験の研究者が出てきた結果に対してリーズナブルな結果かどうかを検証することが重要であるということが示された。またデータ解析を依頼する場合でも、依頼する側の研究者も解析の内容を知識を得ておくべきという意見が述べられた。
荒木啓充 (九州大学)
「昆虫科学が拓く新たなバイオビジネス~昆虫データベースに期待するところ~」
荒木氏はバイオインフォマティクスをバックグラウンドをもち、民間・アカデミアで勤務された経験から、九州大学に新設された昆虫科学・新産業創生研究センターに着任された経緯があり、データ解析（バイオインフォマティクス）の専門家から見た九州大学の昆虫学についての話題提供していただいた。九州大学は大学としては世界第二位の昆虫コレクションを所蔵していることや30-40名の昆虫関連の研究者（常勤のみ）が在籍していること、100年以上続くカイコの遺伝資源センターがあることなどを挙げられ、九州大学が非常に昆虫学に強い大学であることを示された。また昆虫食やマウス・ラット等の実験動物の代替としての昆虫の利用などを例に挙げて、昆虫科学の産業としてのポテンシャルは非常に高いことを述べられた。また期待される昆虫科学データベースとしとして、昆虫画像のDB、環境アセス昆虫DB（どのような環境に昆虫が生息しているか。）、昆虫メタゲノムDBなどが挙げられた。質疑応答では昆虫の画像DBを活用した社会実装のアイデアの議論などがなされた。
坂本卓磨（東京農工大）
「公共データベースを活用した多胚性寄生蜂の多胚生殖に関与する遺伝子の同定」
多胚生殖とは１つの卵から複数の胚が発生しそれぞれ別の個体として発達する生殖様式であるが多胚形成に関与する遺伝子をNGSを利用して同定する研究の内容とともに坂本氏がデータ解析手法をどのように勉強されスキルを学んだかも話された。昆虫でNGSを行う場合多く直面するのは、解析をして遺伝子が拾えても機能不明な場合が多く、これを克服するためにRNAseqのコンティグをヒトやマウスに当てて機能推定を行い（実験で用いた寄生蜂のコンティグの76%がヒトホモログを持っていた。）、発現変動遺伝子の同定後の解析を可能にしたということを話ていただいた。これらの解析から多胚形成のメカニズムの一部を明らかにしたことを示された。本発表に関して、今後の研究展開や遺伝子の機能アノテーションに関する議論がなされた。
市村秀俊（東京慈恵医大）
「医動物学におけるゲノムデータ応用アップデート」
最初に医動物学についての概要の説明があり、続いてこれらの分野に関するデータベースについての説明があった。医動物学の基本的な種のゲノムデータの公開は完了しており、現在はそれらの種のpuplationのデータが爆発的に増加している時期にあるということであった。続いて、市村氏が行っている蚊の中腸のsingle-cell RNAseqについて、サンプルの用意や細胞のisolationやライブラリーの調整、データ解析の方法についての具体的な説明やそれを行う際に苦労した点を示された。
2日目
等百合佳（東京大学）
「テナガショウジョウバエのゲノムデータを用いたSNP解析」
モデル生物であるキイロショウジョウバエの近縁種であるテナガショウジョウバエの交尾受容性に関与する遺伝子座を同定するため、交尾受容性が低い系統、高い系統のQTLや戻し交配を行いゲノム情報を用いて遺伝子座を同定する内容であった。テナガショウジョウバエはコンティグレベルのシーケンスデータしかないのでテナガショウジョウバエのデータをキイロショウジョウバエにマッピングすることでマーカー設計の際に利用することを試みたが、コンティグ自体に間違いがあったりして苦労し、近縁種であっても逆位や転座があり、１つ１つエラーを解決し正しくマッピングしてQTL解析を行った結果、遺伝子座の絞り込みが達成できたことが話された。続いて、交尾受容性が低い系統、高い系統の戻し交配を連続することでイントログレッション系統を作成し、ゲノムを読んでSNP解析を行い、イントログレッション領域の探索を行った話がされた。解析にはGATKを用い、解析の際に工夫した点としては親系統間のSNPをフィルターし高品質のSNPのみを用いてイントログレッション系統の解析を行った点を。これによって、イントログレッション領域の絞り込みを行った結果、離れた領域が候補として出たので、キイロショウジョウバエでの逆位が原因と考え、データのエラーコレクションをした。その結果１つの領域にまとめ上げられたとのことだった。これらの解析を通じて、近縁種の染色体地図でも解析の限界があり、全ゲノムの解析をするには解析する種そのもの染色体地図が必要だということが示された。議論の中で元々のキイロショウジョウバエの配列が間違っている可能性があるかもしれない、実験室内進化によってシーケンスした系統と配列が異なってしまっている、という指摘があった。
上原拓也（農研機構）
「「昆虫から見た世界」を明らかにする」
上原氏自身の昆虫の視覚の関する研究のトピックから、３月にオーガナイザーらが応用動物昆虫学会で行ったデータ解析講習会をきっかけに最近データ解析を始めた話をされた。ソフトを自身のPCに導入し、公共DBからSRAデータを取得、Trinityによるde novo assemblyを実行したとのこと。次にアノテーションをTrinotate perlを行ったが、途中で止まってしまったため、手動で行ったということであった。上原氏が遭遇したつまづきとして、アノテーションが長すぎて困った、出力されたデータを操作する（カラムの抽出など）スキルが不足していて苦労したことなどが挙げられた。会場のデータ解析研究者から様々な解決策が提示された。
栂浩平（日本大学）
「混み合いに応答した昆虫の変態調節機構」
ジャイアントミールワームにおいて高密度になると変態が抑制され、変態抑制はJHではなくエクダイソンが関わっているということが実験により明らかにし、混み合いによる変態抑制に関わる遺伝子の探索をRNAseqしたという内容であった。 RNAseqのデータ解析を行い、候補遺伝子を取り出し、RNAiによるノックダウンに混み合いによって変態を抑制する遺伝子の同定したということである。同定した遺伝子は匂い分子に結合する遺伝子とアノテーションされ、リアルタイム定量PCRによって発現部位を確認したところ脂肪体にのみ高発現しており、匂い分子に結合する遺伝子のファミリーの系統解析からJHに結合するのではないかという結果が得られたという話であった。この同定された遺伝子の機能に関する議論が行われた。
　最後に総合討論を行った。これからの昆虫のデータ解析においては、機能がわからない遺伝子をどう意味付けし、解釈していくが大切ではないかという考えが提起された。また解析する際に使用しているDBや主な昆虫種のゲノム、trasnscript、アノテーションが存在するDB名をまとめた。 DBの研究者側からは過去に役に立つDBやツールを開発してきたが、時間がたち、軌道修正しなくてはならない時期にきていて、利用側とさらに議論し、いいツールなどを開発したいので、要望を出して欲しいという要望が出された。
　以上総括すると、今回も多くの様々な昆虫種においてのデータの活用の事例を共有し、議論が行えた。今回の会では多くの研究者が自分でデータを解析するという人が増え、RNAseqのde novo assemblyやゲノムへのマッピング、発現定量などのいわゆるルーティンの作業は自分で行えて解析を工夫できるようになった人が増えたように感じた。一方で機能が不明の遺伝子の機能アノテーションをどう進め、生物学的解釈をするかという問題がクローズアップされたように考える。この理由は昆虫研究者のデータ解析のリテラシーがUPしたことに起因すると考える。本研究集会を通じで、アノテーションを始めとしたデータアノテーションを始めとしたデータ解析における問題の共有や、解析の手法の情報共有などが行うことができたと考える。

002RM2019 土屋　史紀（東北大学）
機械学習とデータ同化による木星磁気圏のダイナミクスの理解

本研究集会は、機械学習、惑星科学の双方の分野から参加者を募り、東北大学理学部合同C棟２階多目的室にて開催された。ひさき衛星取得の分光画像データに対する機械学習の適用をテーマとする８件の口頭発表及び自由討論を通じ、データ同化を含む最新の解析手法による木星磁気圏に関する新たな知見の獲得に向けた活発な議論がなされた。うち5件は大学院生による発表であり、若手育成の場としても機能した。

開催日：7/27 (土) - 28(日)
場所：東北大学理学部　合同C棟２F　N204（多目的室）

プログラム：
7/27(土)
1030-1045
吉川一朗(or吉岡和夫)　「ひさき衛星について(観測装置の紹介)」
1045-1115
Lee Jongyeong　「PU深層学習による故障後のひさき画像の分類」
1115-1145
木村智樹　「HISAKIの実データへの機械学習手法の適用」
1145-1215
手嶋毅志　「上限つきRAE画像のベイズ推定」
1215-1300
(break)
1300-1330
土屋史紀　「木星磁気圏一般のイントロダクション（惑星科学者の問題意識）」
1330-1400
手嶋毅志、鈴木文晴「自然科学への機械学習導入のためのチュートリアル」
1400-1430
鈴木文晴　「Non-linear ICAを用いたオーロラ-IPTの増光イベントの因果推定」
1430-1500
加藤真大(代読)　「距離による誤差項を考慮したオーロラ-IPTの相関解析」
1500-1600
（Free discussion）「惑星科学と機械学習の融合に向けて」

7/28(日)
1000-1230
（Free discussion）「惑星科学と機械学習の融合に向けて」

003RM2019 鐘ケ江　弘美（農業・食品産業技術総合研究機構）
第3回生命科学データベースの利用価値向上のためのアノテーションマラソン

まず最初に話題となったことは、アノテーション・キュレーションという言葉の定義であった。「自動でやる（＝予測、推定）ときはアノテーション、手動でやるときはキュレーションを使う」とDBCLS岡本により提案されてきた。一方で「人工知能（AI）」分野で正解セットをつくることもアノテーションと呼ばれる。「0の状態からスタートだとアノテーションであり、ある程度、（アノテーションされた）データを修正するのはキュレーション」との提案が示された。議論は進めあられたが、両者の境界が曖昧である。

1日目は主にゲノムアノテーションについての話題提供及びゲノムアノテーションツールのまとめを行った。
まずはアノテーションの入力の効率化や新規アノテーションを行うための具体的にアクションについて議論された。前回のAnnotathon2017では2017verのツールの洗い出しが行われたが、今回もこれらのツールのアップデートを行った。ツールのまとめは会場の参加者だけでなく、ネット上からの入力も可能としたことで、効率よくツールの情報を集めることが可能であった。
次に実際にゲノムアノテーションに関わる研究者からの話題提供があった。「これまで触れた・やってきたアノテーション」「今触れている・やっているアノテーション」「これからほしい・今回議論したいアノテーション」という様々な角度からアノテーションについて検討された。

2日目はDDBJのBiosampleの登録と利用について取り上げた。
まずはDDBJ側からBiosampleの担当者の話題提供があった。次にデータの利用者の立場から、ミススペルや用語の不統一がデータ利用の障壁になっている例が報告された。このようなデータ機械学習の分野でもアノテーションに間違いが多ければモデルの学習や評価を含め後のプロセスに致命的な影響を与えてしまうことから、アノテーションの重要性が増してきている。
Biosampleのデータを出発点としてアノテーション入力の効率化をOpenRefineなどのツールの使い方などの発表が続いた。
集会の最後の自由ディスカッションでは実際にDDBJの担当者と利用者での有意義な議論が行われた。

004RM2019 名和　一成（産業技術総合研究所）
固体地球科学データの相互利用・統合解析に関する諸問題

令和2年1月末の２日間、情報・システム研究機構データサイエンス棟において、研究集会「固体地球科学データの相互利用・統合解析に関する諸問題」を開催した。日本列島および極域における個別の研究課題においてデータ取得、データベース化、データ解析に携わる研究者が集まり、関連各分野のデータベースの紹介、データの相互利用・統合解析の試みなどについて講演いただいた。当日のプログラム（講演数17件）を添付するとともに、参加者（総勢26名）のリストを以下に示す。

参加者リスト（*はROIS-DS-JOINTから旅費支給有り）

[情報・システム研究機構]
国立極地研究所、極域環境データサイエンスセンター（８名）
金尾政紀・野木義史・外田智千・三浦英樹・菅沼悠介・奥野淳一・土井浩一郎・矢吹裕伯

統計数理研究所
尾形良彦

[産業技術総合研究所]
福島再生可能エネルギー研究所
　＊村田泰章
地質情報基盤センター
　＊内藤一樹
地質調査総合センター研究戦略部
　宇都宮正志
地質情報研究部門（６名）
　＊名和一成・＊長郁夫・＊小田啓邦・＊住田達哉・＊宮川歩夢・石原丈実
活断層・火山研究部門（４名）
　＊松本則夫・吾妻崇・山崎雅・宝田晋治
地圏資源環境研究部門
　堀川卓哉

[東京大学生産技術研究所]
　＊横田裕輔
[国立環境研究所]
　石原吉明
[日本気象協会]
　村山貴彦

本集会の成果物として、当日参加者だけでなく、関連研究者にも活動を広く知ってもらうことを目的として、主催者からの提案に同意いただいた発表者の発表用資料を国立極地研究所学術情報リポジトリに登録した。以下に各発表者名と資料のパーマリンクのリストを示す。

当日発表用資料のPermalink（発表順）

[1日目]
金尾政紀　　http://id.nii.ac.jp/1291/00015842/
松本則夫　　http://id.nii.ac.jp/1291/00015843/
吾妻　崇　　http://id.nii.ac.jp/1291/00015844/
長　郁夫　　http://id.nii.ac.jp/1291/00015845/
山崎　雅　　http://id.nii.ac.jp/1291/00015846/　（発表題目のみ）
横田裕輔　　http://id.nii.ac.jp/1291/00015847/
石原丈実　　http://id.nii.ac.jp/1291/00015848/
矢吹裕伯　　http://id.nii.ac.jp/1291/00015849/
内藤一樹　　http://id.nii.ac.jp/1291/00015850/
村田泰章　　http://id.nii.ac.jp/1291/00015851/

[2日目]
土井浩一郎　http://id.nii.ac.jp/1291/00015852/
金尾政紀　　http://id.nii.ac.jp/1291/00015853/
石原吉明　　http://id.nii.ac.jp/1291/00015854/
小田啓邦　　http://id.nii.ac.jp/1291/00015855/
野木義史　　http://id.nii.ac.jp/1291/00015856/
宮川歩夢　　http://id.nii.ac.jp/1291/00015857/
宝田晋治　　http://id.nii.ac.jp/1291/00015858/

以上

005RM2019 吉沢　明康（富山国際大学）
質量分析インフォマティクス・ハッカソン・プレ・ミーティング

日本バイオインフォマティクス学会 (JSBi) の公募研究会である「質量分析インフォマティクス研究会」が、ライフサイエンス統合データベースセンター (DBCLS) による国内版バイオハッカソンBH19.7と共同で「第3回質量分析インフォマティクス・ハッカソン」を開催するに当たって、ミニ・ワークショップを開催した。なお今回のハッカソンは鹿児島県指宿市での開催であり、当日に現地入りする場合は午後2時頃以前の到着が困難であるため、午後3時に開始して6時半に終了という非常に小規模なものであることから、「プレミーティング」という名称にしている。

一昨年度・昨年度とこのような会合は実施してきているが、今年度はオミクス解析における多重検定に焦点を絞った。質量分析を用いるオミクス解析では、プロテオーム解析が最もコミュニティ形成が進んでいて、論文投稿時の多重検定の実施などについて厳格な規定がある（他分野は義務化が現在進行中である）。しかしプロテオーム解析での多重検定の個々の処理について統計学的な意味を理解するために、トランスクリプトーム解析（例えばマイクロアレイ解析）に於ける多重検定について調査すると、「基本的な考え方も、計算の処理の仕方もそっくりなのに、何がどう対応がつくのか理解できない」という状況に遭遇する。この状況を改善するには、各分野の統計処理について並列で提示し、類似点や相違点について互いに指摘するのが、少なくとも最初のステップとしては最も効果的と考えられる。このことが、本年度の企画を立案した強い動機である。
参加人数は34人（初日からハッカソン会場に到着していたハッカソン参加者全体の61%）で、前年度と比較すると8人減少したが、これは開催場所が都心部ではないために到着時間が遅い参加者が多かったことが理由の一つと考えられる。またおそらく同じ理由から、「プレミーティングのみの参加者」はなかった（全員がハッカソン参加者だった）。

講演内容は、トランスクリプトーム解析・プロテオーム解析・ペプチドーム解析・メタボローム解析の4つの分野から、解析方法と統計処理に重点を置くことだけを決めて、具体的な内容は講演者の裁量に任せる形で実施した。前述のように質量分析分野ではプロテオーム解析に於ける方法論（Target-Decoy法）が或る種の“テンプレート”になっており、メタボローム分野ではそれを倣った手法の導入を進めようという議論が起こっている。このため、メタボローム分野、及びメタボローム分野とプロテオーム分野の“中間”（対象分子も手法も）であるペプチドーム分野の講演は、プロテオーム分野の後に行う方が望ましいという考えに基づいて、オミクス解析で最初に多重検定が必要になったトランスクリプトーム分野から始めて、プロテオーム、ペプチドーム、メタボロームの順で進行することにした。講演者は上表にも示すように、トランスクリプトーム分野をライフサイエンス統合データベースセンター (DBCLS) の坊農秀雅氏、プロテオーム分野を報告者自身（吉沢）、ペプチドーム分野を沖縄科学技術大学院大学の早川英介氏、メタボローム分野を理研CSRS/IMSの津川裕司氏が担当した。最後に4講演者と参加者を交えた総合討論を行った。
このように実際に講演を連続して「各分野の多重検定では何をしているのか」を並列してみた結果、やや予想外、しかし非常に意味のある結論として、「一般に考えられている（＝トランスクリプトーム分野での）多重検定と、Target-Decoy法による（プロテオーム分野などでの）多重検定は、（目的として）意図していることが異なる」という結論が得られた。もちろん統計学的な段取りに誤りはなく（プロテオーム分野には、トランスクリプトーム分野での専門家が加わって、プロテオーム分野の統計の専門家と共同でこの手法を作っている）、またデータの種類も異なるので差異が存在すること自体は不思議ではないが、「（統計学的な意味ではなく）生物学的あるいはオミクス科学的な意味からは異なった内容を全く同じ形式で評価している、と判断するべきである」というのが結論で、このような指摘は、少なくとも日本では（報告者の知る限り）今までなかったため、非常に興味深い結論が（暫定的なものとはいえ）得られたと考える。

今回のプレミーティングの講演・議論は撮影していない（昨年度は、チュートリアル講演を教材にしてDBCLSの統合TVコンテンツとするために撮影した）。これは「議論がどのように進むかなどが全く不明であった」ためでもあるが、今後議論や関係者の分析などを続けていけば、2回目・3回目のこのような会合では、再び「教材」にできるような講演や議論が可能になる、と期待を抱いている。

　なお、プログラムは全てweb上で作成・公開している。 PDF化したものを添付する（CSSが無効になっているためレイアウトが崩れている）が、オリジナルはhttp://ms-bio.info/2019hws.html で閲覧可能である。

006RM2019 三嶋　博之（長崎大学）
希少疾患インフォマティクス２

本研究会「希少疾患インフォマティクス２」は、2020年02月17日午後と18日午前、ライフサイエンス統合データベースセンター（千葉県柏市）にて行われた。
本研究会の事前にSlack上で参加者が開発・参加している各プロジェクトのワークフローの概要を共有し、議論を行った。また研究会開催中は、議事録や発表スライドなどをリアルタイムに共有しながら議論を進めた。その概略は以下のとおりである（敬称略）。

1日目
（１）研究会概要説明（三嶋）
本研究会開催のバックグラウンドと進行について
（２）PubCaseFinder（藤原）
PubCaseFinder開発の動機・背景と機能について
（３）難病オントロジーNANDO（仁宮）
フリーなオントロジーとして開発されているNANDOの開発について
（４）TogoVar （片山）
TogoVarの概要と日本人集団を対象にしたデータの統合について
（５）ワークフロー言語でデータ解析ワークフローを記述する（大田）
研究の再現性とデータ解析環境構築、コンテナ仮想化のメリットと技術選択、ワークフロー言語標準の現状・限界と選択について。
（６）長崎大学人類遺伝学のワークフロー（三嶋）
IRUD-P解析で使っているワークフローを紹介した。フィルタリング／ナローイングに使っている条件やANNOVAR以外のアノテーション付加ツールについてのについてディスカッションとなった。
（７）国立成育医療研究センターのワークフロー（佐藤）
トリオ解析のワークフローの紹介
（８）浜松医科大学のワークフロー（才津）
トリオ解析のワークフローの紹介
２日目
（９）CWLとJuputar Notebook
自然言語での記述→シェルスクリプト→ワークフロー言語と段階を追った進め方
Jupyter notebook bash shellによるワークフロー記述の実演。実行とログが同時に記録される。この方法で試行錯誤過程を記録できる。
（１０）東北大学未来型医療創成センターのワークフローその１（高山）
JG1日本人ゲノムについてと、ワークフローの詳細について
（１１）東北大学未来型医療創成センターのワークフローその２（高山）
ToMMoスーパーコンピューターでのワークフロー管理の実際
（１２）東京医科歯科大学難治疾患研究所のワークフロー（宮）
計算機環境とワークフローの詳細について
（１３）ラップアップ（参加者からの感想）
PubCaseFinderの改良につながる、関連ツールの使用経験を共有できた。
各施設のスパコン環境の詳細をみることができた
NANDOに関する参加者からのコメントを得ることができた
口頭でこそ伝わるような各施設ワークフローを共有できる良い機会であった。
ワークフロー関係は難しかったが、改良に結びつけたい。
ヒトALTリファレンス配列の使用方法に関する議論が参考になった。
実験動物リソースの提供側として参考になった。
各施設のワークフローができたら、試してみたい。
これまで聞いてきたエクソーム解析について、具体的な内容がイメージができた。
Jupyter Notebookに関して、遺伝学研究者とコンピュータ研究者との交流の場になった。
エクソーム・ＷＧＳは枯れた技術と思っていたが、施設間でワークフローが違ったことに驚いた。他施設の異なったワークフローが自施設で動くとうれしいだろう。
希少疾患の解析にはなじみがなかったが、異なった沢山のツールを組み合わせて使われていることが驚きだった。有償ツールも多く使われていることもわかった。
システムに歴史があることで、レガシー化の問題がある。更新改良の参考にしたい。
結果に大きな違いはないのかもしれないが、今後、再開発が必要になる。その再クラウド環境の利用を含めて役立てたい。
本当に商用クラウド環境に移行できるのか？遺伝研・東大医科研・東北大などの共用スパコン環境への移行が現実的か？
商用クラウド環境でのストレージとダウンロードへの課金体系：アップロードは無料なので、解析後の最終的な小さい結果のみダウンロードし、中間ファイルの即時削除で、費用を最小限にできるかもしれない。

News

「ROIS-DS-JOINT 2019」成果報告一覧表