「ROIS-DS-JOINT 2022」成果報告一覧表

「ROIS-DS-JOINT 2022」成果報告一覧表

「ROIS-DS-JOINT 2022」成果報告一覧表

◆一般共同研究

課題番号 成果報告
001RP2022
本研究の目的は、統計数理研究所を中心に戦後60年以上にわたり収集してきた「日本人の国民性調査」及び「意識の国際比較」データについて、個人情報保護など法律・倫理等を考慮しながら公開利用を促進することである。そのため、本研究では、主として既存の調査報告書(研究リポート) の単純集計表、属性別詳細集計表等々、関連文献等々を吟味しWEB上での公開を進めつつ、他方で個票レベルでのデータ公開に向けて、データの匿名化、関連する法律や倫理の動向を研究しながら、その一般への啓蒙を推進する計画を立案した。本年度は、本研究の最終年度でもあり、過去2年以上にわたる前述の作業全般の点検保守を継続させながら、特に個票レベルのデータ公開システムを完成させた。これに至るまで、個人情報保護法の理念と利用者の便益のバランスを勘案し、個票レベルの公開データは、教育のへの活用などを念頭に置いた「一般向けデータ公開」と高度なデータ解析を進める研究者を念頭に置いた「研究者用データ公開」の形式を区別し、前者は個票データの属性変数(性別・年齢層・学歴、収入等々)のカテゴリを粗く性別・年齢層(10歳刻み)にし、後者は性別・年齢・学歴(3区分)・世帯収入なども含むデータセットを用意した。  実際にフルセットで個票レベルのデータ公開可能としたものは、「日米欧7カ国比較」と「アジア太平洋価値観国際比較調査(10カ国・地域)」の2セットだが、この公開システム完成により、次年度以降、順次、「東アジア価値観国際比較調査」、「環太平洋価値観国際比較調査」、ハワイ、米国西海岸及びブラジルの日系人調査データなどの個票レベルデータを公開して行く予定である。  
002RP2022
 Web調査は費用が低いこと、結果回収が速いこと、大規模な調査に対応できることなどの利点がある一方で、欠点としては、①インターネット利用者が代表する母集団は不明確であること、②回答内容の信憑性を検証することは困難であること、③同じ人による重複回答を防ぐことはできないことなどを挙げることができる。特に、登録モニターの構成により生まれる「標本抽出バイアス」及びオンライン形式質問による「回答傾向バイアス」の回避方法はまだ確立されていない。本研究では、Web調査を用いた社会データ収集の固有のバイアスの影響検証と回避方法を模索することを目指し、Web調査の特徴の論理的整理、Web調査の各種バイアスの検証、Web調査における回答結果の信憑性の影響要因の特定などの研究を行う。  本研究は、登録モニター型Web調査に主眼を置き、Web調査の固有の欠点である「標本抽出バイアス」と「回答傾向バイアス」の影響検証及びその回避方法の開発を目的とし、以下の1)~3)の研究活動を遂行する。1)各種調査モード(データ収集方法)の統計科学的な特徴を比較することにより、Web調査の利点と欠点を論理的に整理する。2)Web版と紙筆版により収集した既存の調査データに新たな小規模の実験調査データをもとに、標本抽出の偏り、回答傾向の特徴及びそれらにともなうWeb調査の各種バイアスを実証的に検出する。3)複数の実験調査データの比較分析により、回答内容の信憑性に対する質問順序、選択肢配置、回答時間などの影響を統計的に検出し、各種バイアスの回避方法を考案する。2022年度の主な成果は以下のものを挙げる。 1) 国内外のWeb調査の先行研究事例を通し、その課題とその回避方法をレビューし、日本国内のWeb調査で広く用いられている登録モニターの年齢層・職業などには偏りが存在することが分かった。 2) 大学生を対象に遂行した小規模のWeb版実験調査(157名)の結果から、回答者の集め方及び調査票の選択肢配置が回答結果に影響を及ぼすことが検証できた。 3) 一般市民を対象とした3つの大規模のWeb調査(1,010人分、1,649人分、2,480人分)を実施した結果、登録モニターに回答依頼を一斉発信して「早いもの勝ち」という調査実施方法は、抽出用の性別・年齢層以外の回答者の個人属性に大きな偏りをもたらしており、登録モニター要件と調査実施の仕組みによる調査データ質の影響があることが把握できた。現在データ分析中である。
003RP2022
本年度の研究成果として、以下の2項目について研究を進めた。 1) シロイヌナズナの公共RNA-Seqデータからのデータ取得と整理 単一の研究グループが同一なプラットフォームで取得したデータセットをリファレンスとするという観点から、2016年にPlant Journal誌に発表された論文で用いられた85サンプルと、2020年にNature誌に発表された論文で用いられた54サンプルをそれぞれデータセットとして採用した。これらのデータセットについて、NCBI RefSeqに登録されている最新のゲノム配列およびアノテーション(TAIR10.1)に基づいて、各遺伝子の発現量を再計算した。また、リファレンスとして採用したデータセットについて、サンプル情報のメタデータを整理した。これら遺伝子発現量とサンプル情報のメタデータについては、現在DBCLS内で開発を進めているRefExの次期バージョン(RefEx2)のテストサイトでの表示に合わせる形で、データを整理した。データについてはRefEx2の開発メンバーと共有し、テストサイト内での表示に向けた準備を進めている。 2) 植物遺伝子のオルソログ検索ツールの比較検討 本研究課題で整備を進めるリファレンス遺伝子発現データセットは、将来的にシロイヌナズナ以外の主要植物種にも拡張し、同一のインターフェースで幅広い植物種の情報にアクセスできるようにしたいと考えている。このときに、オルソログ推定に基づいて対応関係のある別種の遺伝子情報へのリンクを構築することを検討しているが、その基盤としてどのオルソログ検索ツールを使うことが適しているかを明らかにするために、シロイヌナズナとダイズを題材に、保存レベルの異なる5遺伝子を実例としてツール間の比較を行った。OMA、OrthoDB、Ensembl Plantsを比較したところ、遺伝子によってオルソログと推定される範囲がツールごとに異なることが示唆されるという結果を得た。単一のツールからの結果を利用するのではなく、複数のツールでオルソログ推定された遺伝子をRefEx2におけるオルソログ対応として認定する必要性が示唆された。これらの検討は、国内版バイオハッカソンBH22.9での成果として、BioHackrXivにてプレプリントの形で報告した。
004RP2022
南極上空大気重力波の気球実験におけるイリジウム衛星通信データの解析システムの構築  南極昭和基地に設置したPANSYレーダーとスーパープレッシャー気球を用いて南極上空の大気の波動(大気重力波)を測定する実験(LODEWAVE)を2022年1~2月に実施した。スーパープレッシャー気球は昭和基地からの見通し圏外まで飛翔するため、気球との通信はイリジウム衛星のショートバースト通信を利用した。本研究では南極上空でのイリジウム衛星利用による気球飛翔中の観測機の位置情報の誤差やイリジウム衛星の通信品質を分析するための解析システムを構築することを目指している。近年5Gや6G移動通信システムの研究として高高度プラットフォーム(HAPS)を利用したエリア拡張が検討されている。HAPSの想定している高度は上空20km付近であり、今回のスーパープレッシャー気球の高度と近い。高度20km付近の低速な飛翔体とイリジウム衛星との通信データの公開例が少ないためデータとして貴重であると考えている。  今回のLODEWAVE実験のデータを解析したところ、南極上空での3機の気球の飛翔中のイリジウム衛星測位による位置誤差は16~20kmであり、群馬県、神奈川県、南極昭和基地地上での固定測定時の誤差4.4~6kmと比べて大きかった。位置誤差は,気球の高度とイリジウム提供の推定誤差半径(CEP radius)に対しては正の相関があった。気球の移動速度に対しては有意な相関は見られなかった。イリジウム測位はドップラーシフトを使っているが、今回の気球の移動速度での誤差の増加は見られなかった。気球からイリジウム衛星に対しての送信時の通信エラー率は1.5~5%であった。湘南工科大学の屋上で予備機を使った実験では通信エラー率は0.9%であったため、南極実験時の方がエラー率は高い結果となった。  南極上空のイリジウム測位誤差が大きい原因の一つとして気球高度が影響していると考え、異なる高度の気球観測データとの比較を行った。JAXA大気球実験グループからデータ提供を受け、2018年に実施したオーストラリア上空での2機の気球飛翔中のイリジウム衛星測位データも分析したところ、位置誤差の平均値は41 kmであり、南極上空での誤差16~20kmと比べて大きかった。2018年オーストラリア上空実験では気球の高度は36~39km程度と南極実験の高度16~19kmより高いため、イリジウム測位の誤差は高度が高くなるにつれて大きくなる可能性があることを明らかにした。  
005RP2022
 海洋データ同化システムとは、データ同化手法により海洋数値モデルに海洋観測データを融合させ海洋の状態を推定するシステムであり、季節予報において大気結合モデルの海洋部分の初期状態を与えるのに利用される。そして、海洋データで利用される最も重要なデータの一つがアルゴフロートによる観測データである。アルゴフロートは、観測海域への投入後、10日毎の水温・塩分鉛直プロファイル観測を自動で行い、その観測データは衛星を通じてフロートを管理する機関に通報され、厳重な品質管理を受ける。しかし、近年、製造過程の問題で、投入から1、2年後に故障し高塩の系統誤差を生ずるフロートが全体の10%以上あると報告されている。  本研究では、上記問題の影響を受けたデータを除外するなど、品質管理のレベルが異なったデータを用いた同化実験を実施し、アルゴ観測データの高塩シフトの影響や品質管理の効果を調査した。実験は、気象研のほか、ヨーロッパ中期予報センター(ECMWF)と、ナンセン環境リモートセンシングセンター(NERSC)でも実施した。実験の結果、どの機関の結果でも、本来保存する全球塩分量が増加トレンドを持ち、上記の系統誤差の影響を受けていることが確認された。また、どの機関においても観測された値をそのまま同化した場合、全球塩分の増加トレンドが一番大きく、品質管理のレベルを上げる程小さくなった。しかし、最も高いレベルの品質管理を行ったデータによる同化結果でも全球塩分の増加トレンドが残り、系統誤差の影響が完全に除去されていないことが示唆された。  さらに本研究では、海洋データ同化システムにおける海洋観測データのインパクト評価を促進するため、疑似観測データを用いた海洋データ同化シミュレーションに関する国際共同実験を企画した。そして、疑似観測データ作成のため、米国海軍ジェット推進研究所で作成された高解像度大気海洋結合シミュレーションについて、その精度や海洋現象の再現性について調査を行った。  本研究では、上記の結合シミュレーションの調査のため米国から専門家を招聘したほか、アルゴフロートに関する同化実験の結果について、ROIS-DS報告会のほか、国際学会、国内学会で2件ずつ研究発表を行った。また、本研究の成果は「国連海洋科学の10年」プロジェクトSynObsにも貢献するものであり、今後その推進に活用される。
006RP2022
本研究の目的は、対象の地理的現象(空間プロセス)を適切に表現するための、空間集計単位と空間スケールに着目した地理空間モデリングの提案としている。そのうえで、データ・プロセス統合型アプローチの提案を目指した研究に取り組む。 本年度は、主に以下の3点に着手した。 1. 計数形空間データモデリングに対して、ポアソン回帰モデルを空間データに適用する際に課題であった、疎なカウントデータに対応するための新たな地理的加重ポアソン回帰の手法開発に取り組んだ。特に、犯罪や疫学イベントなど、空間上に不均一に発生するイベントをモデル化する際に、従来の地理的加重ポアソン回帰モデルでは、イベント発生が疎な地域において不安定であったが、ポアソン分布を対数正規分布に変換する新たな手法を取り入れ、頑健なモデルを開発した。本内容は地理情報科学分野でトップジャーナルであるInternational Journal of Geographical Information Scienceに採択が決定した。 2. 連続型空間データモデリングに対して、空間プロセスを柔軟にモデル化するためのGeneralized Additive Models (GAM)モデルの開発に取り組んだ。空間変動モデルの新たなアプローチとして、ガウシアンスプラインを取り入れたGAMを開発し、従来のベンチマークモデルであったMultiscale Geographically Weighted Regression (MGWR)に対してあてはまりが向上した。本アプローチはCOSIT2022でショートペーパーとして発表したほか、国際学術誌への投稿に向けて準備を進めている。 3. 空間データ分析に際して、対象とする空間範囲が変更したとしても頑健な結果が得られる分析手法が望ましい。そこで、多変量データから総合指標を作成する事例を取り上げ、主成分分析、地理的加重主成分分析、BoD (Benefit of Doubt)による総合指標化作成における、空間範囲変更への頑健性を検証した。また各変数への重みも同時に考察した結果、これらの手法ではいずれにおいても改善点が見い出された。本研究は地理情報システム学会で口頭発表したとともに、次年度以降にも引き続き取り組む予定である。
007RP2022
 現在の地球主磁場の一階時間微分で表される狭義の「地磁気永年変化」は,磁気異常や宇宙天気予報の基礎となる地球主磁場基線値の将来予測に重要な役割を果たす。本研究では,五年程度の地磁気永年変化短期予測に機械学習法がどの程度有効か,という問題を解くために,ニューラルネットワークの一つであるEcho State Network (ESN)を地磁気永年変化予測に応用し,二種類の教師データを用いて地磁気永年変化の再予報を2005年に対して行なった。  その結果,以下の三つの成果が得られた: ① ESNは,地磁気永年変化の短期予測に対しても有効であった。地磁気ダイナモの数値シミュレーションに基づくデータ同化法(Minami et al., 2021)と比べても,精度的に優るとも劣らないことに加え,予測の過程で扱わなければならない状態ベクトルの自由度を,地球主磁場の球面調和関数展開に必要なガウス係数の個数(13次だと約200)まで減らすことができた。 ② 教師データとして,[1] 学術的に最も使用頻度の高い歴代の国際地球磁場標準モデル(IGRF; 例えばAlken et al., 2021),[2] 歴史及び考古地磁気学的データに基づいた過去数千年にわたる地球主磁場モデル(CALS3k; Korte and Constable, 2011)の二つを使用して比較した所,五年程度の短期予測には[1]で十分であることが明らかになった。これは,ESNそのものが大きな教師データを必要としないという特性を持っていることと,IGRFなどの全球地球主磁場モデルは概ね五年毎に改訂されているため必要な予測期間は数年程度であることの両方がその理由であると考えられる。 ③ 永年変化予測の基となる地球主磁場モデルが,高精度かつ高時間分解能で与えられていれば,ESNは地磁気ジャークなどの急激な主磁場時間変化が発生した場合にも,正しい永年変化を与える能力がある。これは,ESNが非線形現象を含む時系列予測にも適していることの現れであろう。
008RP2022
ゲノム編集を行うために必要な公共データを統合化し、実際のゲノム編集実験を加速する基盤技術として、特にゲノム配列が決定されていない非モデル生物種をターゲットした解析ワークフローを昨年度2021年度に引き続いて開発した。 本研究で開発してきた公共塩基配列データベースSequence Read Archive (SRA) からトランスクリプトーム配列解読のデータを取得し発現定量解析する一連の流れ(ワークフロー)のさらに下流部分の開発を進め、GitHub(https://github.com/bonohu/SAQE)からコードを、オープンアクセスジャーナルから査読ずみ論文(Systematic Functional Annotation Workflow for Insects. DOI: 10.3390/insects13070586)を公開した。東京農工大の天竺桂教授と共同で2017年のROIS-DS-JOINT(00RP2017)の成果として得られたアマミナナフシの脂肪体のトランスクリプトーム配列解読データやその他取得した非モデル昆虫のトランスクリプトーム配列を用いて、解析を行った。 また、ゲノム編集データ解析に向けてどの遺伝子がこれまでにゲノム編集の実績があるかを調べられるデータベースのプロトタイプをGenome Editing Meta-database (GEM)として作成した。そのコードはGitHub(https://github.com/szktkyk/gem) で公開し、オープンアクセスジャーナルから査読済み論文(GEM: Genome Editing Meta-database, a dataset of genome editing related metadata systematically extracted from PubMed literatures. DOI: 10.1016/j.ggedit.2022.100024)として公開した。
009RP2022
(野村・白石)空間点配置データに対する自己励起型モデルの推定手法の開発 空間的に事象(点)と事象(点)が互いに誘発し合う関係にある自己励起型空間点過程について,境界外に点が存在しない境界条件下での時間的順序関係の無い空間点配置に対する尤度に対して,誘発関係を潜在変数として尤度を最大化するEMアルゴリズムを開発した. (野村)保険料率算定に資するスパース正則化技法の開発 高次元回帰において予測変数間の隣接関係(地域間の隣接関係等)および回帰係数の大小関係の制約条件を考慮しながら回帰係数のクラスタリングを行うスパース正則化技法を提案し,損害保険の保険金請求データへと適用し,保険料率区分を実際にクラスタリングできることを示した. (大塚)公的介護給付費水準の評価指標の開発 公的介護保険制度は全国一律の制度であるが,地域によって差が見られることから,市区町村ごとに異なる男女比・年齢構成比を標準化・指数化したうえで社会的環境因子を説明変数としたモデルを異常検知手法に基づき比較可能な指標を算定し介護給付費等の地域間格差を分析した. (清水)サイバーリスク評価のための確率モデルの開発 サイバーリスク評価について:複合分布による多期間リスクモデルを用いて,サイバーアタックによる情報漏えいリスクの解析を行った.アタック件数に対しては,複合幾何型,複合ポアソン型,Hawkes過程などを用いた3つを用い,また,情報漏えい量についてヘビーテイルな分布を仮定することで,それらのVaR(Value-at-Risk)やTVaRなどに対する近似式を陽に与えた. (清水)死亡率予測モデルの開発 Shimizu et al. (2021, ASTIN Bulletin, 51, (1))によって導入された生命エネルギーモデル(SEM)に対して,逆ガウス過程を用いた新たなモデルを提案し,かつ,将来コホートのパラメータ予測に対する改善手法を提案し,先行研究に対していくつかの数理的な優位性があることを示した. (白石・岩沢・金子・川上・佐野・藤田・渡邊・野村) 時空間情報に基づく保険リスクの定量化 神奈川県の人口データを用いて、多変量ARモデル由来のSTARモデルと階層ベイズモデル由来のST.CARarモデルの当てはまりの良さを比較し、長期予測を行った。このデータではST.CARarの方が当てはまりは良いと判定された.保険数理の実務家メンバーと共同で関連文献を読み進め,階層ベイズモデルを用いた時空間データ分析の方法論および実装法を習得した.
010RP2022
「『日本人の国民性調査』にみるジェンダー平等意識の定着とその促進要因」  今年度の成果として特筆すべきは、本DS共同利用研究の成果であるとともに、2019年度~2021年度にDS共同研究として採択された「社会調査データを活用した戦後国民意識と占領改革の歴史学的検証」の成果でもある、2023年3月に下記の論文が査読付き学術誌に受理されたことである。 賀茂道子、加藤直子、前田忠彦「占領改革と戦後国民意識―『日本人の国民性調査』を活用した検証」『人間環境学研究』21(1)、2023年6月公刊予定。なお、速報版はwebで既に公開されている。 https://www.union-services.com/shes/jhes_data_flash_version/I.pdf  上記の論文は、戦後の日本国民における民主主義に関する意識を主なテーマとしている。この成果を踏まえたうえで、本共同研究では、同時期のデータをもとに戦後の日本国民におけるジェンダー意識を主なテーマとし研究を進め、以下の成果が得られた。 ① GHQ一次資料の調査により、占領期の男女平等政策とは、女性参政権、家制度の廃止、結婚の平等など法的な平等達成を目指したもので、ジェンダー平等という概念は見られなかったことが明らかとなった。 ② 戦後の女性政策の移り変わりを国際社会の動きと合わせて検証した結果、日本の女性政策は、「国際婦人年」といった外的変化と連動していたことが判明した。 ③ 『日本人の国民性調査』の男女平等および女性に関わる項目を抽出し、同時期の内閣府世論調査と比較できるよう年代順に一覧にまとめた。両調査の項目設定を精査したところ、男女共同参画の背景にある経済的な側面が見え隠れし、女性の人権という視点は反映されていなかった。  以上の成果を踏まえ、次年度は、『日本人の国民性調査』回答における男女平等意識の推移、および、設問に反映された男女平等意識を分析し、その背景にある政治的要因との関連性を検討する。とりわけ男女平等が、ジェンダー平等、女性の人権という視点から捉えられるようになった時期を計量的に特定することを目標としている。また、これまでの分析方法を精査したうえで、さらに精度の高い結果を導き出すことを企図している。
011RP2022
本共同研究では、大きく分けて2つの目的を掲げている。第一の目的は、「研究の推進」である。ここでいう研究の推進とは、①新興科学技術の食品への応用に関する消費者リスク意識に関する研究、および②インターネット調査をはじめとした社会調査方法論の彫琢に関する研究、という2つの研究テーマについて、調査の実施、分析、論文等での発表といった一般的な意味における研究の推進を指す。  第一の目的に関して、今年度は次の論文を公刊することができた。 Kato-Nitta, N., Tachikawa, M., Inagaki, Y., & Maeda, T. (2021). Public Perceptions of Risks and Benefits of Gene-edited Food Crops: An International Comparative Study between the US, Japan, and Germany. Science, Technology, & Human Values, 01622439221123830.  この論文は、Science, Technology, & Human Valuesという米国科学技術社会論学会(Society for the Social Studies of Science)のオフィシャルジャーナルであり、5-year-Impact factor:4.458と、注目度の高いジャーナルに掲載されたことが特筆できる。   本共同研究の第二の目的は、「調査データのアーカイブの推進」である。本共同研究では、これまでに5回にわたるインターネット調査のデータ・セットを保有している。今年度の目標は、それらを整備し、データサイエンス共同利用基盤施設・社会データ構造化センターにおけるそのほかの調査データにおけるアーカイブ化の進捗状況を参照しながら、本共同研究による複数のデータ間の規格化を検討することであった。この点に関して、今年度は3回(2022年9月、2023年1月、2023年2月)の打ち合わせをデータサイエンス共同利用基盤施設で実施した。なお、今年度は既存の調査データ群のうち、どのデータについてどこまでをどのように公開するのかについて、共同研究者間で認識を共有し、作業に着手するところまでを実施することを計画していた。しかし、現状は認識のすり合わせを行っている段階にとどまっている。第二の目的がやや遅れている理由としては、第一の目的の査読対応やその修正のための話し合いに時間を割いたことがあげられる。  次年度は、第二の目的についても研究補助者等あるいは役務としてデータ整備を担当くださる方を強化することにより、推進の速度をあげていく予定である。
012RP2022
本研究の目的は、将来的に霧の実況監視と予測の精度向上に資するため、その発生、発達、移動、消失に関わる物理過程の詳細な解明に繋がるように、時空間的に密な霧の分布や動向を把握する。高頻度の衛星観測による霧プロダクトに、地上からの観測(シーロメータ、視程計、目視観測、カメラ画像)などを加えた機械学習による霧判別手法を開発し、局所的な集中観測も行って判別の精度を評価する。 今年度の具体的な研究計画として、(1)ひまわり8号霧プロダクトと地上設置型観測による霧判別の関係と精度評価、(2)日本全国の霧の発生の季節的・地理的傾向を統計解析により把握する、(3)検証用データ取得のための霧の集中・移動観測の実施、の3つを掲げた。達成状況については、(1)では、5分毎の高頻度で霧プロダクトと地上の視程計を比較し、両者の特性の違いを季節や地域、気象条件ごとに明らかにした。(2)については、霧プロダクトや地上観測データから、霧の日数の季節変化と地形因子との関連を調べた。クラスター分析や主成分分析等を行い、地域ごとの特徴や頻度分布などを明らかにし、様々な種類の霧の成因について考察を行った。(3)では、秩父盆地と周辺の山地で車による移動観測や定点での気象観測を行い、衛星観測では補足できない局所スケールの霧をターゲットにその挙動を調べた。(1)~(3)の一部については、令和4年度の卒業研究として実施したほか、日本気象学会2022年度秋季大会で成果発表を行った。 以上の実施状況から、面的に均質で高頻度に得られる衛星観測、局所的に現象を捕捉できる地上観測、さらに3次元の大気情報を与えるモデルデータを機械学習で組み合わせることで、より精度のよい霧判別ができる可能性が示唆された。今後、カメラ画像解析による霧観測が可能となれば、Webカメラを設置している気象台以外のアメダス観測点や部外機関の観測点も地上観測データに含めることができる。なお、画像解析による霧判別の手法は、先行研究がいくつかあるものの、昼夜間や輝度によって対象物の視認に違いがあるなど、様々な環境に設置されているカメラ画像で実用に耐えうる精度で行うには、さらなる開発が必要である。
013RP2022
 本研究は、申請者らが提案する「デジタル史料批判」という手法を用いて20世紀初頭のシルクロード探検隊が残した地図・平面図・古写真といった空間情報を持つ画像資料を定量的に解析し、構築を開始したシルクロード遺跡データベースを用いて所在不明となっていた探険隊調査遺跡を系統的に照合することで、欧・日と現代中国の考古学・歴史学研究の成果を統合するための地理学情報基盤を作成することを目的とする。申請者等らは、2016年から欧・日と現代中国の考古学・歴史学研究の成果を統合するための地理学情報基盤として「シルクロード遺跡データベース」を構築する研究を開始しており、2021年末に一般公開した(*1)。しかし、本データベースの最終目標は、国際的な共同研究プラットフォームとして稼働することであり、求められる機能が高度であることから、なお必要な機能を実装する必要があった。そこで2022年度は<データベースの機能充実>を中心的課題に据え、プラットフォームの機能を向上させた。  2022年度に得た成果は以下の通りである。 <1.多言語化>既にシステムの多言語化には対応していたが、2021年度の段階では日本語表示のみとなっていたため、表示も含めた多言語切り替え機能を構築した。 <2.マッピニングの刷新と実装>「マッピニング」は、古地図と現代地図を比較してその誤差を管理するツールであり、既に関連サービスを開始していた。これを遺跡データベースの一つの機能として使えるようにOmeka Sに移植し、遺跡データベースの多くの機能との連携を可能にした(*2)。 <3.遺跡ポイント調整機能の実装>資史料との照合の過程で、対応ポイントの微調整が必要になることがあるため、データベース内における位置情報の編集を可能にした。 <4.地図ページの機能強化>公開ページの地図機能のユーザビリティを改善し、その一環として地名検索機能を追加した。  一方で、一次資料を有する機関と遺跡データベースを媒介してリアルタイムの情報共有に対応できるようにするためにはなおデータ連係の面で課題があることが明らかになりつつある。本データベースは、ドイツ各地で研究が進むデジタルアーカイブとの連携も考慮に入れており、今後はデータ連係面での課題を見極め、データ整備を進めた上で、将来は競争的資金による国際的な共同研究へ拡大していく予定である。 (*1)シルクロード遺跡データベース, http://dsr.nii.ac.jp/ruin/ (*2)マッピニング,http://dsr.nii.ac.jp/ruin/s/ja/page/mappinning
014RP2022
 2020~22年度の3年にわたって実施した本課題の目的は、日本を含むアジア8ヶ国で2019~21年に実施する予定だったウェルビーイング(幸福)に関する半構造化インタビュー調査(Social Well-Being Interview in Asia; SoWIA)のデータを整備し、韓国社会科学資料院(KOSSDA)で研究者向けに一般公開することであった。共通の調査設計に基づく国際比較可能な質的社会調査データは量的調査データに比べて未だに希少なため、公開されれば大きな学術的価値をもつ。また、個人情報保護とデータの学術的価値とのバランスなど、量的調査とは異なるデータ整備上の課題の検討も、学術的貢献といえる。  整備対象のSoWIAインタビュー調査は2019年夏から各国で順次実施されつつあったものの、2020年春以降の新型コロナウィルス感染症による移動・渡航規制のため、多くの国で中断を余儀なくされた。日本メンバーの立ち会いなしで現地研究チームのみで調査を敢行した国もあったが、台湾ではデータの研究者向け公開についての対象者からの同意を得なかったためにデータ公開を断念せざるを得なくなるなど、コミュニケーションの制約による失敗もあった。最終的に2022年末にはすべての国の調査が完了したが、データの点検と整備はこれからの作業となる。  この間の本課題での活動は以下の通りである。2020年度と21年度には日本での対面ミーティングの開催も不可能だったため、ミーティングはオンラインに切り替え、その分の予算を日本インタビューの文字起こしと翻訳に充てた。2022年度はすべての国での調査が終了したことを受けて、2023年2月3~5日に日本での対面ミーティングを3年ぶりに開催した。KOSSDAで質的調査データの整備・公開を担当する研究員に質的データ整備の国際的な動向と具体的な手順を説明してもらった上で、すべての国の調査責任者が自国データの整備状況を報告し、今後の作業の手順を確認した。  2022度の研究成果としては、データ整備が先行して進んだ日本およびいくつかの国のインタビューデータを用いた研究報告4本を、2023年2月にハイブリッド形式で開催した国際シンポジウムで発信したほか、ウェルビーイングや社会学の国際会議でも報告をおこなった。
015RP2022
 昨年度に引き続き地表面温度のモデリング手法を検討した。都市熱波対策等への応用を見据え、同地域で観測された疎な(欠損の多い)衛星衛星画像データを用いた地表面温度の面的補間・将来予測の精度を検討した。なお、検討の結果、当初予定していた常微分方程式(ODE)ではなく、SPINと呼ばれるスパースなアテンション層を持つSpatio-Temporal Graph Neural Network (STGNN)を用いることとした。これは同手法を用いることで、極端に疎な衛星観測画像からでも空間的・時間的な依存関係が学習可能なためである。  アテンション層SPINは、最初に地表面温度データ(衛星観測)と共変量を時空間アテンションの第一層にインプットし、アテンションを複数回繰り返した上で多層パーセプトロンを通して予測値を出力するというものである。地理的情報を考慮したアテンション、ならびに、同一地点の時系列情報を考慮したアテンションにより、時間的・空間的な依存関係をモデル化したうえで地表面温度の補間や予測を行う。  STGNNの精度検証は、2001~2013年の8月1日~9月30日の午後1時30分に観測された地表面温度データを用いて実施した。対象地域は東京都市圏である(31,235の1kmグリッド)。共変量には、緯度・経度、標高、都市化率、森林化率などを用いた。雲等の影響で地表面温度データは欠損率が高く、1日あたりで有効な観測値の割合はわずか29.8%である。  STGNNの精度評価では、地点に関しては、観測地点から15%、25%、35%、50%の割合でランダムに学習用データを選択し、残りのデータに対する予測精度をそれぞれ検証した。また、時点に関しては、2001-2009年を学習用データ、2010-2011年をバリデーション用データとして学習し、2012-2013年のデータで精度を検証した。同予測精度は、古典的な統計モデルであるINLA-SPDEならびにgeneralized additive model(GAM)と比較した。その結果、STGNNの補間ならびに将来予測の精度は、統計モデルよりも良好であり、平均絶対誤差や平均二乗誤差がおおむね半減できることが確認された。
016RP2022
シルク遺伝子の発現している終齢幼虫0日目から7日目の個体から絹糸腺を取り出し、さらにその絹糸腺を後部、中部、中前部、中後部の部位からそれぞれbiological replicate=3でtotal RNAを抽出して、RNA-Seqを行った。RNA-Seqデータと、参照トランスクリプトーム配列データ(Yokoi et al., 2021 Insects DOI: 10.3390/insects12060519)を用いて、それぞれのトランスクリプト毎の各サンプルにおける発現定量を行った。これらの発現量データを1つの表にまとめた。さらに取得した、発現量情報はRefExやKAIKObaseに収録するためにデータ整形を行った。 各トランスクリプトーム配列におけるアノテーション情報をアノテーションワークフローのFanflow4Insectsを用いて、拡張した。具体的には51,926のtranscriptのうち、40,555のtranscriptから、45,719 種のアミノ酸配列情報が予測され、95.2%のアミノ酸配列(42505種)にアノテーション情報を付与することができた(以前のversionでは30715種予測されていた。)。アミノ酸配列が予測できなかった11,371種のtranscriptのうち、45種は既知のnon-codingRNAと配列類似性を持って、300種はR-famで機能をアノテーションできた。最終的には51,926種のうち11,026種のtranscriptがアノテーションをつけることが出来なかった。さらに、そのうち687種については組織別の発現量情報を用いて、組織特異的もしくは組織全体での発現遺伝子として機能アノテーションを加えることが出来た。Fanflow4Insectsは、ROIS-DS-JOINTの他の課題で開発されており(課題番号008RP2022)、拡張されたアノテーション情報は査読済みオープンアクセス論文の中のデータの一部として公表された(Bono et al., Systematic Functional Annotation Workflow for Insects, Insects, 2022, 13(7), 586;DOI: 10.3390/insects13070586)。
017RP2022
 本研究では、海洋研究開発機構が開発した大気予報モデルとデータ同化システムを用いて、天気予報に同化されていない南極昭和基地大型大気レーダー(PANSYレーダー)の風速データに着目し、再解析データの再現性や予報精度の向上にどれほど影響するのか調査した。  PANSYレーダーの影響を調べるため、PANSYレーダーの風速データ(東西・南北風、約1.5~20kmの指定気圧面高度、1時間間隔)を組み込んだ場合(PANSY観測あり)と組み込まなかった場合(PANSY観測なし)のアンサンブル再解析データを作成した。「PANSY観測あり」の場合、観測データが取得されている高度1.5km以上の風速の観測に対する誤差やその標準偏差(不確実性)が小さくなっており、特に対流圏界面から成層圏下層での影響が顕著であった。また、風速だけでなく、気温や高度の再現性や不確実性も改善されていた。次に、2017年12月17日に豪州西部のユークラで最高気温43度を引き起こした大気循環場を対象とし、2017年12月12日12時を初期値としてそれぞれのデータで4.5日間のアンサンブル予報を行なった。その結果、「PANSY観測あり」の予報では、低気圧の位置や強さに影響する上空の気圧の谷の位置が比較的正確に予報できており、「PANSY観測なし」よりも低気圧の位置が約200km実際の低気圧に近い結果となった。さらに、「PANSY観測あり」の場合、アンサンブルメンバーのばらつきが小さくなり(不確実性が改善)、低気圧の中心気圧の予報も約5hPa改善されていた。低気圧の予報精度に影響する不確実性の差は、初期時刻に昭和基地周辺で発生し、予報期間中に増幅しながら偏西風により東側に伝搬して4.5日後にはオーストラリアに到達していた。これらの結果から、南極圏にある既存の観測器のデータを天気予報に取り込むことで、南半球の天気予報の精度が改善することを示した。  上記の事例以外にも、極域予測年(YOPP)により南極大陸の複数観測所で実施されたラジオゾンデ集中観測(実施期間:2022年5~8月)に着目し、これらの追加ラジオゾンデ観測やPANSYレーダーを取り込んだ場合と取り込まない場合のデータセットの作成に取り組んだ。また、2022年12月から2023年3月まで第64次南極地域観測において観測船「しらせ」船上で取得した特殊ゾンデやラジオゾンデ観測のデータを使用し、データ同化実験や予報実験にも着手し始めている。
018RP2022
 課題遂行の最初の取り掛かりとして,HHT(Hilbert-Huang Transform)に利用される,経験的モード分解法(EMD, Empirical Mode Decomposition)を用いた,ひずみ計記録のノイズ除去,長周期変動成分(潮汐等周期変動)抽出,長期トレンド推定を実施した.分担者新谷が岐阜県神岡で観測を行なっている1500 mの基線長を持つレーザー干渉伸縮計の記録(1分値,1年間長),板場が管理する深部ボアホールひずみ計記録(20 Hzサンプリング,6時間長)を利用して,データ操作を効率よくできるパラメータ探索を行なった.結果,データサンプリング間隔やデータの最小分解能を基準とする閾値を用いることで,様々なデータ時系列に対応できることがわかった.同時に,10-12ひずみ以下の分解能を持つ観測記録であっても,変動の極大・極小付近では,より低次モードへの信号の染み出しなどモード分解に支障が生じる可能性があること,データ値が飽和した記録に適用した際には変動中央値付近にみかけ上の長周期変動が現れることが判明した.これらを改善するため計算量は増えるがより安定的にモード抽出が行えるEnsemble EMD(EEMD)を試行した.ごく近地で地震を観測し記録が飽和した波形記録にEEMDを適用することで地震動成分,潮汐成分を一度にモード分解でき,地震による長期トレンド変化らしき信号を抽出できた.これらの研究成果は,日本地球惑星科学連合2023年大会(5月21日(日))において発表予定である.  以上のように,興味の対象である現象を含む周波数帯域を概ね経験的ではあるが,精度良く抽出する技術としてEEMDによる変動現象のモード分解法を確立できた.しかし,あくまでも経験的な手法であるため,固有周波数を持つ現象(例えば潮汐や地球自由振動など)を直接的に抽出できるわけではない.ノイズ(興味の対象外の変動現象)を除去した上で,信号検出するための手法と組み合わせる必要がある.今後は,周波数領域におけるひずみ解析手法(Okubo, 2007)などを組み合わせ,課題の目的である信号検出技術の確立を目指す.
019RP2022
「逆引きデータ解析支援システム」のひな形を構築するべく、2年度目の共同研究に取り組んだ。昨年度の参画研究者全員参加のオンライン会合で、「データ同化手法」を逆引きする方向性のすり合わせができていたため、本年度はメールベースで情報交換を行いつつ作業を進めた。  データ同化手法の核融合研究への導入過程、特に、核融合コミュニティに対してデータ同化手法を説明するために作成・改良が重ねられてきた説明図(森下侑也、村上定義、横山雅之、上野玄太、小特集記事「磁場閉じ込め核融合プラズマにおけるデータ駆動アプローチによる物理モデリングの進展 3.データ同化による輸送モデリング-LHDにおける実践例-」プラズマ・核融合学会誌 97 (2021) 72-78.)を時系列的に分解して、紙芝居的に説明を展開する案を核融合側から提示したところ、データ同化では分布がいくつも出てくるので、このように順番に分布を描いていくやり方はわかりやすい、削っても支障のない情報は極力削って図の煩雑性をさらに下げる努力をしてはどうか、というコメントがデータ同化研究支援センター側から出された。さらに、観測のない変数もデータ同化の状態変数に加えておくことで、観測のある変数による最適化がその変数まで及ぶというデータ同化の大きな利点を視覚的に説明する図も新作し、それも組み込んだ一連の説明資料を作成するに至った。その資料に、昨年度にも作成していた「よくある質問集(玄人版、素人版)」を付加して、「データ同化」に関する逆引きデータ解析支援システムのひな形として共同研究参画者間で共有した。  多様なデータ解析手法について、同様の取り組みを行うことで、「逆引きデータ解析支援システム」が構築されていくこととなるが、2年間の本共同研究では、「観測に合う・説明できるモデルを創りたい」「分野のシミュレーションの精度(説明性)を向上させたい」「データ同化という言葉は知っているが、どのような方法なのか」といった、諸科学側からの要望・疑問に答える(データ同化研究支援センターの面談などの場で活用できる)資料のひな形を作成することができた。
020RP2022
はじめに  本研究では,有益な農業昆虫であるセイヨウミツバチの公共RNA-seqデータを統合・再解析し,得られた結果をRefEx2 (モデル生物を中心とした遺伝子発現量を容易に検索・閲覧できるシステム)へ収載することを目指している.一方で,公共データベースにあるRNA-seqデータの利用に関しては課題がある.それはデータが様々な実験環境(バッチ)によって取得されている点である.そのような場合,単純に実験環境間で遺伝子発現を比較できないことがある.これはバッチ効果と呼ばれ,その効果を除去する手法も開発されてきている.本年度は,バッチ効果の除去に適した手法の探索を行った. 研究方法 薬剤処理等していない通常状態のセイヨウミツバチのRNA-seqデータをAOE (https://aoe.dbcls.jp/)を用いて探索した.次に,Salmonで得られたカウントデータからバッチ効果を除去するプログラムであるRUVseqおよびComBat-seqを利用し,その後DEseq2による発現解析を行った.データ全体からバッチエフェクトが除去できたかどうかは,主成分分析やサンプル間距離ヒートマップを作成して評価した.また,個別の遺伝子の発現データも精査した. 結果 幼虫(女王またはワーカーに発生運命づけられたもの)と成虫(女王,ワーカー,雄)に由来する237の公共RNA-seqデータを取得できた.発生段階やカーストのような詳細なメタデータは原著論文において確認した.本年度は,少数のバッチ(3つ)に由来し,かつ女王およびワーカーとの間で発現が比較可能なデータに絞って解析した(女王またはワーカーになる3齢の幼虫:4ずつ,女王またはワーカーになる5齢の幼虫:7ずつ).RUV-seqの有無でデータを比較した結果,バッチエフェクトは除去できていなかったが,一方でComBat-seqを利用すれば,データ全体からバッチエフェクトが除去できることがわかった.また,既知の発現変動遺伝子や内部標準遺伝子の発現データを精査すると,ComBat-seqは各遺伝子の発現のばらつきを低減し,かつ統計値も改善されていた.これはComBat-seqによって統計的な検出力が向上したことを示唆している. 今後について 実際にデータベース化するデータセットを対象にComBat-seqを利用した再解析を実施していく.
021RP2022
本研究課題では、web上の公開データから必要なデータの収集やデータベース作成を行うことを前提とした、データクレンジング技術の確立に関する研究を行った。この研究では、応用先のアプリケーションとしては音声認識や話者認識、音声合成など時系列データの一種である音声に着目しweb上にある膨大な公開データを活用するための一助となることを目的としている。web上の公開データを研究用途として収集するために考慮すべき点として著作権などの公開者の定めた権利に抵触しないことだけでなく、背景雑音やBGM、対話状態や効果音、シーン切り替えが合成音声など通常のスタジオなどで音声を収録するのとは大きく異る環境についても考慮する必要がある。そのため、データクレンジング技術の確立は非常に重要な課題となる。そこで本研究では、動画共有プラットフォームの一つであるYouTubeに着目して、データを収集し、応用アプリケーションに適切なデータのみを抽出するデータクレンジング技術について提案した。提案手法では、まず、YouTubeからデータを収集する際にコンテンツに投稿者による手動字幕がついているものを選択するところから始まる。手動字幕がついた動画の音声データを抽出したあと、音声認識などのアプリケーションの作成に使用可能なデータを抽出するために、音声セグメンテーションを行った。音声セグメンテーションでは、入力された音声をCTC/attention機構と自動字幕の情報などをもとに実際に音声が含まれる区間を切り出すことが行われる。これは、YouTubeなどの動画においては実際の話者以外にもBGMや雑音、効果音などが多く含まれており、従来の音声区間検出では切り出しが困難となることが理由である。特に、手動字幕が付与されているデータについては実際の音声区間と字幕部分の時間差が大きくないという点からも利用することでより安定した音声区間の検出である音声セグメンテーションが期待されるためである。  さらに話者照合や音声合成など、話者に依存するアプリケーションにおいては動画内で複数人の声が入り交じる音声を使用することは性能の低下につながるため、一名の話者のみ存在する動画(単独話者動画)を抽出する手法も必要となった。これまでは動画内の話者数を推定するためにある話者の特徴を表すベクトルを動画から複数抽出し、そのベクトルで表現される話者空間の分散の大きさに着目してデータの選別を行っていた。この手法では一つの動画内で複数名の声を含む動画と単独話者動画の選別は高い精度で分別可能であった。しかし、単独話者動画内に合成音声による音声も含まれており、合成音声を含むデータを用いた話者照合モデルの学習は学習が不安定になることが懸念されていた。そこで本研究では単独話者動画内から合成音声か実際に人間が発話しているものなのかを判定することを目指した。具体的には、Linear Frequency Cepstral Coefficient (LFCC)やconstant Q cepstral coefficients (CQCC)と呼ばれる特徴量を用いて混合ガウス分布(GMM)や畳み込みニューラルネットワーク(CNN)の学習を行い、人間による実発話と合成音声とを分類することを行った。これらの特徴量とモデル化は背景ノイズやBGMなどを含まないきれいなデータにおいては高い分類性能が得られることが知られていたが、今回対象としているYouTubeデータのような背景ノイズや収録環境の種類が大きくことなるデータに対しては性能が大幅に低下することがわかった。そこでデータの種類に対して頑健性を上げるために複数のデータ拡張やノイズ除去などの処理を行った。その結果、データ拡張やノイズ除去を行わない場合と比べ性能が大幅に向上することが確認できた。  今後の課題として、今回の実験においてはあくまでも実発話か合成音声かの分離を行ったが、この分離を行うことで話者照合システムにどのような影響を与えるのかについての検討などが挙げられる。  
022RP2022
多種多様な育種データを整理・活用するためには、データ間の相互運用性を高める必要がある。そのために、具体的には、データを記述する際に、各専門分野における統制語彙であるオントロジーを活用することが効果的である。そこで、育種情報を効率的・横断的に利用するために、様々な作物の育種情報に記載されている項目を抽出し、育種のために必要とされている情報のリストを作成し、系統のメタデータのRDFスキーマを整備した。今年度は特に国内外のデータベースにおけるシノニムの入力方法を調査した。例えば小麦の農林10号の場合、NOURIN 10、NORIN10などの表記ゆれが想定される。また、イチゴの「あまおう」のように、品種名ではなく商標で呼ばれている品種系統も存在する。そこで、primary nameの命名ルールやシノニムの管理方法について、ルールを設定した。 ゲノムデータと系譜情報のデータ連携のために、DDBJのBioSampleとのデータ連携に向けてBioSampeIDと紐づけるための語彙を追加し、本研究の成果である育種方法についてのオントロジー Pedigree Finder Ontology (PFO; https://github.com/dbcls/pfo) を公開した。PFOのプロパティでBioSampleへのリンクを追加することができ、これによりTogoID(https://togoid.dbcls.jp/) 等と連携して、容易に品種・系統から関連するゲノム情報を取得することができるようになった。農研機構ではPFOを利用して系譜情報をRDFデータとして整備し、系譜情報グラフデータベースPedigree Finder (https://pedigree.db.naro.go.jp/)を公開している。 この共通語彙とデータのRDF化について、トーゴーの日シンポジウム2022にて、「Pedigree Finder Ontology (PFO) の開発」というタイトルで、ポスター発表を行った。(doi:10.18908/togo2022.p018)。また、"系譜情報グラフデータベース「Pedigree Finder」"というタイトルで育種学研究に論文を発表し(doi.org/10.1270/jsbbr.22J02)、プレスリリースを実施した。
023RP2022
 高度経済成長期以降、京都の市街地は画一的な宅地開発や建築活動が進み、歴史的な町並みは失われつつある。京都では地域住民を主体とした町並み保全・創出の活動が活発に行われており、地域の景観形成の方針を考える上で、その現状や変化を客観的に伝える資料は重要であると考えられる。一方で、戦後から高度経済成長以降の京都の町並みは急激に変化したため、現在に至る景観形成の過程を把握できる資料は希少となっている。  本研究はメモリーグラフ(以下、メモグラ)を用いてデジタル・アーカイブされた古写真と現在の町並みを比較することで、地域の景観形成の歴史的文脈を学習する方法を検討するとともに、収集された今昔写真と古地図を組み合わせたコミュニティの記憶を引き継ぐための地域学習資料の構築を目的とする。2022年度は、2021年度の活動を通じて発見された京都市が所有する町並み調査写真(昭和47年「京都市市街地景観条例」制定に向けた調査写真、伝統的建造物群保存地区指定に向けた調査写真(産寧坂地区(昭和51年地区指定)、祇園新橋地区(昭和51年地区指定)、嵯峨鳥居本地区(昭和54年地区指定)など)のデジタル・アーカイブを実施した。資料は現像された写真がアルバム形式で33冊あり、デジタル化に関しては24冊を完了した。引き続き、残る資料のデジタル化及び公開に向けての作業を検討する予定である。また、デジタル化した資料の一部を用いて、iOS、Androidの両OSに対応した(2021年度はAndroid版のみ)新メモグラの評価実験を行った結果、操作性に関して、以前のメモグラに比べてユーザーインターフェースが整理されたことにより操作が直観的に分かりやすくなった、初めて使用した人も遊び感覚で使用できたという意見が多く、大きなストレスなく操作できたと考えられる。具体的な機能について、地図機能、古写真の透過機能、カメラ機能については概ね高い評価であった。また、メモグラ体験は、ほとんどの参加者が楽しかったと回答し、地域学習に関しても地域理解のきっかけやさらなる学びのツールとして有意義であるという意見が多かった。
024RP2022
 本研究では,「日本人の読み書き能力調査」と「鶴岡市における言語調査」を主な研究対象とし,調査データの活用方法に関する検討,調査付帯資料の整理と公開,調査設計や実施に関わる社会調査史的な検討,より広い文脈における歴史的な価値の検討,といったテーマを定め,担当メンバーが主に次の3点の検討を行った。 [1]読み書き能力調査の史料分析と歴史的評価(前田・高田)  戦後初期の社会調査におけるランダムサンプリングと面接法を中心とする調査設計・手法の標準形の確立の過程を検討した。検討成果を踏まえ調査付帯情報の重要性に関する考察を前田(2023)として論文化した。 [2]鶴岡調査の基礎分析結果の公開(高田・鑓水・前田)  国立国語研究所で公開している「鶴岡調査」の素データ(最新版はVer4.0)に基づき,基礎分析結果(クロス集計表)のHP等での公開を通じて,データ利用者に対する基本情報の提供を充実させる方策を検討した。実際の公開には至らなかったため,今後社会データ構造化センター開発のシステムを通じて,制作を継続検討することとした。高田(2022)で経過を報告した。 [3]民主化政策と言語政策の連関に関する史的考察(賀茂)  GHQ民間情報教育局(以下CIE)による提案で1948年に実施された「読み書き能力調査」の背景,およびCIEの考えるリテラシー(識字能力)を検証するため,国立国会図書館憲政資料室のCIE史料を取集し検証した。  日本おいて戦前から漢字削減などの言語簡易化要求があったことに加え,占領初期にCIEが民主主義を啓蒙するために発信した情報やプロパガンダが労働者に理解できないとの恐れを抱いたことが,CIEによる言語簡易化の推奨につながった。ただし,この危惧は科学的手法による検証に基づくものではなかったため,ランダムサンプリング調査手法による「読み書き能力調査」が実施されることになった。ただし「逆コース」と呼ばれる占領政策の転換もあり,調査結果はさらなる言語簡易化にはつながらず,CIEの評価もなされなかった。  本検証から,「読み書き能力調査」に至る背景に,日本人の識字能力が日本民主化の障害となるとCIEが考えたこと,CIEの考えるリテラシーとは大衆メディアを問題なく理解できる能力を指すことが明らかになった。  なお,本検討に関しては,今期の国立国語研究所論集へ論文として投稿予定である。
025RP2022
本研究は、睡眠・覚醒などの約一日周期の生理リズムである概日時計の制御機構の解明の一環として、カリフォルニアマウス(Peromyscus californicus)における概日時計の光同調変異体Free runnerの原因遺伝子の探索を目的としている。本年度は本研究で用いられている野生型個体と変異型個体の各1匹ずつを用いて、ゲノムシーケンシングを行った。その結果、最近に公開されたカリフォルニアマウスのリファレンスゲノム情報に対して、約1000万箇所のSNPが存在することが分かった。これら解析結果の共有や、今後の研究方針に関して、3月22日に、関係者がゲノムデータ解析支援センター(国立遺伝学研究所)に一堂に会して協議を行った。また現在、Free runnerの表現型と連鎖する塩基置換を追跡するために、サウスカロライナ大学Peromyscus Genetic Stock Centerより入手した野生型個体F0と Free runner個体F0をかけ合わせて、F1およびF2個体の家系図を作成している。興味深いことに、得られた19匹のF1個体のうち、3匹がFree runner表現型を示すことが分かった。また、F1同士を掛け合わせ、現在のところ、67匹のF2個体を得ている。 これと並行して、本研究の実験を担当している研究参加者(大学院学生)がRNA-seq.等のデータ解析の一端を担うべく、ゲノムデータ解析支援センターにてバイオインフォマティクスの技術指導を受けた。具体的には、Unix系OSの基本的な操作から、ゲノムデータ解析に必要な解析環境の構築の仕方、RNA-seq.データの解析手順と解析結果の評価の仕方などの技術習得である(当初の計画では9日間の日程で調整していたが、新型コロナ感染症の影響により日程を3日間に短縮し、必要最小限の基本技術のみの習得に変更した)。本研究とも深く関係する概日時計の分子発振メカニズムに関して、大学院生および研究代表者らは、概日リズムを示す細胞株とリズムを示さない細胞株を用いた比較トランスクリプトームの成果を第29回日本時間生物学会 (12/3日および4日、宇都宮大学)にてポスター発表を行った。本発表では、リズムを示さない細胞株においても、時計遺伝子は発現していることを述べたが、タンパク質レベルでも時計遺伝子は発現しているのかが議論点になった。そのため今後、プロテオームを用いてタンパク質レベルでの解析を計画している。
026RP2022
本研究では、宇宙科学・超高層大気科学分野データのデータ駆動型研究への利用促進を目的として、Pythonベースのデータ取得・解析ツール開発をおこなった。まずGithubを用いた共同開発環境の整備、プログラムのテンプレート・マニュアル作成を行い、各大学・研究機関の研究者および時間雇用の学生が開発を進めた。1-2週間ごとに、各大学の担当研究者でオンラインの打ち合わせを行い、進捗を確認しながら進めた。結果として、研究期間終了地点で共通モジュール部の全て、および個別のロード関数の約半数の開発が完了した。極地研の全天イメージャデータ、全天イメージャ・ケオグラムデータ、フラックスゲート磁力計データ、誘導磁力計データ、EISCATレーダーデータ、北大の誘導磁力計データ、京大WDCの地磁気・指数データ、京大RISHのBLR/ITRデータ、九大のGCMデータはロードと可視化が可能になっている。9月30日には2022年度研究集会「太陽地球系物理学分野のデータ解析手法、ツールの理解と応用」において、開発途中のβ版ツールを用いたデータ解析講習会をおこない、28名が参加した。開発中のツールはhttps://github.com/iugonet/pyudasで一般公開されている。 実際のコーディングを学生を主体とした開発体制にしたことで、参加学生のデータマネジメントやデータ取得の仕組みへの理解が深まるなどの教育効果があった。一方で、参加学生によってスキルやモチベーションの差が大きく、開発の進捗が想定より遅れる結果となった。 今後、開発未完了のプログラムは業者への発注も選択肢にいれて全てのプログラムの完成を目指す予定である。
027RP2022
1(1)バイオリソースー-疾患間の関係データの作成方法の再検討 実験マウス,DNAクローン,細胞材料に対して,それぞれ昨年度の約半分の8(昨年度は17)種類,8(同17)種類,16(同25)種類のSPARQL検索式を用いてデータの取得が可能になった.これにより,データ検証の負担が軽減され,今年度はデータ更新を3回(昨年度は1回)実行することができた. (2)バイオリソース-疾患関係データに対する信頼度情報の提供 DisGeNETが提供する遺伝子-疾患間の信頼度を表す0.0?1.0のGDA scoreを,0.5以上,0.8以上,1.0(最高値)の3種類に整理して,このランクを用いてバイオリソースー-疾患間データの信頼度を評価できるように実装した.これにより,ユーザーはこの信頼度のランクを根拠として,疾患研究に利用可能なバイオリソースの候補を選択できるようになった. (3)MedGenを用いたバイオリソース-疾患間関係データの提供開始 DisGeNET に加えて,MedGen RDFの遺伝子-疾患相互作用データを用いて,バイオリソース-疾患間関係データを作成した.これにより,DisGeNETとMedGen由来の両方のバイオリソース-疾患情報の提供が可能になった.ユーザーは,前述の信頼度のランクに加えて,バイオリソース-疾患情報が,DisGeNETおよびMedGenのどちらを根拠にするものか,あるいは両方を根拠にするものかに基づき,疾患研究に利用可能なバイオリソース候補の選定が可能になった. 2.鳥取大学の足立香織准教授が開発し,国立成育医療研究センターが運用する難病関連遺伝学的検査データベースの検査情報に対しNANDOの割り当てを継続した.またデータの視認性が高まるように改良を加えた. 3.京都大学の鎌田真由美准教授の協力を得て,MGeNDが収集した難病に関連する病原性バリアントとNANDOとの対応付けを進めた.さらに,これによりMONDOからMedGenを介してClinvar及びTogovarへの紐付けが可能になった。 4.東北大学の菊池敦生医師が中心になりNanbyoDataを利用し,複数の医師からの改善に向けたフィードバックを得た.同様に東京大学薬学部の仁宮洸太氏が中心となり,複数の薬剤師から改善に向けたフィードバックを得た.これらに基づきNanbyoDataの改修を行った. 5.2022年度の小児慢性特定疾病制度および指定難病制度に追加された難病をNANDOに追加するために,東京大学薬学部の仁宮洸太氏が公式文書から疾患名及びその関連情報を抽出した.抽出した情報は,NANDO ver.3.0.0として2023年度に公開する予定である.
028RP2022
 本研究では、①データの可視化手法に関する研究、②データの高付加価値化とその公開・共有手法に関する検討、③データに基づく実証研究のための教育教材の開発の3つのテーマで共同研究を遂行した。 ① データの可視化手法に関する研究では、可視化分析の方法として時系列によるコレスポンデンス分析を行った。例えば吉見の研究では、「観光」をテーマにYahoo!知恵袋に投稿された質問と回答の二つの変数について分析し、コロナ禍前後の観光客の声(ニーズ)の変化を可視化し、観光マーケティングへ当該テキストデータおよび可視化手法の有用性について示唆を示した。 ② データの高付加価値化とその公開・共有手法に関する検討では、前年からの課題を生かし、①の分析において基礎的な技能・知見としてのテキストマイニング・可視化手法と、非開示扱いとする研究アイデア・ノウハウの切り分けに関する知見の収集と③の教材開発と連携してデータマイニング・可視化手法から得られた知見の活用策の検討を行った。 ③ データサイエンス用教材の開発では、本共同研究に参画する研究者が本務校などでデータサイエンス教育に携わる際に、統計学などデータ分析の手法に関する基礎的な知識に加えて、Pythonなどプログラミング知識を必要とすることが、特にAIや深層学習などを文系学生や初学者が学習する場合に大きな障壁となっていることを確認した。そこで、岩井を中心にノンコーディングで深層学習などの高度な分析が可能な米H2O社のフリーのプラットフォームH20-3を活用した教材開発に着手した。H20-3は簡易な深層学習であればノンコーディングで行えるため、文系学生や初学者がAIや深層学習を学習する導入的ツールとして活用することを検討し、①と②の成果を基にテキストデータをH20-3により深層学習で分析するまでの一連の過程を教材化することを行った。  今後は、学生を対象に小規模なテスト講義を実施し、22年度に開発した教材の有効性と課題の検証を行い、実際の担当講義での活用とデータサイエンス学習用教材として公開を図る。また、22年度共同研究では、これまで本研究で対象としてきたテキストデータの分析・可視化手法とノンコーディング深層学習プラットフォームの活用を前提とした教材化を行ってきたが、23年度はより文系学生に馴染みが深いアンケート調査データなどのカテゴリカルな量的データを事例とする深層学習の事例を教材化に取り組む予定である。
029RP2022
 今年度に最も注力したのは、jPOST(プロテオーム統合データベース計画)から依頼を受けた、neXtProt Peptide Uniqueness Checkerのクローン作成である。基本的には「本家よりも迅速にバグ修正や改良を行う」ことを目的とするため、本家と上位互換の機能を備えることとした。  機能調査の過程で、本家の動作が告知されている内容と異なる場合がある(※)ことを発見したが、この点についてはクローン(我々のツール)の機能を本家に合わせないことにした。  なお安定して動作させるために、検索エンジンであるPppeptideとPeptide Uniqueness Checker Cloneの両方のコードの書き直しを行った(2023年4月現在未完成部分あり)。 (※)本家にはプロテオゲノミクスなどアミノ酸残基に変異がある場合に対応するため、"1文字違い"の配列も検索する機能がある。しかし、例えば「TEMGLYYSYFK」で検索すると、完全同一の配列を含むタンパク質が2個見出されるが、「TEMGLYYSYFR」(最後の1文字を置換)で検索すると、(1文字違いの結果として、上記2配列中の)1配列のみが返される。この結果は利用者が通常抱く期待に反するので、クローンでは両方の配列が検出されるようにしている。  また当初の研究計画目標の一つであった、がんゲノムに対するタグ統計の作成については、統計を作成できるシステムは完成しているが、実際の統計作成は行わずに待機している。これは「実行が難しい」という批判のあった「(MS/MSスペクトルに基づく)配列中のアミノ酸配列タグの抽出」を行うためのツールを別途作成中である(②研究成果を参照)からで、その結果に合わせて実際の統計作成を行う予定である。  これらのツール・結果の公開はjPOSTサイトから行う予定であったが、2022年度はjPOST第2期予算が最終年度であったこと(第3期に継続することが4月に決まった)、申請者と受け入れ教員が共にこの年度限りで異動になったこと(両者とも新しいポジションに着くことになった)などの理由で、2022年度中には公開まで至っていない。しかしながら残った作業は購入・構築済みの資材・環境などで(追加予算なしに)実行可能であり、早い時期の公開を考えている。
030RP2022
申請者らは、ゲノム編集で使用される『CRISPR-Cas9』およびその派生技術『Cytosine Base Editor (CBE)』と『Adenine Base Editor (ABE)』がRNA分子(mRNA)に結合して意図しない悪影響を与える『RNAオフターゲット作用』という現象に着目している。本研究においては、公共データベースのRNA-seqデータからRNAオフターゲット作用をプロファイリングすることで、この現象を回避する計算機的手段の構築を目指した。 本年度において、まずRNAオフターゲット作用そのものを検出するための標準解析パイプライン『Pipeline for CRISPR-induced Transcriptome-wide Unintended RNA Editing (PiCTURE)』を構築した。Docker環境上動作するPiCTUREはホスト環境に依らず一律の基準でデータの加工および集積化が可能である。これを用いてRNAオフターゲット作用で従来よく知られたCBEとABE導入サンプル(BioProject: PRJNA498065, PRJNA595157)のRNA-seqデータ解析を行った。その結果、CBEは先行研究の報告ではACWモチーフを認識することが示されたが、本パイプラインでは、CBE(BE3)より広い定義の5′-WCW-3′モチーフの可能性が提示された他、RNA 5′側W塩基への選択性が高いことや、高頻度の置換変異作用を示す領域ではむしろ5′-WCW-3′モチーフ依存性が低下するといった新しい知見が示唆された。またCBEが本来標的とする領域との関連性を示唆する結果は得られなかった。さらに鈴木貴之大学院生の協力の元、ABE(ABEmax)においても同様に公共データベースを用いたメタ解析を実施した。先行研究で報告された5′-TA-3′モチーフが確認されたが、5′側T塩基に対する依存性は極めて小さく、従来の理解よりもABEが起こすRNAオフターゲット作用には塩基選択性がほとんどない可能性が示唆された。内藤雄樹特任助教(現東京医科歯科大学特任准教授)の助言のもと、複数のRNA-seqデータから共通モチーフを検出するパイプラインをPiCTUREに追加実装した。このパイプラインに別グループのABEサンプル(ABEmax, n=3)のRNA-seqデータを供し、そのモチーフ解析を実施したところ、上述の傾向を明瞭に確認した。 以上より、本年度においてはこれまで標準化されていなかったRNAオフターゲット作用を一律に解析するパイプラインPiCTUREを構築し、実際に公共データベースの複数データをメタ解析することで新しい知見を得ることに成功した。現在、鈴木貴之大学院生の協力の元、公共データベースより362件のRNA-seqデータのダウンロードが完了し、PiCTUREパイプラインによるメタ解析に供する準備が整っている。これによりRNAオフターゲット作用の特性をさらに明確に理解し、成果が現象を回避する計算機的手段の構築に結びつくと確信している。
031RP2022
種々のレーダーによる観測データを用いて,スペクトル観測理論(Nishimura et al, 2020)に基づいて逆問題として数値的に解く場合,アンテナアレイの空間放射/感度特性のモデル精度が推定結果の精度に大きく寄与する.大型アンテナアレイの場合,アンテナ空間特性を実測することは極めて困難であり,このことが高精度な推定の妨げとなっている現状を鑑みて,本研究課題では産業用マルチコプター(以下,ドローン)を用いて実測するための技術を開発している. キーとなる技術要素は,ドローンとドローンに搭載可能な小型軽量計測機(送受信)などのハードウェア要素,および位置決定,時刻同期,実測近傍界から遠方界の推定といったソフトウェア的要素である.これらの中で現状最も高いハードルとなっている時刻同期法について新しい技術開発を行い,いくつかのシミュレーションと実証実験を行い,新手法が有効であることを確認した.また,近傍→遠方界推定のアルゴリズムについても開発を進め,低次元モデルを用いた数値実験によりその有効性の確認を行った.
032RP2022
 鳴禽類ジュウシマツは、中国から輸入された野生のコシジロキンパラから家畜化されたと推測されている(単一起源説)。育て上手な形質が仮親として重宝されたのと19世紀半ば頃に白化個体が現れたのがジュウシマツの始まりだという。しかし、野生下でコシジロキンパラと混群を形成するシマキンパラもジュウシマツの成立に貢献している可能性がある(多元説)。ジュウシマツは、コシジロキンパラと比べて攻撃性が低く、新規なものへの恐怖が少なく、ストレス耐性が高い。また、コシジロキンパラよりも歌のバリエーションが多い。しかしながら、野生原種と家畜種ジュウシマツの形質の違いの分子的・遺伝的基盤は十分に理解されていない。    研究代表者らはジュウシマツ、コシジロキンパラとシマキンパラの各一個体ずつのゲノムDNAから次世代シークエンスのショートリード・データ(150bp、ペアエンド)を取得した。取得したデータ量は、ジュウシマツ(72Gb)、コシジロキンパラ(136Gb)、シマキンパラ(71Gb)であった。本共同研究の下、公開されているジュウシマツゲノム(GCF_005870125.1, lonStrDom2, ゲノムサイズ: 約1Gb)を参照ゲノムとして、これらのデータのゲノムリシーケンスを行った結果, 十分なデータ量(平均depth: 70-100x)を持つ解析領域が得られた(それぞれ参照ゲノム全体の69-74%, 3種で共通: 66.1%、ただしリピート領域を除く)。解析領域上にはそれぞれ数百万サイトのhetero/homo snpが検出され(ジュウシマツhetero snp: 2719311個; ジュウシマツhomo snp: 1401131個; コシジロキンパラhetero snp: 2854112個; コシジロキンパラhomo snp: 2068214個; シマキンパラhetero snp: 4554343個; シマキンパラ homo snp: 8874874個)、ジュウシマツ、コシジロキンパラ、シマキンパラのheterozygosityはそれぞれ0.35%、0.37%、0.61%であると推定された。取得したゲノムワイドなsnpの情報に基づき、まずジュウシマツの祖先に関する多源説を検証するために、ジュウシマツにおける種間交雑によるシマキンパラ由来ゲノム領域の探索を行った結果、homo/heteroの2種類の入り込むパターンで共にわずかに候補領域が検出された。次に、ジュウシマツの家禽化に関係するゲノム領域(遺伝子)を同定するため、ジュウシマツゲノムにおける表現型の人為的な選抜に起因する選択的一掃の痕跡を探索した。具体的には、局所的なheterozygosityを指標とし、ゲノムスキャン法により野生原種であるコシジロキンパラ(> 0.1%)に比べてジュウシマツでheterozygosityが大幅に低下している(< 0.01%)ゲノム領域を抽出した。その結果、57Mb分のゲノム領域が検出され、その上に1095個のコーディング遺伝子が存在していた。そのうち、512個の遺伝子において、コシジロキンパラとシマキンパラに比べてジュウシマツでのみ固定しているsnp(fixed snp)が検出された。さらに、そのうち108個の遺伝子にコシジロキンパラ-ジュウシマツ間でfixed snpによるアミノ酸の非同義置換が検出された。また、一部の遺伝子のintronやutr、上流領域などの非コード領域にもfixed snpが検出された。これらの遺伝子群(gene set1)には、言語(歌)の学習や産出に関わると推定される遺伝子群や他の生物種で報告されている家畜化関連遺伝子のホモログが含まれていた。今後はジュウシマツの家禽化に関係する因子をさらに絞りこむため、1) すでに取得したジュウシマツとコシジロキンパラの脳の遺伝子発現プロファイルデータを組み合わせた解析、2) gene set1に含まれる遺伝子群におけるfixed snpの影響の詳細な解析、3) より複数の個体のデータを加味した候補領域のさらなる絞り込みなどについて検討したいと考えている。
033RP2022
 本研究の最終目的は,南極における氷床表層の堆積削剥による雪面状態のデータベースを構築するため,機械学習による堆積削剥パターンの分類手法を評価することである。そのためには,露出,ホワイトバランス,画質などが異なる雪面画像を用いて画像認識ツールによる雪面のパターン学習を行い,南極で得られた雪面画像も用いて,分類手法を評価する必要がある。このことにより,分類精度の限界を抽出し,画像の適正条件を得ることができる。また,最終的には南極での雪上車のトラバースルート策定のための知見の蓄積や,南極氷床における表層積雪での質量収支の推定精度向上という研究成果が期待される。  これまでに,堆積削剥パターンを,小サスツルギ,大サスツルギ,デューン・バルハン,リップルの4パターンとして,オンライン上に構築された画像分類モデルAutoDLを評価した。小サスツルギは76%の的中率,大サスツルギは95%の的中率,デューン・バルハンは79%の的中率,リップルは75%の的中率であった。おおよそ妥当に分類されていた。そして,パソコンにLinux系OSのUbuntuをインストールし,画像分類モデルAutoDLをUbuntu搭載パソコンに実装した。パソコンの最小限スペックは,2GHzデュアルコアプロセッサ,16GBシステムメモリ,100GBのハードドライブ空き容量,DVDドライブまたはUSBポート付きである。オフライン上でのパソコンを用いた画像分類の体制が構築された。なお,堆積削剥による雪面状態のデータベースは,南極沿岸部から氷床頂部までの往路では12,098枚,氷床頂部から沿岸部までの復路では10,758枚となった。
034RP2022
 本研究は、大規模データのさらなる利活用の可能性を追究することによって、わが国における大規模データの利活用に関する展開方向を模索することを目的としている。そのため、本研究では、大規模データの秘密保護に対する法的・制度的措置あるいは技術的措置について国際比較を試みるだけでなく、利用可能なわが国の公的統計のミクロデータを主な対象として、ミクロデータに対する秘匿措置の方向性を探究することを指向している。  2022年度については、研究代表者の伊藤が、共著論文「海外における公的統計に関するプライバシー保護の現状―アメリカとイギリスの事例をもとに―」を刊行した。本稿は、近年公的統計データの分野で注目されている攪乱的手法について、アメリカとイギリスを例として、公的統計に対するプライバシー保護の現状について議論するとともに、その動向を比較・検討することによって、公的統計における将来的な方向性を洞察したものである。  本稿では、アメリカに関しては、公表された人口センサスの結果数値から「データベース再構築攻撃(database reconstruction attack)」によって個体情報が特定されるリスクへの対応策として、アメリカセンサス局が2020年センサスでTop downアルゴリズムに基づく差分プライバシー(differential privacy)の方法論を導入した社会的背景と統計技術的な論点が議論されている。また、イギリスについては、イギリス国家統計局(Office for National Statistics=ONS)が2021年の人口センサスで展開している、攪乱的手法であるターゲット・スワッピングとcell key methodを用いて、オンデマンドな形で人口センサスの多次元統計表の提供を可能にした「オンデマンド公表システム(Flexible Dissemination System)」における秘匿処理の特徴が論じられている。さらに、ONSでは、2021年センサスを対象に、利用者のニーズと攻撃者のシナリオを考慮する形で、個票データ、匿名化ミクロデータおよび一般公開型ミクロデータの複数のミクロデータファイルの作成・提供が計画されている。このように、統計作成部局が、利用目的を問わないオープンな統計表の作成・公表、さらには多様なミクロデータ提供のチャネルの整備を行うだけでなく、そのための攪乱的手法を追究しているのが、イギリスを含むヨーロッパにおける公的統計データの提供の特徴と言える。 こうした公的統計データの匿名化に関する海外の動向は、わが国における公的統計を対象にした統計表の公表やミクロデータの作成・提供を議論する上での有益な参考事例になると考えられる。
035RP2022
 本研究は南極域へのエアロゾル輸送をAerosol Atmospheric River(エアロゾルの川)によって捉えることを目的としているが,時としてAtmospheric River(大気の川, AR)と同一のイベントとなる場合があると想定している。そのためこれまで継続してきた,昭和基地で受信したNOAA/AVHRR ch.4 (赤外)画像から降雪をもたらす雲を深層学習によって自動検出する手法をAR検出のプロトタイプとして確立した。主軸となる「検出したい降雪をもたらす雲」について,「降雪がある」としている雲と「降雪がない」としている雲に具体的にどういった違いがあるのか,降雪雲の定義について論文執筆を行い,国際・国内会議それぞれ二件において口頭発表を行った。特に「降雪がある雲」はAtmospheric River (AR)の定義に用いられている鉛直積分した水蒸気フラックス量(IVT)が極端に増加する時と一致して観測されており,衛星観測からARを捉えることが可能であると判断している。残念ながら投稿論文は不採択となり,アーカイブ雑誌において査読無し論文として掲載されている。   エアロゾル輸送経路の推定には,流跡線解析を拡張し,時間方向の誤差を推定する逐次的データ同化型流跡線解析モデルを利用するため,モデル構築の準備を進めた。最終的にエンドユーザへの利用を促すため,現・NITRAM(極地研究所粒跡線解析モデル)において,ユーザ選択可能な付加モデルとしての公開を予定している。そのため,客観解析気象データを格納するデータ領域としてハードディスクの増設を行った。また,拡張後のモデル・コーディングについて,統計数理研究所・中野教授をはじめとする粒子フィルタの専門家等にも助言を仰ぎ改良を進めている。研究紹介は,2023年5月に行われるJpGU2023連合大会にて行う。  また,本研究では生の観測データを収集,下処理後に教師データを作成し,学習器を生成する手順で研究を進めているため,最初のステップである教師データの作成に多くの手間と時間がかかる。教師データについては雲画像から検出したい雲を別の気象観測データおよび目視で抜き出し,タグ付けを行っている。このタグ付け作業を半自動化する試みを実施した。検出したい雲エリアをアノテーションとして付与し,そのアノテーションを学習することで教師タグを自動判別で付与する学習器の開発を行った。これまで九州工業大学内における口頭発表を行い,2023年5月に行われるJpGU 2023にてポスター発表を行う予定である。
036RP2022
南極昭和基地周辺・リュツォ・ホルム湾東岸で可聴下周波数帯域(3 mHz~数10 Hz)の音波(インフラサウンド)を10年以上継続観測してきた.これらのデータは地震学でよく利用されるWIN形式で保存され,国立極地研究所Polarisにアーカイブされている.WIN形式のデータは一般的でないことから,データは利用されにくい状態にある.そこで,これらの時系列データをクイックルックができるWebサイトを構築してきた.2022年度 Joint Research Program/一般共同研究では,このWebサイトにパワースペクトル密度(PSD),周波数・波数解析(FK解析)の結果を表示できる機能を追加した.本研究では,このWebサイトの機能を拡張することで,利用者(特に研究者)の利便性を向上させることを目的とした.具体的には以下の機能を追加した. 1. FK解析とPSD解析の結果を,相互に確認できるリンクの追加 2. FK解析で確認できるイベントをリストに登録・確認する機能 3. イベントリストの追加・修正機能 4. イベントリストからFK解析を表示する機能 5. イベントリストをCSV形式で登録・出力する機能 これらの機能を追加することにより,イベントの抽出,比較が容易になった.本研究で開発した機能では,イベントを人の手により必要があり,手間がかかる.しかし,この機能により多くのイベントを登録され,イベントの特徴を把握できるようになれば,将来的には機械的にイベントを抽出し,登録できる機能を追加する発展が考えられる.本研究で開発した機能は機械抽出のための基礎データを集めることに有効である.
037RP2022
 本研究では、江戸時代に日本近海を航行していた船舶、特にオランダ船等の航海日誌に記載された天候記録をデジタル化し、日本国内での古日記録と併せて検討することにより、日本の江戸時代の古気候復元の精度向上に資すること目的に研究を行った。特に分担者の塚原がオランダ国立文書館で数年前に発見したオランダ艦船の大量の航海日誌の利用を進めるべく、研究・調査、研究打合せやデータ整理などを進め、オランダ海軍の航海日誌の中の気象データを解析するための歴史的資料の解析を進めた。また並行して、現在の気象観測データからアジアモンスーンの季節変化等に関する検討も進めた。  具体的成果として、オランダ国立公文書館所蔵の航海日誌カタログの整理、デジタル化を進め、記録年代のエクセル分析を行った。また他の研究資金も活用して、オランダ、ライデン大学の現地研究協力者 アリス・デ・ヨング博士との研究打ち合わせを、8・9月には松本・塚原がオランダのライデンで、また2月にはズームで塚原が行い、デ・ヨング博士の翻訳箇所、デジタイズの仕様、オランダ古文書データベースDelferでの調査、航海日誌に該当する船名や寄稿地の同定等を行い、多くの関連情報を入手した。11月には、神戸大で研究ワークショップを開催し、本研究の研究進捗状況の確認と神戸大学の研究協力者の研究成果発表を行った。3月には、松本が主催するアジアモンスーンに関する国際ワークショップを東京都立大学で複数開催し、塚原・市野と松本、オランダ人研究協力者のアンドレアス・ウェーバー博士が研究成果の発表を行った。アンドレアス・ウェーバー博士は、併せて東京都内の東洋文庫等を訪問し、19世紀に書かれたシーボルトの文書や、江戸期の自然史資料等の貴重な歴史資料を閲覧・見学した。東洋文庫に収蔵されている江戸期の古文書の中でもシーボルトの文書は気象観測記録などを含み、貴重なものが多く、今後さらに調査を進める。またモリソン文庫と呼ばれる東洋文庫に収蔵の文献群には、中国沿岸域のさまざまな資料があり、本研究が目指している歴史的気象状況の再構築に参考になる資料があり、ウェーバー博士と塚原が内容を調査した。その他オランダ船の航海日誌の気象観測記録による台風活動やモンスーン活動について、研究協力者が国内外で学会発表を行った。
038RP2022
長期の観測データとなるエアロゾル・雲のモニタリングデータを中心としたデータの質の確認,再解析,公開データの整備を進めた.以下に各項目の状況を示す. (1)凝結核(CN)数濃度のデータ整理と公開(2022年まで) https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=396 (2)Black carbon(BC)濃度の補正と整理(2021年まで) https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=400 (3)スカイラジオメータ観測:2022年11月まで(全データ)。 http://atmos3.cr.chiba-u.jp/skynet/data.html (4)マイクロパルスライダー(MPLとPMPL)観測:2021年まで。 MPL: https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=140 PMPL: https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=398 (5)全天カメラ:2022年11月まで(全データ) https://scidbase.nipr.ac.jp/modules/metadata/index.php?content_id=138 (6)偏光OPCによる粒子数濃度と鉱物粒子連続観測(昭和基地・しらせ) http://popcarn.yamanashi.ac.jp/ (1)については,公開データに関する論文をPolar Data Journalへ受理された(Hara et al., PDJ, 2023).また,海外の研究者へのデータの提供も進め,その一部が学術論文として発表された(Humphries et al., ACP, 2023).さらに昭和基地のCN濃度の長期トレンドも含めた解析を進め,気象学会(秋)で成果報告(原ほか,2023)を行った.(2)については,データの補正・スクリーニング作業を進め,データ公開にかかる論文の準備を進めた.データの整備の準備ができ次第,PDJへ投稿する予定である.(3)については観測データの公開を進めた.(4)のMPL, PMPLについては長期観測データの再解析を進め,気象学会(秋)に成果発表(矢吹ほか,2023)を行った.またデータの公開も進めている.(5)については,観測データの解析を進め,極域科学シンポジウムにおいて成果発表を行った(Shimode et al., 2023 & Kuji et al., 2023).(6)については,データの解析を進め,南大洋~昭和基地にかけての鉱物粒子の空間分布と昭和基地における鉱物粒子の変化について解析を進め,気象学会(秋)に成果発表(小林ほか,2023)を行った.上記の(1)~(6)に加え,しらせ航海中に観測された有機窒素成分の空間分布に関する論文を発表した.気象学会で発表した項目については,学術論文発表に向け,さらに解析を進めており,3月下旬に研究会を開催して,討論・データの相互比較を進めることができた.
039RP2022
 本研究の目的は、5種類の疾患モデルマウス系統のゲノム長鎖解読などから得られた全ゲノムレベルのコンティグ配列に対して、既存の解析Workflowの見直しと、そこで使用するアルゴリズム等の検討を行い、「スキャホールド情報の整理」および「信頼性の高い塩基配列情報の取得」を行うことである。  本研究期間に、解析Workflowの見直しや、誤ったスキャホールドを自前のプログラムで再解析して修正を行うなどの処理をおこない、新たに高品質のスキャホールドを得た。本研究により作成した新しいスキャホールドについて、例えば、遺伝子の完全性を評価するためのプログラムであるBUSCOにより評価を行ったところ、「完全で単一コピーの遺伝子」および、「完全で複製された遺伝子」それぞれの数が増加し、「欠落した遺伝子」の数が減少した。これは、以前のスキャホールドの誤ったコンティグ結合の除外などが適切に行われ、スキャホールドが高品質化したことによるものである。そこで、本研究により作成した新しいスキャホールドを対象にして、複数の多型検出手法により構造多型をはじめとしたゲノム多型の検出作業を開始して、一部については結果を得た。本研究により作成した新しいスキャホールドや、これを用いた解析による構造多型情報の一部については、国際学会(The 36th International Mammalian Genome Conference, Tsukuba, 2023/3/28-31)で報告した。  なお、研究期間内に予定していた多重遺伝子族などの遺伝子領域のゲノム構造の解明については、全体的に慎重な解析を行ったため今年度中に行うことができなかった。これについては、論文化に密接に関係した事項であるので、次年度以降、今回作成した新しいスキャホールドのゲノム多型情報を確定させたのちに行う予定である。さらに、今後はEMBL-EBIが公開する17系統のマウスを対象にした長鎖読みによるリファレンスレベルのゲノム情報等を対象にして、我々が解析しているマウス系統と比較ゲノム解析を行い、これまで解析が困難であった多重遺伝子族の遺伝子やコピー数多型領域などにも解析対象を拡張して新規のゲノム多型の検出を試みる。
040RP2022
 本共同研究は、機構と賛同する外部機関および研究者を接続し、一体型の運営モデルの構築と実際のデータ利用に関する試行を行うことで、データ駆動型科学やオープンサイエンスの推進を図り、また、NIIや各機関図書館等との連携を強め、その相互連動により、機構事業に賛同するコンソーシアムの連携強化と拡大を進めるものである。  機構による分野融合事業(サービス)とデータアーカイブ事業(データ保存)の接続を強化するための協力連携を進めた。JAIRO Cloud(WEKO3)実証実験に参加し、PEDSCが所有するデータベースとの連携について、統合データサイエンスプラットフォーム(AMIDER)における実データ公開のためのツール開発や、JAIRO Cloudの計算基盤(JupyterHub)をAMIDER相関計算の支援に利用することなどの検討を進めた。また、共同研究者間では、データ提供者・利用者それぞれの観点から、データへのDOI付与における粒度の目安や昨今の登録システム状況についての議論をおこなった。  図書館連携の観点では、大学図書館の機関リポジトリ担当職員との接続をおこなった。地方大学におけるリポジトリ管理システムとその現状、実データ管理への対応状況、所属大学の研究者が抱えるデータ管理の問題点などが議論された。また、図書館情報学を専攻する研究者とも接続し、メタデータや関連する論文やリファレンスなどのコンテンツを利用した異分野融合の発展性について議論を交わした。双方ともに、今後協力体制を取っていくことで合意した。  本共同研究で得られた成果は、統合データサイエンスプラットフォームの運用へとフィードバックする。公開されたシステムをより多くの研究者に利用してもらい更新を続けることで、提案した運営モデルを発展させていく。
041RP2022
(1) 日照時間観測値の月値の利用  気象庁が公表しているデータによって、本州・四国・九州の57地点の1901-2021年の8月の日照時間月値の主成分分析をした。第1主成分は全域同符号であり、スコアは1980年、1905年、1902年に負の大きい値をとった。これらの年は全国的冷夏である。第2主成分は東北日本で正、西南日本で負の双極子型であり、スコアは1934年と2017年に大きな負の値をとった。これらの年は東北地方全体の規模の冷夏である。東北地方の日本海側と太平洋側のコントラストは第4・第5成分にいくらか現われるが明確でない。「やませ」型の天候パタンの持続時間は通常1か月よりは短いので、月値で見えにくいのは当然であろう。 (2) 日照時間の観測値の日値の利用  「デジタル台風」のサイトに置かれた気象庁気象観測原簿の画像アーカイブを利用し、日照時間の日値の読み取りを進めた。  このうち東京について、原簿から読み取った値を、東京管区気象台 (1957) 『東京都の気候』に収録された日値および気象庁ウェブサイトの月値と照合し、できるかぎりの校訂をおこなった。これを利用して日射量を推定し、八王子の石川日記の毎日の天気からの推定値 および 1961年以後の気象庁の全天日射量の観測値を接続して、東京の1720-2022年の日射量の月値を示した。 (3) 気象災異年表資料の利用  前年度に作成したデータベースを利用し、仙台管区気象台 (1963) 『宮城県気象災異年表』、盛岡地方気象台 (1979) 『岩手県災異年表 第3版』、 山形地方気象台 (1972) 『山形県災異年表 第5版』をあわせて見た。さらに、銚子測候所 (1956) 『千葉県気象災害史』、会津史談会 史蹟研究部会 (1960) 『会津災害凶荒年表』、南 憲一 (2002) 『新潟市域災害年表』を入手した。1830年代のうちで、1833年には千葉を除く5地域、1836年には 6地域すべて (ただし会津は「飢饉」として) で、夏の霖雨と寒冷が記録されている。  また、『宮城県気象災異年表』の近世の災異情報の出典文献を調査した。そのうち『栗原郡誌』では、先近代災害の情報は「第14章 災害」のうちの最初の4ぺージにあり、原文献は『東藩史稿』と特記されたもの以外は『若柳年代表』である。年表では、寒暖、雨、雪、洪水、作柄、服装 (綿入を着る) などの項目を選択して、ほぼ郡誌の記述のとおりに採録している。
042RP2022
 2022年度は、これまでに防災科学技術研究所マルチハザードリスク評価研究部門が開発した地域災害GISアプリケーションを参考に、幅広い自治体において利用できる過去災害事例・情報WebGISアプリケーションのためのデータベース設計について検討した。その結果、事例が自治体境界情報に紐づく地理情報を含んでいるとは限らないこと、多くの自治体からの過去災害事例を収集することは容易ではないこと、自治体事例数を増やしても全国網羅性が低い限りは有用なWebGISアプリケーション開発が困難であることなどが明らかになった。  そこで2022年度は、全国規模での過去災害WebGISを実装すべく、過去NICTが作成した過去新聞記事から抽出した災害関連キーワードと事象発生自治体名の関係データベースとNIIの歴史的自治体境界データベースにより、過去に新聞記事化されたすべての災害事例を時空間データとして可視化するWebGISを開発した。具体的には、過去の各新聞記事の中で各時代の自治体名と事象名を含む場合に記事件数を積算したデータベースを作成し、各時代の歴史的自治体境界内を記事件数の色で塗りつぶす(1件、2~5件、6件以上で分類した)。なお、歴史的自治体境界データベースはNIIが更新し、WebGISで表示する期間を1889年から2022年までと拡張した。  対象とした災害事象は台風、竜巻、洪水、高潮、土砂災害、津波、噴火、落雷、地震、雹害、雪崩、火災の12種類とした。対象を台風のような局所性が小さい(すなわち新聞記事において地域性が示されにくい)事象から、竜巻などの局所的な現象(記事に地名等が含まれることで記事による地域性が分かりやすい)まで、さまざまに選択した。また、特に竜巻についてはNICTがこれまでにバイナリベクトルタイル化した国土数値情報データベースを活用して、過去の竜巻事象をその規模とともにWebGIS上で可視化した。その結果、災害の地域性の強弱と新聞記事による地域可視化は強い相関があるわけではないことが分かった。これは、新聞記事は災害事象そのものを表すわけではなく、たとえば遠方での災害を別自治体の事例に結び付けた記事や災害注意喚起記事なども1件としてカウントされることによる。なお、可視化結果の分析やWebGISの公開については2023年度以降の課題となる。
043RP2022
 本研究では、古気候復元に広く?いられる日記天気記録から気象・気候に関する情報を最大限に引き出すため、明治・大正期の測器による気象観測データと照合可能な日記天気記録を用い、定性的な天気記述を定量的な気象変数に変換する手法の開発を目的とした。  まず、照合する古天気記録と気象観測データの整備を行った。気象観測データについては、手書きの気象観測原簿データをデジタル化する作業が必要となるため、気象業務支援センターにより配布されている原簿画像データを国立情報学研究所で運営するウェブサイト「デジタル台風」の歴史的データアーカイブ(http://agora.ex.nii.ac.jp/digital-typhoon/data-archive/)に登録し、IIIFビューアで閲覧できるように整備した。これにより、ファイルを次々と開き移動する操作が容易になり、デジタル化の作業効率が格段に向上した。対象地域は近畿(京都)および東京周辺とし、京都・大阪・彦根・東京の日別または時別(4時間ごと)の降水量・雲量・日照時間データのデジタル化を行った。古天気データについては、明治・大正期の11日記について毎日の天気に関する記述を抽出整理するとともに、人文学オープンデータ共同利用センターが運営する歴史資料に関する知識と経験の共有システム「れきすけ」(https://rksk.ex.nii.ac.jp)への登録を行った。  これらの整備したデータを用い、古天気記録と気象観測データを日単位で照合した。降水の有無の記録と降水量データ、「晴」「曇」の天気種別と雲量データを中心に検討したところ、何れの場合にも各天気カテゴリーに対応する観測値は大きくばらつき、日記記録者による天気判断基準の差異が大きいことが確認された。そこで、こうした日記天気記録の質を評価し定量化するため、ここでは「詳細率」と「重複率」という2つの指標を導入した。「詳細率」は天気記録の詳細さの程度を数値化したもので、日記に降水が記録される閾値と強い負相関が認められた。「重複率」は、2つの天気カテゴリーに対応する気象要素の分布が重なり合う部分の割合で定義され、天気記録と気象要素との対応関係の強さを表す。これらの指標を用いることで、様々な日記記録の差異を調整して接続し、長期にわたる降水量等の時系列データをその精度とともに復元する手法への道筋が開けた。
044RP2022
 ニホンカモシカ(Capricornis crispus)は、日本列島に固有のウシ科ヤギ亜科動物である。カモシカ属には、ヒマラヤ東部から東南アジアに分布するスマトラカモシカ(C. sumatraensis)と台湾のタイワンカモシカ(C. swinhoei) が存在する。これらの種は、氷期に連続分布域していた祖先種が気候変動によって生息場所を山岳部にうつしていくことで飛び地状に孤立したと考えられている。しかし、ニホンカモシカの日本列島への進出時期および日本列島における地域集団の進化は、ミトコンドリアDNA(mtDNA)コントロール領域に関する研究を除き十分に行われていない。その要因の一つに有効な核DNA遺伝子マーカーの不足があげられる。  研究代表者らは、ニホンカモシカのオス1個体(個体番号VM20-03)の全ゲノムのショートリードNGSを行い360.5Gbの配列情報を取得した。カモシカ属では、アラインメントに必要なリファレンス配列が存在しないためDS施設・ゲノムデータ解析支援センター(受け入れ教員:野口センター長)との本共同研究の下でPlatanusによるゲノムアセンブリを行った。これを、入手可能な生物の中で最も近縁なヤギ(Capra hircus)のリファレンスゲノム (GCA_015443085.1)と比較すると、全体で平均97%の相同性があった。さらにRagTagを用いて、ヤギゲノムの染色体を参照してコンティグ整列と結合を行うと、ヤギ(2n=60)の1番から29番染色体およびX染色体を概ね再現することができた。またY染色体では偽常染色体領域およびその近傍に存在するZFYやAMELY遺伝子ではヤギのリファレンスゲノムと高い相同性を持つコンティグ配列が構築できた。次に、mtDNAの分析で関東平野を挟んだ東西地域間で集団構成が大きく異なることに注目し、西側から14個体、東側から11個体の合計25個体(全て雄)のPE150マルチプレックスNGSを行い、総計960 Gb(1個体平均38Gb)の配列データを取得した。この配列情報を本共同研究の下で分析し、遺伝子マーカーとなりうる多型の抽出を行った。その結果、東西集団間で完全に異なるアレルに固定されていた349か所のSNPと38か所の挿入欠失多型を発見した。これらは、地域集団の特徴を解析するための遺伝子マーカー候補として有望である。また、副次的成果として、これまで1個体しか報告されていなかったニホンカモシカの完全長mtDNA配列を26個体分取得することができた。  
045RP2022
南極昭和基地での観測データを用いて,機械学習を使って宇宙線強度変動への大気効果補正を試行,検証するとともに,中性子計の強度変動における積雪量の影響を見積もることが出来た(Kataoka, et al., 2022)。加えて,昭和基地を加えたGMDNと中性子計による宇宙線観測網のデータを用いて宇宙天気現象を統合解析した結果,対象イベントでの「双方向流」と呼ばれる2方向からの宇宙線の流れを確認した(Munakata et al., 2022)。今後の解析で,宇宙天気現象での宇宙線減少のメカニズムの解明につながると期待される。昭和基地での観測データをウェブ上に整備することで,データ利用の手間を減ずることができた。こうしたデータ整備を充実させればよりデータ利用を促進できるものと考えている。
046RP2022
本研究では、大気光等の2次元画像の連続時系列データに対してMatsuda et al. (2014, 2017)で示された3次元フーリエ変換をベースとする位相速度スペクトルを得るM-変換の汎用化に向けて継続的にサーバーでのサービスを行う環境の開発を行っている。本年度は英国、ブラジル、米国、韓国、日本の5カ国の研究者のそれぞれの所有する観測データの特性、コンピュータおよびネットワーク環境を調査比較し、データ解析提供用サーバーの仕様の検討と機器の導入設置(サーバ本体は別予算で購入)を進めた。3次元変換するコアの画像サイズを400x400程度と設定し、位相速度として有意な範囲の画像数を考慮することで変換に要するメモリサイズを検討し、解析で使用するIDLと各CPUの相性を調査した。結果、現状ではAppleのM1チップによるサーバーの構築が安定性と高速性を両立できるものと定め、国立極地研究所のネットワーク内にサーバーを設置した。また、英国在住の若手研究者がノルウェー北極域の大気光画像についてライセンスを持たない計算機環境でM-変換による解析を進める事例について詳細にフォローアップし、位相速度スペクトル解析結果を国際会議で発表するところまでを援助した。 既存データの解析では、研究結果を学術論文1篇として本年度出版した。出版論文の研究成果は以下のとおりである。豪国南極基地(Davis)および日本国南極昭和基地(Syowa)の2地点のOH大気光イメージャデータをM-変換を用いて解析し、高度100kmの大気上端付近における南極域大気重力波の位相速度スペクトルの季節変動や異方性などの研究を行った。2地点の大気重力波活動度は冬季に最大値を示した。春季・冬季における平均波活動には2地点の間に有意な差は見られなかったが、秋季ではDavisの活動度がSyowaの1/3程度と小さいことが判明した。このDavisの活動度が低い原因を探るために、Probability diagramの開発を行った。Probability diagramは位相速度別に大気重力波の鉛直伝播条件を示すダイアグラムである。従来の大気重力波の鉛直伝播診断ダイアグラムでは表現できなかった、風・気温の時間変化の影響も表現可能となっており、長期間平均を行ったM diagramと比較するのに適している。M diagramとProbability diagramの比較の結果、風によるフィルタリング効果がSyowaよりもDavisにおいて強くみられ、Davis付近の重力波は大気上端までは伝播不能であったと考察できた。このため、Davisの重力波活動度が小さくなったと考えられる。
047RP2022
  2019年度は、国際基督教大学金澤と047RP2022の招聘者であるウィンザー大学のクワンテス教授とが、カナダと日本の社会文化的文脈の中で「信頼に値すること」(trustworthiness)を検討し、信頼研究の文脈に沿って理解することに着手しました。具体的には、「信頼」を他者に対して脆弱な立場に身を置く意思と定義し、「信頼に値すること」を信頼される者がそのような脆弱性をどの程度尊重してくれるかについての信頼する側からの評価としました。また、職場における同僚、上司など様々な立場の従業員が「信頼に値すること」をどのように評価するかについては、Mayer, Davis, and Schoorman (1995)の能力(ability)、博愛(benevolence)、誠実さ(integrity)の枠組みに照らし合わせて、回答者それぞれが個人的な関係のみから評価するのではなく、一般化できる信頼性を考えていると仮定しました。それでも、これらの国の社会文化的多様性を考慮するために、「その他(others)」のカテゴリーを含めることにしました。Yamagishi and Yamagishi (1994)論文は、文化的文脈における信頼と信頼性に値することに対する私共の見方に影響を与えましたが、彼らの比較対象はアメリカ(西洋)と日本(東洋)であることに留意する必要があります。   2020年度では、「信頼」と「信頼に値すること」に関する異文化研究が、多文化化が進む日本の職場にどのように適用できるかを検討しようとしました。まず、文化はどのように生成・維持されてきたのかという問いから始め、日本文化の顕著な特徴である集団主義の起源は、稲作農家の協力が死活問題とされた灌漑制度にまでさかのぼることができることを学ぶことができました。次に、日本における「信頼」の研究を概観し、「信頼」と「保証に基づく信頼」の区別に目を向けました。また、社会横断的な「信頼」研究についても俯瞰しました。特に注目したのは、文化や国籍の違いよりも、対人的な互恵性のあり方が「信頼」や「信頼に値すること」を説明する重要な要因になり得ることを示した研究でした。その研究成果の一部はクワンテス教授が編者を務めたSpringer Series in Emerging Cultural Perspectives in Work, Organizational, and Personnel Studiesのうちの一巻Trust and Trustworthiness across Cultures: Implications for Societies and Workplacesというタイトルの書物の139-161ページに"Trust building in the globalizing workplace of Japan"として発表されています。   COVID-19の影響で2021年度と2022年度の大半の間は研究が一時中断していましたが、前項で述べたような下準備をした上で、クワンテス教授と金沢教授は2023年3月に047RP2022の機会を利用して共同研究を再開させました。研究チームは現在、カナダと日本のそれぞれのキャンパスから収集したサンプルについて、一般的な「信頼」と「信頼に値すること」についての定量的な比較を進めています。K-meansとベイジアンノンパラメトリック解析手法の2つのクラスタリング手法を用いた予備分析の結果、カナダと日本の大学生の標本を比較すると、両者の過半数が誠実さ(integrity)を「信頼に値すること」に圧倒的に重要であると回答しているにもかかわらず(236人中137人がカナダ人(58:1%)、234人中125人が日本人(53:4%))、全体としては有意な差があることがわかりました。これは、残りの99標本(カナダ)と109標本(日本)で、文化的な違いが「信頼に値すること」について大きく異なった認識をしている可能性を示唆しており、この点について理解を深めてゆく必要があります。統計数理研究所の前田忠彦先生を訪問した際、これらの点について先生の最新の因子分析研究によって得られた日本社会における「信頼」と「信頼に値すること」に対する洞察力を学ぶことができ、今後も互いに手を携えて研究を進めてゆくことになりました。
048RP2022
プロジェクトの最終目標は、日琉諸語に関してこれまで蓄積されてきた記述を基に、類型論データベース(Language Atlas of Japanese and Ryukyuan: LAJaR)を作成し、公開することであった。その際、World Atlas of Language Structures (WALS) Onlineという世界の言語のWebデータベースをモデルにすることにした。それを踏まえ、必要かつ実現可能な作業工程を検討することを今年度の目標とした。 まず、作業員2名を雇用し、4つの言語について、WALSにおける各分類型特徴(例:母音は何個あるか、語順はどの順番か)を記入してもらった。記入対象の言語として、作業員自身の母語や研究対象の言語などの比較的馴染みのある言語、そして作業員自身は馴染みがなく、既存の記述文法書のみから情報を得られる言語の両方を選定し、作業員の知識状況が記入作業にかかる時間にどれだけ影響するのかを計測した。 次に、記入過程を共同研究員と作業員で検討し、各項目についてデータをどのように解釈して記入すればよいかを検討した。加えて、日琉諸語の類型的特徴に合致しない分類方法を検出し、修正する方策を検討した。結果、以下の2点を修正した。まず、WALSでは一つの地点に一つの類型特徴ラベルしか与えられないが、LAJaRでは複数のラベルを付与可能にした。つぎに、WALSではどの文法記述からどのような過程で各類型特徴を抽出したのかが明らかでなく、判断基準が疑わしいことがあった。そこで、LAJaRでは記述のソースと判断の過程をできる限り精細に記載することにした。 WALSが用いているデータベースの基盤となっているCLLD (Cross-Linugistic Linked Data) と CLDF (CrossLinguistic Data Formats) に関しても構造を深く解析した。そして、本プロジェクトのサーバに同プラットフォームを構築する準備を万全にした。 以上に述べた通り、日琉諸語の4つの言語について予備的な類型特徴抽出作業を行った。その過程を検討することで、WALSに代表される既存の手法の改善点を発見した。さらに、次期に分析対象の日琉諸語の数を拡大することが十分実現可能であることを確認した。

◆共同研究集会

課題番号 成果報告
001RM2022
2022年9月1日から9月2日にかけて共同研究集会を行った。開催形式は昨今の感染状況を鑑みハイブリッド形式とした。
講演者は若手研究者を中心に、データ解析の勉強法や研究の中でどのように解析手法を活かしたかを講演してもらった。さらにデータ解析をメインタスクとする研究者には、実験系研究者と共同研究を組む際に考えたことや要望などを講演いただいた。
広島大の栂氏は公共データにあるRNA-Seqデータを用いたメタ解析を行った混み合いに関連する遺伝子の同定の研究を講演していただいた。昆虫のデータを用いたメタ解析の実例は少なく、解析を進める際に気をつけた点などをお話しいただいた。
富山大の藤原氏は、自身の研究の中にデータ解析を最初に取り組んだ際に感じたことを講演いただいた。キーボード
を触ったことがないところからパソコンを買い、ターミナル画面を開くさらに実際にRNA-Seqデータを解析するところまでで苦労した点や取り組んだことを講演していただいた。
東京農工大の中野氏も自身の研究にRNA-Seq解析を取り入れたれた経験をお話ししていただいた。解析スキルは教科書をベースに取得し、さらにQuiitaなどのインターネットサイトも参考にしたということをお話しいただいた。
国立遺伝学研究所の奥出氏には、自身のトンボ研究の立ち上げから、トンボを用いたRNA-SeqやRNAiの方法の確立について講演していただいた。現時点ではRNA-Seqのみで、研究が推進しているが、将来的にはゲノム情報が必要になるなどの展望も述べていただいた。
農研機構の藤井氏には、現在進めている害虫の薬剤抵抗性の研究に関して、生態的なアプローチ、気象データ解析や遺伝様式の解析など様々なアプローチで薬剤抵抗性の研究を進めていることをお話しいただいた。今後の研究のさらなる発展にはddRAD-Seq解析、RNA-Seq解析などが必要になり、自身でデータ解析を取得し進めるという展望を話していただいた。
最後はリレープレゼンで遺伝研の坂本氏、谷澤氏、望月氏、中村氏の4名からデータ解析者の視点から、非モデル生物のデータ解析について講演いただいた。坂本氏からは、モデル生物でできることが、非モデルでできるとは限らず、モデル生物の重要性と現状、非モデルでどこまでできるのかをご講演いただいた。谷澤氏からはゼニゴケゲノムを例に、ゲノム整備について、お話しいただいた。ゲノムアノテーションジャンボリーの開催の際の話など、どのようにして、ゼニゴケゲノムデータを整備してきたかの経緯をお話しいただいた。望月氏からは、非モデルのアノテーション事例をお話しいただいた。最後に中村氏から全体の総括と、研究者がデータ登録をする際の要望をお話しいただいた。
最後のセクションでは参加者全員で今後のデータ解析の展望について議論した。その際に
・データ解析の共同研究をするにはコミュニケーションが重要であること
・ゲノムを決める際に色々な支援などがあるので、それを活用することの重要性
・データ解析に関する書籍の要望
・今後の昆虫のデータ解析
に関して有意義な意見交換や議論が行われた。それぞれの立場で有意義な議論や情報交換ができたと考える。
全体を総括すると、非モデル生物のデータ解析を行える環境は整いつつある、一方で、昆虫研究者のデータ解析のリテラシーが追いついてない感じを受けた。この研究会を通じて、参加者全員がリテラシーを高めるきっかけになったと思う。さらに、データ解析をメインとする研究者との相互コミュニケーションができたことで、今後のさらに深い連携が達成するきっかけになったと思われる。惜しむべきはハイブリッドであったため、face to faceで休憩時間に個別にじっくり議論をできなかった点である。この点については本研究会を継続することで、感染症の状況も改善され、オンサイト開催が可能になる時を待つしかないだろう。総じて大変有意義な研究会であったと考える。
002RM2022
2022年(令和4年)12月19日から20日にかけて情報・システム研究機構データサイエンス棟において、オンライン参加も含めたハイブリッド形式で、共同研究集会「オープンサイエンス時代の重力観測・データの流通と利活用」を開催した。2020年(令和2年)1月末に開催した「固体地球科学データの相互利用・統合解析に関する諸問題」の後継の位置付けではあるが、重力データとそれに関係する測地データの話題を中心に据え、関係機関・研究グループのデータの共有・利活用に関する取り組みについて情報交換を行なった。人文・社会科学分野とも連携した情報システムや、地球物理分野の中でも多様な形態のデータを取り扱う情報システムの開発・運用事例についても話題提供していただき、今後の重力・測地データの共有・二次利用に向けての連携・取り組みに繋がる機会とすることができた。特に、データジャーナルに関する情報やモニタリングデータにどのようにdoiをつけるかといった課題など、測地学会での取り組みやADSやPolar Data Journalでの取り扱いなどについて最新の情報やこれからの課題などについて広く共有できた。さらに、この共同研究集会を通じて、具体的な連携の動きも始まった。たとえば、南アラスカでの測地観測データのADSへの登録および公開、アナログ測地記録のデータ保全・データベース化への取り組みなどが開始され、また、各機関・研究グループ毎に管理・公開されているデータを一元的に扱えるデータポータル・情報交換サイトの構築を目指した共同研究実施の検討が行われている。
共同研究集会の当日に参加できなかった関係者との情報共有にも資するべく、本共同研究集会のプログラムと公開の同意が得られた個々の講演資料(PDF)を、国立極地研究所学術情報リポジトリに登録し公開した。また、参加した各研究・教育機関内でのオフラインでの講演資料閲覧にも資するよう、共同研究集会登録メンバー全員に、講演資料を印刷した冊子を配布した。このような共同研究集会の成果について研究代表者は、2023年2月に極域環境データサイエンスセンター主催で開催された「極域データサイエンスに関する研究集会」に参加し、本共同研究集会の開催概要について報告した。