ROIS-DS第1回成果報告会:Q&A

ROIS-DS第1回成果報告会:Q&A

2021年3月30日

(注)下記は、当日の質問に対して時間内に回答できなかったものと、チャットに書かれた関連リンクの一覧です(追加補足を含みます)。

講演番号 質問・意見 回答
1-1 街頭の音声を文字にして、データにしたらもっと面白いのでないでしょうか。 ありがとうございます。なかなかユニークなアイデアだと思います。私の今回の研究では新聞記事(しかもかなりしっかりしたインデックス)を使っており、データサイズが小さく融通は利かないが信頼性が高いデータです。一方、SNSやご提案の音声はデータ量が多い(ビッグデータ)がノイズが多い低信頼性データです。どちらが良い・悪いということはありません。また、どちらも、SOMATOでの可視化は可能です。課題は、街角音声で何を拾うのかではないかと思います。また、プライバシー侵害がかなり難しい課題となりそうです。(おそらく、音声にも肖像権があり、無断で収拾できないのではないかと思います。)
1-1 (書き直しました。最後の講演への質問)移動と相関のある別の事象が感染数の変化と相関が高くて、その別の事象が感染数の増加の原因ということがあるかもしれませんが、その可能性を排除するにはどうしたらいいですか(何を調べたらいいですか?)? 重要なご指摘をありがとうございます。その可能性を排除するためにもできるだけ、たくさんの要因(説明変数)を考慮したモデルを立てる必要があります。また回帰の残差に構造を仮定することで、他の効果の影響をできる限り受けないように回帰モデルを定式化する方法があります。例えば空間計量経済学と呼ばれる分野などではそういった、他の要員への影響を抑えながら適切に回帰モデルを推定しようという手法の研究が盛んです。
1-1 ありがとうございます。直接の原因になる要因が説明変数として考えた範囲内にあればそれでわかるということですね。その場合、サンプル数が同じで、説明変数があまり増えると解析が統計的ばらつきによって見えなくなったりすることはないでしょうか?特に、COVIDの初期は陽性者の数が少なかったのである程度蔓延しないと分からないように思いますが。 ご指摘の通りだと思います。おっしゃる通り陽性者少ないので限界はあると思います。スパースモデリング(LASSOなど)を使って、できるだけ多数の変数の中から安定的にモデルを推定することが重要なのかもしれません。安定性を重視して、専門家のエキスパートジャッジで変数を予め少なくすることもありだと思います。
1-2 Darwin Coreの情報とバイオインフォデータの統合を行う上で、記述が統一していないとの話がありましたが、統一されていないデータになんらかの傾向(ある地域、研究分野の研究者、ある種は複数の記述をするなど)はありますか 生物種名や地名の辞書自体はあるので、それを組み込んだウェブサービスなり、Excelマクロなりを使っているところはエラーが少ないです。ということで、ITリテラシの高い・低いはエラーの入り方と関係はあったりします(ただ得てして手入力なのでだいたいは「低い」レベルですが)。あとは生物種名も分類体系が変わって名前が変わることもあるので、そのような生物を扱う人は修正が必要な場合が多いと思います。生物多様性情報については、元データに加えてannotated data(元データは登録者しか修正できないので、あくまで修正候補か推奨記述)というのがつくので、それらを比較することで起きがちなエラーを抽出するのは技術的には可能かもしれません。
2-1 仲里先生:興味深いご講演をありがとうございました。2つ質問があります。(1)遺伝子データと博物館データをつなぐキー(検索キー)はテキスト情報がメインのようですが,画像を検索キーにすることもできるのでしょうか。たとえば,標本と採取サンプルの画像比較をしたりすることも可能でしょうか。(2)バイオインフォマティクスのデータをご紹介された最初の方のスライドでPubChemデータがすべてゼロ件となっていますが,これは,PubChemの中にはバイオ系のデータは登録されていないという意味でしょうか?あるいは,先生のプロジェクトではまだ取り入れられていないということでしょうか? (1) Googleの画像検索といったイメージでしょうか。世界的には画像解析(特に機械学習を用いた)もトピックスのひとつになっていますが、まだ研究者の使うデータベースでは実用レベルには至っていないです。ある程度は分野を絞ればいけるかもしれませんが、蝶などでも紋1つがずれると別種というようなことがあるので、パシッと決めるのは難しいですね。市民科学レベルでは、生き物の写真をアップロードすることで何の生物か返すアプリはあります(iNaturalistなど)。
(2) PubChemもDBCLSでは対象にしています。NCBIのデータベースで全件検索をするクエリがあって、それを使ってまとめて件数取得を試みたのですが、PubChemはエラーを返すので仕様が変わったのかもしれません。
2-2 金尾先生にご質問です.観測システムが自動生成してくる所謂生データについてもDOIを(自動?)付与・公開されているのでしょうか.あるいはその計画や検討を進められている等はおありでしょうか? ライブ中継で回答済み
(追加記載)
自動生成される実データにはバージョン管理をして頂いた後に、DOI付与承認をしております。
2-2 ご回答ありがとうございます。(1)検索に関してはGoogleのイメージです。一方で,画像データのデータセットもデータサイエンス研究に有効に利用されると思われるので,共有化されていくとよいかと思いました。デジタルシルクロードのようなイメージです。(2)了解しました。 画像データのデータセットが重要なのはものすごく賛同します。実際にそういう動きもありますが、ライセンスの問題もあって公開されない場合もまだあります(今の研究者は理解が進んだので、改善されつつあります)。実際のところは、画像にメタデータをつけて、そのテキスト情報を利用する形から裾野は広がっているようです(さきほどのファーブル昆虫記の例で出しましたが、出てくる生物種を画像のメタデータとして記載してデータ化しておくということです)。しばらく前に関連するワークショップがあったのでURLを貼っておきます。 http://www.gbif.jp/v2/activities/workshop_2019.html
2-7 福多先生に質問。今回の金魚の研究の解析支援(1件)は、例えば、何人日位のエフォートですか?1件あたりの人日は、年々少なくなったりしますか、それとも次々に新たな問題を扱うので不変でしょうか? ご質問ありがとうございます。正確な解答となっているか不安ですが、毎年度、当センターに割り当てられる数件の課題に付きまして、支援者様の希望とあわせてセンター長(野口先生)が、メンバーに割り当てることになります。
 各課題にどれだけのエフォートを分配するかは定められはおらず、私の場合、年に平均2-3件扱うことになりますが、課題種ごとに進捗には大きな違いがでるため、2018年については、このキンギョについての主要な業務(キンギョにほぼ前日割り当て)3-4ヶ月程度に相当するかと思います(キンギョは支援者様自身による解析サポートもありましたので非常にスムーズに進んだケースとなっています)。
 しかしながら、ソフトウェアやパイプラインの作成も日々の業務に含まれてますので、作成された制作物は他の課題種の業務でも使えるため、なかなか、正確に何人日の仕事量、エフォートか?について正しく答えることは難しい状態です。
2-8 回答ありがとうございます。というような事情ですと、一部は投入した経費での成果が使いまわせるが、総じて支援件数は投入する経費(人工費)にほぼ比例するので、支援件数を倍にするには予算が倍いるということですね。 ライブ中継で回答済み
(ライブ回答の仕方を間違いました。)
ご返答ありがとうございます。支援課題の内容・目的(比較的処理が明瞭で解析量が少ないもの)によって、かなり前後はするかと思われますが、ご指摘にように、基本的に「処理できる課題種の増加と人件費の増加」」は比例関係にあるかと思います。
2-7 ところでもう一つ、例えば金魚の例ですと、共同研究としてやるのと、支援としてやるのでは、どういうところに差異が出ますか?例えば、共同研究なら共著者になるが、支援であればDSや支援教員への謝辞になるとか。 当センターで実施するデータ解析支援は、基本的に共同研究(論文の共著者)としての責任で担当が割り当てられます。しかし今回発表したキンギョの例では、近縁の魚類よりも複雑なゲノム構造(全ゲノム重複)をしており、通常の手法では解析が困難でした。そのため、特に工夫を凝らしたソフトウェアやパイプラインの開発が必要となり、新たに担当を割り当てて通常以上の時間と労力を要しました。今回の共同研究で得られた解析のノウハウ(構築されたソフトウエアやパイプライン、それらのパラメータ設定を含む)は当センターにとって重要な研究資産でもあります。今後、これらのノウハウを活用して、今回ほどの時間や労力を要しないデータ解析の場合は、センター長の判断によるかと思いますが、謝辞での支援もあるかと思います。
    上記以外の質問は、ライブ中継で回答済みのため省略します。
講演番号   参考情報
1-1   歴史的行政境界WebGISと利活用事例紹介(村田他)
関連Webサイト一覧
・歴史的災害記事情報WebGIS:本発表の中心(ID:nict-sc, PW:0423277931)
 https://jh170034-1.kudpc.kyoto-u.ac.jp/opendata-vtiles-boundary/articles-history-city/
・ひまわりリアルタイムWeb
 https://himawari.asia
・サンプルTimeline(JavaScript) 
 http://k2go.jp/public/Timeline
・SOMATO Web(新聞記事数スケーラブル可視化)
 https://somato1987.nict.go.jp
・タイムラプス動画像Web(サンプル)
 http://k2go.jp/public/Timeline/sample6/
・歴史的行政区域データセットβ版@NII(松山市の例:GeoJSON/TopoJSON)
 https://geoshape.ex.nii.ac.jp/city/resource/38201A1968.html
・歴史的行政区域データセットβ版@NII(都道府県単位・全国単位:TopoJSON)
 https://geoshape.ex.nii.ac.jp/city/choropleth/
・全国町丁目境界データWeb(2015年度国勢調査データをバイナリベクトルタイル化)
 https://jh170034-1.kudpc.kyoto-u.ac.jp/opendata-vtiles-boundary/sample-history-city/
・国勢調査町丁・字等別境界データセット:地名ビジュアル検索@NII
 https://geoshape.ex.nii.ac.jp/ka/visual-search/
2-6   人文学オープンデータ共同利用センター・鈴木親彦の関連リンクです
・CODHホームページ
 http://codh.rois.ac.jp/
・顔貌コレクション
 http://codh.rois.ac.jp/face/
・顔コレデータセット
 http://codh.rois.ac.jp/face/dataset/
・TEI
 https://tei-c.org/
・IIIF
 https://iiif.io/
・第14回CODHセミナー「IIIF Curation Platform利活用レシピ100連発」
 http://codh.rois.ac.jp/seminar/icp-recipe-20210218/