生命システム

大量ゲノム関連データと多元的な生物表現型多様性データの統合による遺伝的相関構造描出のための統計手法の開発と最適化

大量のゲノム関連データと多元的な生物表現型多様性データを統合することで、遺伝的相関構造の描出を目指します。そのために、モデル生物を用いて、ゲノム配列・遺伝子型、遺伝子発現表現型、表現型因子、背景因子、時系列情報などのゲノムおよび表現型の多型・多様性データの抽出手法の開発と最適化を行っています。とくにデータ取得技術の進展によって、時系列、e-QTL、遺伝集団構造解析の展開で生み出される新たな形での情報取得と、それによって生ずる課題に対応できる手法の開発を目指しています。

サブテーマ2では第1期新領域融合研究プロジェクト「生物多様性解析」の中で、以下のような成果を得ています。
(1) 機械学習とベータダイバージェンスの方法による形の表現型の計量化と QTL 解析のロバスト化(Mollah et al. Neural Processing Letters, 2007など)
(2) ロバスト推定に関する基礎的な研究:外れ値の割合が大きい場合にも潜在バイアスを小さくすることが可能な方法の提案(Fujisawa & Eguchi, Journal of Multivariate Analysis, 2008)
(3) 高い相関構造を持つ多重検定の研究:多重積分の必要なしに簡単に陽に計算ができ、近似精度が高く,保守的でもある検定方法の開発(Ninomiya & Fujisawa, Biometrics, 2007)
(4) 連鎖解析のエピスタシスの解析において,逐次解析やチューブ法を含むいろいろな方法で検定の多重性調整p値を与える方法を開発(栗木哲「QTL解析の統計モデルと検定の多重性調整」, 21世紀の統計科学, 東京大学出版会, 2008, Kurikiet al., BIRS Workshop, Random Fields and Stochastic Geometry, 2009, Canada)
(5) いくつかの古典的 QTL 解析において,影響関数を定義し,マウスのデータを解析(Dou et al., The 57th Session of the International Statistical Institute, 2009, South Africa)。

ページの先頭へ戻る

 

研究の進捗状況

2-1:ゲノムデータ解析のための並べ替え検定手法の開発

 マイクロアレイやそれを用いる遺伝子発現差解析は、実験回数が少なく、妥当な統計処理が難しい。一方で、多数の遺伝子データを観測し全体の標本数は非常に多いため、ある遺伝子に対するP値の推定に他の遺伝子のデータを援用する工夫がされ続けている。平均の同等性検定は最も標準的に使用されるが、各遺伝子に対し、遺伝子発現差の有無は事前に分からず、この手法のように、それを区別せずに使っては当然、妥当な結果とならない。これに対し、Efron が提案したバランス型並べ替え手法と、それをさらに拡張したPan による検定統計量の工夫は、数理的な妥当性を持っている。
 では、どのような手法が最適なのか。まずは、遺伝子発現差解析において、他の遺伝子のデータを利用することが妥当になるためには検定統計量Tがどのような性質を持てばよいかを数式的に整理し、マイクロアレイデータの特徴を記述した結果、ある条件ではPanの手法が最強力であることが示された。条件を変えたところ、Panの手法と自由度1の差分が得られ、よりよい手法を提案することができた。
今後は、分散の同等性検定についても検討し、さらに、提案した手法のパフォーマンスを数値的に調べたいと考えている。可能であれば、近年になって盛んに研究されているFDRについても、考察を進めて行きたいと考えている。

2-2: 遺伝的不適合に関連する遺伝子部位の検出問題のための多重性調整 

 マウスのKJR系統とBLG2系統を交配して得られたマウスには、遺伝的不適合により運動失調や発達遅延など神経発達異常が観測される。ゲノムのどの領域が遺伝的不適合を引き起こすのかは、多重検定問題として定式化できる。
 神経発達異常を示したF2世代の162個体の、平均10cM間隔に並ぶ120箇所のマイクロサテライトマーカーにおける遺伝子型データのメンデル比からの乖離を指標に、遺伝的不適合を起こす領域の探索を行った。KJRの完全優性、優劣無し、BLG2の完全優性の3タイプ(t=1、2、3)の発現の仕方を前提とし、s番目のマーカーのメンデル比が保たれているか否かを比較する検定を、全てのマーカー、全ての優劣タイプに対して多重検定した。メンデル比が保たれているかを比較するスコア検定統計量をT(s、t)として、各検定の多重性調整したp値が取り得る値をなるべくタイトに評価した。この場合、最も容易なのはBonferroniの不等式だが、マーカー同士が独立ではなく連鎖するため、Ninomiya and Fujisawa (2008)の方法を適用することで基本的な評価方法を開発でき、それに基づき遺伝的不適合を引き起こす部位の候補を与えることができた。
 現在は、より直接的に遺伝的不適合をモデル化し、それに基づき検定をおこなうことを目指し、複数のマーカーの遺伝子型の組み合わせで、メンデル比を崩すものを探索するという方法を検討している

2-3:遺伝子情報と発現データのためのグラフィカルモデルの開発

 グラフィカルモデルは、変数間の条件付独立関係、因果関係をグラフで表した統計的モデルで、遺伝子間の相互作用や、遺伝子発現の因果関係のモデリングに有用と考えられている。遺伝子データの場合、モデルの次元が非常に大きくなること、分解可能モデルのような特殊なモデルを除き、最尤推定量などの統計量が明示的に得られないことなどから、効率的な推測アルゴリズムの開発は重要な課題である。
 そこで本研究では、ガウスグラフィカルモデルにおける共分散行列の最尤推定量の標準的な計算アルゴリズムである比例反復法の局所計算アルゴリズムの開発を行った。
 変数の次元をn とする。通常の比例反復法の場合、一回の更新則には、 逆行列の計算を含むために、計算オーダーは n3となり、遺伝子データのようにn が大きい場合には計算コストが高くなる。しかしながら、遺伝子データの場合には、遺伝子間の条件付独立関係を表わすグラフは疎であることが多く、その場合にグラフの分解に対応した計算アルゴリズムの局所化により、計算コストを劇的に減少させることが可能となる。

2-4: QTL、eQTL探索における影響分析

 QTL 解析のための統計モデルには、さまざまなものが提案されている。最も基本的なものは、たとえば単一マーカー分析 (single gene model) であろう。QTL が 1 つしかないという仮定は現実には正しくない場合もあるが、モデルが簡潔でスキャン統計量としてのロバスト性もあるため、広く用いられている (F. A. Wright and A. Kong (1997)、 Genetics 146、 417-425).
 F2 集団の雄雌マウス 170 個体について、119の遺伝子型と、血中アディポネクチン (log10 [ng/ml]) を計測し、単一マーカー分析によって得られた LOD スコアをプロットすると、既知遺伝子のある第16染色体に大きなピークが見られ、3番染色体に2番目に高い2峰のピークが見られた.この LOD の形が真に 2 つのQTL によるか、単に確率的な揺らぎなのかは、遺伝学的には非常に重要である。そのために遺伝学研究においては、このような場合には、LOD スコアの形状に大きな影響を持つ個体を洗い出し、そのデータを再吟味する必要がある。しかしそれを系統的に行う方法論が知られていなかった.そのため、融合研究において、LOD スコアの形に影響を与える個体をスクリーニングするための経験影響関数を定義し、その値をもって個体の影響度とする方法を提案した。

ページの先頭へ戻る