«

»

ABC's of Metabolomics

[第1回メタボロミクスと統計解析] オミクスデータの判別


バイオメディカルグループ(統計解析)の山本博之です。

HMTに来て2年目ですが、学生の時からメタボロームデータのための多変量解析手法の開発など、統計解析に関する研究に取り組んできました。膨大なデータが得られるオミクスでは、得られたデータをどのように解析するか、が非常に重要となります。これから1年間、統計解析について、特にメタボロームデータなどのオミクスデータを扱う際に起こりうる、この分野特有の問題点や、統計関連の学会参加報告などを書いていく予定にしていますので、よろしくお願いします。

初回は5月20日~22日に日本計量生物学会の年会に参加し、その様子をご報告する予定だったのですが、残念なことに新型インフルエンザの影響で学会が中止になってしまいました。そこでその代わりと言ってはなんですが、今回はオミクスデータの判別問題について少しご紹介したいと思います。


判別分析は、様々なところで適用されています。メタボローム解析やマイクロアレイにおいては、様々な疾患についての健常者と患者の診断のための判別モデルの作成が最も大きなテーマの一つになっています。しかしオミクスのデータを用いて判別モデルを作成する際には、非常に困難な問題がたくさん立ちはだかっています。

実際に判別モデルを作成する際、十分にサンプル数があったとしても、オリジナルのデータセットの変数が比較的多い時には、そのデータセットをそのまま用いるのではなく、主成分分析などの次元削減手法を行って次元を落とすか、変数選択によって変数の数を減らしたデータに対して判別モデルを作らないと、テストデータに対する予測性能が悪くなると言われており、この問題は従来から機械学習の分野で次元の呪い[1]としてよく知られています。

我々が扱っているオミクスのデータは、次元の呪いを超える、扱いが非常に難しいデータセットになっています。Tibshirani[2]によれば、オミクスのデータはp(変数の数)がn(サンプル数)よりも極端に多いデータだからです。実際にマイクロアレイのデータセットであればp(遺伝子数)>>n、メタボロームデータであれば、p(代謝物質数)>>nが普通であり、データ解析をする立場から言えば見るも恐ろしいデータセットになっています。

オミクスのp>>nデータを判別する場合の問題点として、プリチャード、江口[3]は、p>>nデータは”従来の統計手法がそのまま適用できない”データであり、様々な困難な問題を含んでいることを指摘しています。具体的にそれらの問題の一つとして”多重解の存在”について説明しています。

実際にVan’t Veerら[4]の乳がんの予後予測のためのマイクロアレイデータを用いて、相関法[4]、判別分析、Adaboostを用いて判別を行った結果、複数の異なる遺伝子セットを用いた時でも、誤判別数はそれ程変わらないことを示しています。また西井[5]は、有名なGolub[6]の白血病に関するマイクロアレイのデータセットを用いてサポートベクトルマシンによる判別を行った結果、テストの誤判別数を0に出来る遺伝子のセットは30程度あり、どの遺伝子セットが判別にとって重要なのかを判断することが困難であることを指摘しています。

最近になって”複数の遺伝子セットが同程度の判別能力を示す、つまり多重解をもつ”[3]ということが認識され始めたところであり、判別にとって最良な遺伝子セットもしくは最良な代謝物質セットを導き出す決定的な統計解析手法は現在のところ未だありません。

実際にメタボロームデータを用いて判別モデルを作る際には、このような困難で未解決な問題があることを認識して、間違った結論を導き出すことのないようにする必要があると考えます。HMTでは、計算結果だけでなく生物学的な考察をパスウェイマッピングの結果などから考察するようにしています。また上記の問題を解決すべく、メタボロームデータのための判別手法の研究開発に取り組んでいるところです。

第2回は、メタボロームデータと多変量解析(7月公開予定)を予定しています。

[1] 坂野 鋭, 山田 敬嗣, “怪奇!!次元の呪い”, 情報処理学会誌 (2002)

[2] Efficient quadratic regularization for expression arrays.
  T.Hastie, R.Tibshirani, Biostatistics,2004 Jul;5(3):329-40.[PubMed]

[3] プリチャード真理, 江口真透, “関連遺伝子セットの多重解の存在”, 日本統計学会誌 (2009)

[4] Gene expression profiling predicts clinical outcome of breast cancer.
  Van’t Veer, L. et. al., Nature,2002 Jan 31;415(6871):530-6.[PubMed]

[5] バイオインフォマティクスプログラミングコンテスト問題2への応募書類 西井龍映, BIP2003 (2003)

[6] Molecular classification of cancer: class discovery and class prediction by gene expression monitoring.
  Golub,T. et. al., Science, 1999 Oct 15;286(5439):531-7.[PubMed]

«

»

メタボロ太郎なう

Photos on flickr