«

»

ABC's of Metabolomics

[第5回メタボロミクスと統計解析] メタボロームデータと統計的仮説検定 その2


山本です. 前回, p-valueの補正の必要性について述べました. 簡単に振り返ります.

統計的仮説検定において, 有意差あり無しの判断を, 独立な複数の仮説検定を行うことを考慮せず, 別々に検定を行っただけのp-valueを用いて行うと, 1種の誤り(差がないという帰無仮説が正しいのに, 間違って差があるとしてしまう誤り)が, 3つの物質の時には, 5%から14%に大きくなります. また直感的にも, データセット全体で相対的に特に差の大きな物質を特定する, という観点が欠けているのは, バイオマーカー探索においては不十分な感じがします.

それではデータセットの中でも特にp-valueの小さな物質だけを有意にしようと考えて, p-valueの補正, 例えばbonferroniのp-valueの補正を行うことを考えます. その時には検出力 ( 1-2種の誤り[差があるのに, 差が無いとしてしまう誤り] ) の観点から, False discovery rate (以下, FDR) を制御する方法がFWERを制御するbonferroniのp-valueの補正よりも良い(検出力が高い)と言われており[1], データセット全体に対して, 有意かそうで無いかの境目を決める方法として, 統計的にはFDRを基準とした方法を用いることが有効であるとされています. 以下では, FDRについて簡単に説明します.

まず, FDRの定義から始めます.

FDR (%) = 100 × [ 有意水準以下で真に差が無い物質数 ] / [ 有意水準以下で有意になる物質数 ]

[有意水準以下で真に差が無い物質の数] は, 全ての物質に差が無いとする帰無仮説のもとではp-valueは一様分布に従うので[2](図1参照), (全物質数)×(有意水準)で計算されます. しかし, 実際のデータには真に有意な物質も含まれているので, p-valueは一様分布に従わず, (全物質数)×(有意水準)は, その推定としては正しくありません. そこで, このp-valueの分布が一様分布と有意な物質が従う分布の混合分布であると考え, その混合比をπ0 : (1-π0)とします. このπ0を掛けることにより, より正確な[有意水準以下で真に差が無い物質数]を推定することが出来ます. また, [有意水準以下で有意になる物質の数] は, 実際にある有意水準を設定した時の検定で有意になった物質の数です.

次に, このFDRの具体的な値の意味について考えてみます. まず, FDR=100%は, [有意水準以下で真に差が無い物質数] と [有意水準以下で有意になる物質数] が等しいときです. これはつまり, 検定で有意になった物質は, 本当は全て差が無い物質であった, ということになります. 逆にFDRが非常に小さいときは, [有意水準以下で有意になる物質数] は [有意水準以下で真に差のある物質数]と同じ, つまり検定で差があるとした物質は, 真にも差があると言える, と結論づけることが出来ます.

FDRは, これまで遺伝子発現データの解析に良く用いられてきましたが, メタボロミクスの研究でも最近用いられています[3]. FDRの実際の計算はRのq-valueライブラリ[4]から帰無仮説の数の割合であるπ0の推定量が計算出来るので, 有意水準を決めれば, あとは例えば文献[5]にあるFDRの推定量の式(先述のFDRと同じ)に代入することで簡単に計算出来ます. またq-value[2]とは, ある物質のp-valueを有意水準とした時のFDRを全て計算したものです. 例えば, 物質Xのp-valueが0.01で, q-valueが0.03は, 有意水準を0.01とした時の, FDRが3%ということになります.

実際のバイオマーカー探索における統計的仮説検定の役割は, マイクロアレイのデータのDEG(differentially expressed gene)で行われているように, 検定統計量でランキングを付けて上位から候補をピックアップするところまでで, その後はその候補物質を元に実験を行い, 生物学的に証明することで結論を出すことになると思います.

一方で疫学や公衆衛生学のような診断に関する人のスタディのように実験的に証明出来ない場合は, どこまでがバイオマーカー候補であるか, ということを”統計的に”主張したところまでで結論となるので, 有意な物質と有意でない物質の境界を決めることは重要となります. その時には冒頭で述べたように, 統計的な観点からFDRを基準としたq-valueのような方法が現状では有効であるということになります.

2月25日(大阪),26日(東京)に行われるアジレントメタボロミクスセミナーでメタボロミクスにおける統計解析についてお話します。おかげさまで東京会場は定員に達し申込が閉め切られているようですが、大阪会場はまだ申込できるそうです。統計解析についてお話しする機会はこれまでありませんでしたので、ぜひ聞きにお越しください.

[1] Y. Benjamini, Y. Hochberg
Controlling the false discovery rate: a practical and powerful approach to multiple testing.
J.R.Statist. Soc. B 57(1):289-300, 1995

[2] 大羽成征
Q-valueとは?

[3] Sreekumar A, Poisson LM, Rajendiran TM, Khan AP, Cao Q, Yu J, Laxman B, Mehra R, Lonigro RJ, Li Y, Nyati MK, Ahsan A, Kalyana-Sundaram S, Han B, Cao X, Byun J, Omenn GS, Ghosh D, Pennathur S, Alexander DC, Berger A, Shuster JR, Wei JT, Varambally S, Beecher C, Chinnaiyan AM.
Metabolomic profiles delineate potential role for sarcosine in prostate cancer progression
Nature 457(7231):910-4, 2009
[PubMed]

[4] qvalue: Q-value estimation for false discovery rate control

[5] J.D. Storay, R. Tibshirani.
Statistical significance for genomewide studies.
Proc Natl Acad Sci U S A. 100(16):9440-5, 2003
[PubMed]

[第1回メタボロミクスと統計解析]オミクスデータの判別
[第2回メタボロミクスと統計解析] メタボロームデータと多変量解析
[第3回メタボロミクスと統計解析] メタボロームデータと多変量解析
[第4回メタボロミクスと統計解析] メタボロームデータと統計的仮説検定 その1

«

»

メタボロ太郎なう

Photos on flickr