バイオマーカー
生体内に含まれる遺伝子やタンパク質、代謝物質などの物質のうち、病気の変化や治療に対する反応など、生体情報に相関して変動し、反応指標として客観的な評価が可能な項目・物質を「バイオマーカー」といいます。
例えば疾患の初期に現れるバイオマーカーを探索することができれば、疾患の早期発見・早期治療などにつながると期待されます。
ランダムフォレスト
データから学習をすることでパターンを発見し、さらに学習したモデルを用いて予測を行う「機械学習」の一手法で、複数のモデルを統合するアンサンブル学習の一つです。
決定木と呼ばれる計算手法を複数実行し、それらの結果をもとにした多数決によって最終的な予測結果を出力します。近年はメタボロミクスデータの解析でも多く用いられるようになっています。
ROC曲線 / AUC
Receiver Operating Characteristic(ROC)曲線は、陽性/陰性を判別する閾値を設定した際に、縦軸に感度(真に陽性となる割合)、横軸に1-特異度(偽陽性率、陰性者を陽性と判定してしまう割合)をプロットしたものです。
ROC曲線の下部の面積をArea Under the Curve(AUC)と呼び、AUCが0.5に近い値(下図左側)となるほど陽性/陰性の判別がうまくいっておらず、AUCが1に近い値(下図右側)となるほど有効な閾値が設定されていると言えます。
AUCの値を一つの指標とすることで、有用なバイオマーカー・閾値の探索が可能となります。