研究開発本部の山本です。今回は、多変量解析を行うためのオミクスデータの準備についてご説明したいと思います。
メタボロームデータの公開データベースとして有名なものには、MetaboLightsと、XCMS onlineのPublic Sharesがあります。しかしこれらのデータは、測定データそのものであり、多変量解析をすぐに行える状態の、サンプル × 代謝物質のマトリックスのデータになっていません。
そこで今回は、公開されたデータで、かつ比較的すぐに多変量解析が出来るオミクスデータとして、慶應義塾大学の大腸菌マルチオミクスのデータベースと、National Center for Biotechnology Information(NCBI)のGEO(Gene Expression Omnibus)の2つのデータベースをご紹介いたします。
慶應義塾大学の大腸菌マルチオミクスのデータベースは、その名のとおり大腸菌のマルチオミクスのデータが公開されており、フリーでダウンロードすることが可能です。webサイト上の”Metabolome”のところにある、”CE-MS metabolome data”のDownloadから、Excelファイル”Quantitative_data.xls”をダウンロードすることができます。この中に、Metaboliteのシートがあり、それがメタボロームデータです。各行に代謝物質、各列にサンプルのデータ行列になっています。
※ただし各代謝物質レベルの数値に関して絶対定量値か相対面積値か等詳細は確認していませんので、このデータを用いて解析される場合は、オリジナルの論文をご確認の上ご利用いただくようお願いいたします。
次に、NCBIのGEOのデータベースからの遺伝子発現データの入手について、簡単にご説明したいと思います。
ライフサイエンス統合データベースセンターから、”NCBI GEOの使い方1〜マイクロアレイデータの検索・取得〜 “等の動画で紹介されていますので、さらに詳細を知りたい方はそちらをご覧ください。
NCBIのGEOのサイトの右部分の”Browse Content”から、”DataSets”をクリックします。そうすると、様々な試験データのリストのページに移動します。例えば、2014年11月現在で、最も上に表示されているのは、”Acute Dengue patients: whole blood”とあり、急性デング熱の全血のデータが公開されています。
今回は、このデータをダウンロードして、多変量解析が出来る状態に整形します。
右下部に、Downloadというのがありますので、そちらから”DataSet full SOFT file”をクリックし、ファイル(“GDS5093_full.soft.gz”)をダウンロードします。データはgzip形式で圧縮されていますので、解凍ソフトを用いて解凍します。解凍すると、”GDS5093_full.soft”という名前のファイルが得られます。拡張子が.softとなっていますが、ただのテキストファイルですので、メモ帳でも開くことができます。
このデータをExcelで開くと、初めの数行にメタデータが記載されており、(私の環境では)323行目に”!dataset_table_begin”と書かれています。データはそれ以降の行から始まり、55040行目に”!dataset_table_end”と記載があります。そこまでが、遺伝子発現データセットになります。この部分を取り出し、別の名前で、Excelファイルとして保存します。GEOの遺伝子発現データも、各行に遺伝子、各列にサンプルのデータ行列になっているようです。
データの準備は以上となります。次回は、今回取得したオミクスデータに対して、MetaboAnalystを用いて主成分分析を適用する実際の手順について、ご紹介いたします。
もし他に有用なオミクスデータベースをご存知の方がいらっしゃいましたら、教えていただけると幸いです。