バイオ情報計測学は舟でゆく: 欠損値の補間方法

ノンターゲットメタボロームデータから、ピークピッキングソフトウェアを用いて作成したデータマトリクスには、結構空欄があります。これを欠損値(missing value)と言います。およそ20%が欠損値だともいわれています。

欠損値のあるマトリクスの例。白いところが欠損値

空欄が生じる原因は(i)ピークの強度が低く検出できなかった。(ii)ピークピッキングに失敗した。などがありえます。できてしまうものはしょうがないのでこのままデータの解析に進むことになりますが、一つ不具合が生じます。多くの多変量解析では欠損値を許容しないため何か数字を入れる必要があるのです。ではどんなシグナル強度値で補間 (impute) するのが正しいのでしょうか？これまで、

適当に小さめの値(0.01とか）を入れる
その代謝物シグナルの強度値をサンプル間で比較したときの最小値の1/2
その代謝物シグナルの強度値をサンプル間で比較したときの同じく平均値
サンプル毎に計算したノイズレベル

などが欠損値の補完に用いられてきました。しかし、どれも全く根拠がありませんでした。だれもがほんとにこれでいいの？？とおもいつつもケチをつけてもしょうがないということで、知らんぷりを決め込んでいた節があります。Metalignがいいのは、４の方法で、欠損値を補完しておいてくれるため、悩みが１つ減る点にありました。最近優秀なバイオインフォマティストがメタボローム分析に興味を持ってくれはじめたらしく、欠損値の補間方法について検討した論文が相次いで報告されています。

Hrydziuszko et al. Missing values in mass spectrometry based metabolomics: an undervalued step in the data processing pipeline Metabolomics (2012) 8:S161-S174

によると、欠損値は低強度の代謝物シグナルで頻発する傾向があり、ランダムに分散しているわけではないようです。また、３の平均値よりは、１．２．４などの小さめの値のほうが、多変量解析の結果に与えるゆがみはまだ少ないようでした。いままで４を用いてきた身としてはほっとさせられる結果です。しかしもっともリースナブルな補間結果をもたらしたのは、weighted k-nearest neighbour algorithm (kNN) です。サンプル間でよく似た変動をする他の代謝物シグナルを５つくらい探しだし、欠損値をその線形和で回帰して予測する手法です。似たもの同士では欠損値もにているはずだ。と考えるわけです。

Gromski et al. Influence of Missing Values Substitutes on Multivariate Analysis of Metabolomics Data. Metabolites (2014), 4:433-452

では、さらに詳細に検討を加え、random forest (RF) imputationがkNNよりもよいと結論しています。これらの報告は、メタボローム分析における欠損値の取り扱いに明確な指針を示したという意味で、すごくインパクトがあります。また、random forestって回帰や判別を行うための最新のノンパラメトリック法の一つなんですが、超モダンな統計解析技術がばりばりとメタボローム分析に応用され始めているのをみるとわくわくしてしまいますね。

バイオ情報計測学は舟でゆく

2015年4月12日日曜日

欠損値の補間方法

0 件のコメント:

コメントを投稿