バイオ情報計測学は舟でゆく: ノンターゲットメタボローム分析の課題その６　Metabolite Featureのリストアップ

LC-MSを用いたノンターゲット型のメタボローム分析では、生データファイルのセットの中に存在する、Metabolite Featureをすべてリストアップする作業をおこないます。複数のデータファイル間で同一のが検出されているなら、それを同一のMetabolite Featureとして認識できなくてはダメですよね。がしかし、これはかなりの難題で、いろいろなタイプの誤りが生じる可能性があります。
というのも、LC-MS分析時のコントロールが甘いと、保持時間を正確に補正しきれなくなることがあります。そうすると、本来は同一のMetabolite Featureとして認識されなくてはならないのに、保持時間がサンプル間で大きくばらついてしまったせいで、２つのMetabolite Featureとして間違えて認識してしまうことがあります。また、２つのMetabolite Featureが近接しているような場合、保持時間がずれると隣のMetabolite Featureとごっちゃになってしまうこともあります。こういう誤りを避けるためにも保持時間の再現性が大事なことがわかります。

さらに、検出したMetabolite Featureの多くは、生体に由来しないアーティファクトを誤認識したものであるといわれています。これを避けるには、QCサンプルの希釈系列のメタボロームデータを取得し、強度値が正しく増減したもののみを選ぶという手が使われています。さらに、ノイズを誤ってMetabolite Featureと誤認識してしまうことがありますが、その判別には、pooled QCサンプルの繰り返し測定結果を用いて、RSDが20%以上あるもの、QCの分析で>50%の欠損値があるMetabolite Featureを除去する (Nature Protocols 6, 1060-1083 (2011))などが行なわれています。がしかし、これで問題のあるピークを、完璧かつ自動で除去しきれるかというと、難しいでしょうね。

また１つの代謝物から通常複数のMetabolite Featureが生成します。これを見つけて、不要なものを除去する作業をdeconvolutionと呼びますが、これまたかなりの難題であります。除去するべきMetabolite Featureが除去できない、逆に除去してはいけないMetabolite Featureが除去されてしまったなどの誤りが多数生じてしまうんですよね。クロマトグラムの処理はおしゃれなアイデアがクロマトの現実の前に粉砕されていく黒歴史にことかきません。自動的に生成したMetabolite Featureのリストには、アーティファクトやredundantなMetabolite Featureが多く含まれいる（経験的には70-80%程度）が、これらを完璧に除去し整頓する技術の確立はかなり時間がかかる。と考えるといいかなぁと思います。

そこで、尿を測定した２つのスタディを行い、そのデータをあとから①と②を統合して解析したくなったとしましょう。たとえば、スタディ①で取得した尿のメタボロームデータセットからMetabolite Featureの新たなリストを生成したとします。各Metabolite Featureには、STUDY_1_ID0055のようなIDを付与しておきましょう。同様に、スタディ②の尿のメタボロームデータセットからMetabolite Featureのリストを生成し、各Metabolite FeatureにSTUDY_2_ID0151のようなIDを付与したとします。ここまでは技術的に今でも可能です。次にスタディ①と②を統合して解析したくなったとします。原理的にはSTUDY_1_ID0055とSTUDY_2_ID0151の（保持時間x、質量電荷比y）の一致を基準にMetabolite Featureを統合可能かなぁと期待してしまいますが、これまで議論してきたように、保持時間情報には誤差が多く含まれ、さらに擬陽性、擬陰性のピークもふくまれている。このような小汚いデータでスタディ①と②のMetabolite Featureリストを誤りなく完璧に統合するのは容易ではありません。
じゃあどうするかというと、スタディ①と②のメタボロームデータセットをまとめて新規にMetabolite Featureリストを生成することになります。処理後のデータを統合できないので、データをまとめて処理し直そうというアイデアですね。これは、データ数が数100程度の時には、まだ実行可能ですが、数千を超える場合は、むちゃくちゃ時間のかかる作業になるでしょう。ちなみに800データくらいの処理をMetalign で行なったときは、ユニットマスに変換して高速化しておよそ10日程度かかりました。この方法の欠点は、同一化合物のMetabolite Featureを指し示すIDが多数できてしまうことです。たとえば、STUDY_1_ID0055のMFが新たに生成した統合データのMetabolite Featureのどれに相当するのか、完璧に対応するのは難しくさらに混乱を招きやすい欠点があります。このように、自動生成したMetabolite Featureリストをもとにノンターゲット分析を大規模化していくのには限界があるようにおもえます。

この問題を解決するには、データの処理法をターゲット型に変更するのが、現実的なように思えます。以前述べたように、ノンターゲット型のメタボローム分析のデータ処理のうち、Metabolite Featureリストの作成部分と、定量部分を分離しよう。そしてMetabolite Featureリストの作成部分の成果を共有しよう。というアイデアです。たとえば、尿のメタボロームデータから検出されるMetabolite Featureの完璧なリストを手作業で作成し、そのマルチターゲット分析を行えばよい。本気でやるとこんな感じになるでしょうか。

複数の研究室で尿メタボロームコンソーシアムを作る。
このコンソーシアムのメンバーは、尿から検出された新規Metabolite Featureが、ノイズでもアーティファクトでもないことを示し、コンセンサスMetabolite Featureリストへの追加を提案する。また、頻回に観察されるノイズやアーティファクトのKnown-unknown metabolite FeatureもコンセンサスMetabolite Featureリストへの追加する。
コンソーシアムで話し合い、承認が得られたらIDを付与してコンセンサスMetabolite Featureリストへ追加する。
コンセンサスMetabolite Featureリストをもちいて、定量パートを実施する。生成したデータマトリクスにふくまれるMetabolite FeatureのIDには、互換性があるのでスタディ間の比較も容易になる。

また、各研究室では、

各スタディ毎に新規にMetabolite Featureリストを生成する。検出したMetabolite Featureのうち代謝物由来のシグナルで、コンセンサスMetabolite Featureリストにないものを探索する。
コンセンサスMetabolite Featureリストに新規Metabolite Featureを追加し、研究室内ローカルコンセンサスMetabolite Featureリストを作成する。
新たに追加したMetabolite Featureは次回のコンソーシアムで追加を提案する。

のような流れでデータ解析を行えばいいと思います。これはあくまでも本気で大規模解析をするためのインフラなんですが、そろそろメタボローム分析が本気を出す時期、でもあるとおもいます。

バイオ情報計測学は舟でゆく

2015年5月10日日曜日

ノンターゲットメタボローム分析の課題その６　Metabolite Featureのリストアップ

0 件のコメント:

コメントを投稿

2015年5月10日日曜日

ノンターゲットメタボローム分析の課題その６ Metabolite Featureのリストアップ

0 件のコメント:

コメントを投稿

ノンターゲットメタボローム分析の課題その６　Metabolite Featureのリストアップ