2015年4月16日木曜日

ピーク?ピークじゃない?


LC-MSを用いたノンターゲットメタボローム分析では、いきなりサンプルをLC-MSで分析し、出現したピークをすべて根こそぎ検出することで、予期せぬ代謝成分の含量変化を検出することを目指します。LCをもちいた定量分析にご経験をお持ちのかたはそこで、ん?と思われたはずです。そんなことできるんですかい?と。LCのクロマトグラムから目的のピークをうまく検出してほしいのだけど、クロマト処理ソフトのパラメーターを感度を下げると目的のピークが検出されず、感度を上げると今度はとなりの夾雑物ピークが検出される。という経験を多くの分析屋がお持ちのことだと思います。ましてや高分解能の質量分析装置がはき出すデータからどうやってピークをうまく見つけ出すのか、難しそうだなぁうまくいくのかなぁと疑問におもわれるのもあながち間違いではありません。じつは間違いだらけなのです。
ピークピッキングのまちがいには2種類あります。1つ目はピークじゃないノイズなどをピークだと誤認識する場合です。これをfalse positiveと呼びます。2つめは代謝物由来のピークを認識しそこねた場合です。これをfalse negativeと呼びます。ピークの認識を鋭敏にした場合、false negativeは減りますが、false positiveは増えてしまうでしょう。そのまた逆も可なり。といえます。では、false positiveとfalse negativeのどちらを避けるべきでしょうか?予期せぬ変化を見逃したくないというノンターゲット分析法の目的から言うと、false negativeは不味いですよね。というわけで、ノンターゲット分析用のピークピッキングソフトウェアが出力するマトリクスには、非常に多くのfalse positiveが含まれています。印象としては6-8割くらいがfalse positiveだとおもっていいようです。
それじゃああんまりなので何とかならないかといろいろ各ソフトウェアが工夫しています。多くの場合、同位体イオンの有無や、ピーク形状でのフィルタリングなどが行なわれてきましたが、ほんとに有効なのかについてのベンチマークはありませんでした。
Zhang et al. Review of Peak Detection Algorithms in Liquid-Chromatography-Mass Spectrometry (2009) Curr Genomics. 2009 Sep; 10(6): 388-401.はこの問題をとりあつかった渋いレビューです。MZmine, msImpactなどが採用しているピークピッキングアルゴリズムを説明後、プロテオーム分析のシミュレーションデータを解析して、えられたROCカーブから

  • ピーク検出の閾値とする指標として、同位体イオンの有無やS/N比よりピーク強度がいい
  • ピーク形状でのフィルタリングはfalse negativeを増やしてしまう。

というデータを示しています。もう少し、いろんなデータをもちいた検証が必要なんですが、スマートな理屈はクロマトの現実の前に敗北する。という歴史がまた繰り替えられているようですね。
ベンチマーク用データセットを用いてピークピッキングソフトウェアの各機能の性能評価行い、客観的な評価を積み上げていくことが今後もとくに重要だと思われます。

0 件のコメント:

コメントを投稿