2015年4月24日金曜日

ノンターゲットメタボローム分析の課題その3

ノンターゲットメタボローム分析のデータ取得から、データ処理、データマトリクス生成のプロセスをもう少し細かく細分すると

  1. LC-MSを用いたデータの取得
  2. 保持時間の補正
  3. Metabolite Featureのリストアップ
  4. Metabolite Featureの強度値の算出
  5. 欠損値の処理
  6. 強度値の補正
  7. Metabolite featureへの構造関連情報の付与

となります(ソフトウェアによって考え方が異なるので、これ以外にもありえます)。既存のデータ処理ソフトウェア (XCMS, Metalign, MZMine, ProgenesisQI)1スタディ内で取得した1セットのLC-MSメタボロームデータを上記手順で解析し、データマトリクスを生成します。ノンターゲット分析でつかわれる、Metabolite Feature、Known-known, Known-unknown metabolite featuresという用語について軽く触れ、上記データ処理法を再構成してみます。

Metabolite Feature

LC-MSメタボロームデータ中に観察される、代謝物由来のシグナルを Metabolite Feature (ion feature, peak の場合もあり)などと呼びます。Metabolite Feature とは、質量電荷比 m/z = yの選択イオンクロマトグラム上で保持時間 x min に観察されるピークのことです(インフォマティストにはpeakという言葉に違和感があるらしい)。したがって、ある代謝物由来のMetabolite Feature は、LC-MS データのxy)座標上の位置として指し示すことができます。また、Metabolite Feature MS/MS, MSスペクトルをMSと表記すると、あるMetabolite Feature の物理化学特性は[x, y, MS]として定義できるでしょう。注意すべきは、1つの代謝物から、モノアイソトピックイオン、同位体イオン、フラグメントイオン、多価イオン等が生成する点です。つまり、1つの代謝物の代表的な Metabolite Feature 以外を除去する必要があります。

Known-known, Known-unknown metabolite features

観察された Metabolite Feature に対して構造情報を付与します。たとえば、尿サンプルでいつも観察される既知 (Known) の Metabolite Feature が、クレアチンと同定されて既知 (Known) 化合物であったとき、この Metabolite Feature は Known-known である。とよびます。一方、尿サンプルからよく観察される既知 (Known)Metabolite Featureが、いまだ未同定 (Unknown) であるとき、Known-unknownと呼びます。

データ処理の再構成

上記の(1)-(7)のデータ処理項目の内、
(1) LC-MSを用いたデータの取得、(2) 保持時間の補正
を分析パートとすると、
(3) Metabolite Feature のリストアップ
はデータセット中に存在する、Metabolite Featureをリストアップする検出パートの作業であるといえます。この時点で見つかったMetabolite Feature は、Known-unknownになるといえます(諸説ある)。ついで、定性パートの
(7) Metabolite featureへの構造関連情報の付与
を経過すると、Metabolite Featureリストの一部のMetabolite Featureが化合物同定され、Known-known になります。
定量パートでは、Known-unknown と Known-known からなるリスト中の個々の Metabolite Feature について、
(4) Metabolite Feature の強度値の算出
(5) 欠損値の処理
(6) 強度値の補正
を行っていきます。

分析、検出、定性、定量パートは必ずしも一括で行う必要がない点が要注意です。たとえば、標準化合物の分析により作成した、Known-known な Metabolite Feature のリストを用いて、分析パートの処理の後、定量パートを実施すれば、いわゆるターゲット分析が実施できます(CE-TOF-MSでよく行われる)。また、Known-knownのリストに、過去に尿サンプルから検出された Known-unknown の Metabolite Feature を追加し、定量パートを実施すれば未知代謝物も含めたターゲット分析も実施できちゃいます。
さらに、同じ分析メソッドを用いている人たちの間で、類似のサンプルを分析すれば、同じMetabolite Feature[x, y, MSが観察されるので、 たとえば、尿から検出される Known-unknown の Metabolite Featureのリストをシェアできます。 Known-unknown な Metabolite FeatureにそれぞれIDを付与すると、機能未知遺伝子に付与された遺伝子コードと同様、構造未知であるID9040のMetabolite Featureが増加した。と記載できるようになります。GC-MSではMass spectral tag (MST)という同様の試みがすでにおこなわれています。また、定性パートでも、どこかの誰かが、Known-unknown の構造を決定して、Known-known にしてくれると、同じ分析メソッドを用いる別の人の分析でもそのMetabolite Feature はKnown-known として取り扱えるはずです。ID9040がじつは、アラニンだったと後からわかったとき、ID9040=アラニンという情報を共有することで、アノテーション情報を豊富にできます。
ノンターゲットメタボローム分析を考えるときにはどうやら、
  • 新規Metabolite Featureをさがす検出

と、
  • Known-unknown  Metabolite Featureのシグナル強度を決める定量
は分けて考えるのがよさそうです。
それから、
  • 尿、血清、血漿のように、よく似たサンプルを多数分析する場合には、複数の研究室で同一(互換性のある)の分析法を採用する。
のがよさそうです。ひとつの分析法に、できる限り多くのKnown-unknown な Metabolite Feature とアノテーション情報を積むことができれば、どんどん分析法が「かしこく」なり、分析データから得られる生物学的な知見を増やすことができます。目的を達成するための手段があるならするしかありませんが、問題は、それ、ができるのか?なのも明らかです。





0 件のコメント:

コメントを投稿