ノンターゲットメタボローム分析のデータ取得から、データ処理、データマトリクス生成のプロセスをもう少し細かく細分すると
- LC-MSを用いたデータの取得
- 保持時間の補正
- Metabolite Featureのリストアップ
- Metabolite Featureの強度値の算出
- 欠損値の処理
- 強度値の補正
- Metabolite featureへの構造関連情報の付与
となります(ソフトウェアによって考え方が異なるので、これ以外にもありえます)。既存のデータ処理ソフトウェア (XCMS, Metalign, MZMine, ProgenesisQI等)は1スタディ内で取得した1セットのLC-MSメタボロームデータを上記手順で解析し、データマトリクスを生成します。ノンターゲット分析でつかわれる、Metabolite Feature、Known-known, Known-unknown metabolite featuresという用語について軽く触れ、上記データ処理法を再構成してみます。
Metabolite
Feature
LC-MSメタボロームデータ中に観察される、代謝物由来のシグナルを Metabolite Feature
(ion feature, peak の場合もあり)などと呼びます。Metabolite Feature とは、質量電荷比 m/z = yの選択イオンクロマトグラム上で保持時間 x min に観察されるピークのことです(インフォマティストにはpeakという言葉に違和感があるらしい)。したがって、ある代謝物由来のMetabolite Feature は、LC-MS データの(x、y)座標上の位置として指し示すことができます。また、Metabolite Feature のMS/MS, MSスペクトルをMSと表記すると、あるMetabolite Feature の物理化学特性は[x, y, MS]として定義できるでしょう。注意すべきは、1つの代謝物から、モノアイソトピックイオン、同位体イオン、フラグメントイオン、多価イオン等が生成する点です。つまり、1つの代謝物の代表的な Metabolite Feature 以外を除去する必要があります。
Known-known, Known-unknown metabolite features
観察された Metabolite Feature に対して構造情報を付与します。たとえば、尿サンプルでいつも観察される既知 (Known) の Metabolite Feature が、クレアチンと同定されて既知 (Known) 化合物であったとき、この Metabolite Feature は Known-known である。とよびます。一方、尿サンプルからよく観察される既知 (Known)のMetabolite Featureが、いまだ未同定
(Unknown) であるとき、Known-unknownと呼びます。
データ処理の再構成
上記の(1)-(7)のデータ処理項目の内、
(1)
LC-MSを用いたデータの取得、(2)
保持時間の補正
を分析パートとすると、
(3)
Metabolite Feature のリストアップ
はデータセット中に存在する、Metabolite Featureをリストアップする検出パートの作業であるといえます。この時点で見つかったMetabolite Feature は、Known-unknownになるといえます(諸説ある)。ついで、定性パートの
(7)
Metabolite featureへの構造関連情報の付与
を経過すると、Metabolite Featureリストの一部のMetabolite Featureが化合物同定され、Known-known になります。
定量パートでは、Known-unknown と Known-known からなるリスト中の個々の Metabolite Feature について、
(4)
Metabolite Feature の強度値の算出
(5)
欠損値の処理
(6)
強度値の補正
を行っていきます。
分析、検出、定性、定量パートは必ずしも一括で行う必要がない点が要注意です。たとえば、標準化合物の分析により作成した、Known-known な Metabolite Feature のリストを用いて、分析パートの処理の後、定量パートを実施すれば、いわゆるターゲット分析が実施できます(CE-TOF-MSでよく行われる)。また、Known-knownのリストに、過去に尿サンプルから検出された Known-unknown の Metabolite Feature を追加し、定量パートを実施すれば未知代謝物も含めたターゲット分析も実施できちゃいます。
さらに、同じ分析メソッドを用いている人たちの間で、類似のサンプルを分析すれば、同じMetabolite Feature[x, y, MS] が観察されるので、 たとえば、尿から検出される Known-unknown の Metabolite Featureのリストをシェアできます。 Known-unknown な Metabolite FeatureにそれぞれIDを付与すると、機能未知遺伝子に付与された遺伝子コードと同様、構造未知であるID9040のMetabolite Featureが増加した。と記載できるようになります。GC-MSではMass spectral tag (MST)という同様の試みがすでにおこなわれています。また、定性パートでも、どこかの誰かが、Known-unknown の構造を決定して、Known-known にしてくれると、同じ分析メソッドを用いる別の人の分析でもそのMetabolite Feature はKnown-known として取り扱えるはずです。ID9040がじつは、アラニンだったと後からわかったとき、ID9040=アラニンという情報を共有することで、アノテーション情報を豊富にできます。
ノンターゲットメタボローム分析を考えるときにはどうやら、
- 新規Metabolite Featureをさがす検出
と、
- Known-unknown Metabolite Featureのシグナル強度を決める定量
は分けて考えるのがよさそうです。
それから、
- 尿、血清、血漿のように、よく似たサンプルを多数分析する場合には、複数の研究室で同一(互換性のある)の分析法を採用する。
のがよさそうです。ひとつの分析法に、できる限り多くのKnown-unknown な Metabolite Feature とアノテーション情報を積むことができれば、どんどん分析法が「かしこく」なり、分析データから得られる生物学的な知見を増やすことができます。目的を達成するための手段があるならするしかありませんが、問題は、それ、ができるのか?なのも明らかです。
0 件のコメント:
コメントを投稿