バイオ情報計測学は舟でゆく: ノンターゲットメタボローム分析の課題その３

ノンターゲットメタボローム分析のデータ取得から、データ処理、データマトリクス生成のプロセスをもう少し細かく細分すると

LC-MSを用いたデータの取得
保持時間の補正
Metabolite Featureのリストアップ
Metabolite Featureの強度値の算出
欠損値の処理
強度値の補正
Metabolite featureへの構造関連情報の付与

となります（ソフトウェアによって考え方が異なるので、これ以外にもありえます）。既存のデータ処理ソフトウェア (XCMS, Metalign, MZMine, ProgenesisQI等)は1スタディ内で取得した1セットのLC-MSメタボロームデータを上記手順で解析し、データマトリクスを生成します。ノンターゲット分析でつかわれる、Metabolite Feature、Known-known, Known-unknown metabolite featuresという用語について軽く触れ、上記データ処理法を再構成してみます。

Metabolite Feature

LC-MSメタボロームデータ中に観察される、代謝物由来のシグナルを Metabolite Feature (ion feature, peak の場合もあり)などと呼びます。Metabolite Feature とは、質量電荷比 m/z = yの選択イオンクロマトグラム上で保持時間 x min に観察されるピークのことです（インフォマティストにはpeakという言葉に違和感があるらしい）。したがって、ある代謝物由来のMetabolite Feature は、LC-MS データの（x、y）座標上の位置として指し示すことができます。また、Metabolite Feature のMS/MS, MSスペクトルをMSと表記すると、あるMetabolite Feature の物理化学特性は[x, y, MS]として定義できるでしょう。注意すべきは、１つの代謝物から、モノアイソトピックイオン、同位体イオン、フラグメントイオン、多価イオン等が生成する点です。つまり、１つの代謝物の代表的な Metabolite Feature 以外を除去する必要があります。

Known-known, Known-unknown metabolite features

観察された Metabolite Feature に対して構造情報を付与します。たとえば、尿サンプルでいつも観察される既知 (Known) の Metabolite Feature が、クレアチンと同定されて既知 (Known) 化合物であったとき、この Metabolite Feature は Known-known である。とよびます。一方、尿サンプルからよく観察される既知 (Known)のMetabolite Featureが、いまだ未同定 (Unknown) であるとき、Known-unknownと呼びます。

データ処理の再構成

上記の(1)-(7)のデータ処理項目の内、

(1) LC-MSを用いたデータの取得、(2) 保持時間の補正

を分析パートとすると、

(3) Metabolite Feature のリストアップ

はデータセット中に存在する、Metabolite Featureをリストアップする検出パートの作業であるといえます。この時点で見つかったMetabolite Feature は、Known-unknownになるといえます（諸説ある）。ついで、定性パートの

(7) Metabolite featureへの構造関連情報の付与

を経過すると、Metabolite Featureリストの一部のMetabolite Featureが化合物同定され、Known-known になります。

定量パートでは、Known-unknown と Known-known からなるリスト中の個々の Metabolite Feature について、

(4) Metabolite Feature の強度値の算出

(5) 欠損値の処理

(6) 強度値の補正

を行っていきます。

分析、検出、定性、定量パートは必ずしも一括で行う必要がない点が要注意です。たとえば、標準化合物の分析により作成した、Known-known な Metabolite Feature のリストを用いて、分析パートの処理の後、定量パートを実施すれば、いわゆるターゲット分析が実施できます（CE-TOF-MSでよく行われる）。また、Known-knownのリストに、過去に尿サンプルから検出された Known-unknown の Metabolite Feature を追加し、定量パートを実施すれば未知代謝物も含めたターゲット分析も実施できちゃいます。

さらに、同じ分析メソッドを用いている人たちの間で、類似のサンプルを分析すれば、同じMetabolite Feature[x, y, MS] が観察されるので、たとえば、尿から検出される Known-unknown の Metabolite Featureのリストをシェアできます。 Known-unknown な Metabolite FeatureにそれぞれIDを付与すると、機能未知遺伝子に付与された遺伝子コードと同様、構造未知であるID9040のMetabolite Featureが増加した。と記載できるようになります。GC-MSではMass spectral tag (MST)という同様の試みがすでにおこなわれています。また、定性パートでも、どこかの誰かが、Known-unknown の構造を決定して、Known-known にしてくれると、同じ分析メソッドを用いる別の人の分析でもそのMetabolite Feature はKnown-known として取り扱えるはずです。ID9040がじつは、アラニンだったと後からわかったとき、ID9040=アラニンという情報を共有することで、アノテーション情報を豊富にできます。

ノンターゲットメタボローム分析を考えるときにはどうやら、

新規Metabolite Featureをさがす検出

と、

Known-unknown Metabolite Featureのシグナル強度を決める定量

は分けて考えるのがよさそうです。

それから、

尿、血清、血漿のように、よく似たサンプルを多数分析する場合には、複数の研究室で同一（互換性のある）の分析法を採用する。

のがよさそうです。ひとつの分析法に、できる限り多くのKnown-unknown な Metabolite Feature とアノテーション情報を積むことができれば、どんどん分析法が「かしこく」なり、分析データから得られる生物学的な知見を増やすことができます。目的を達成するための手段があるならするしかありませんが、問題は、それ、ができるのか？なのも明らかです。

バイオ情報計測学は舟でゆく

2015年4月24日金曜日

ノンターゲットメタボローム分析の課題その３

Metabolite Feature

Known-known, Known-unknown metabolite features

データ処理の再構成

0 件のコメント:

コメントを投稿