2015年7月31日金曜日

Phenomicsのためのメタボローム分析精度管理

これまで本ブログでアジってきましたノンターゲット型メタボローム分析技術の課題をどんとまとめてお話しさせていただく機会をいただきました。

Waters MSフォーラム - トランスレーショナルリサーチ


「Phenomicsのためのメタボローム分析精度管理」という演題で大規模なノンターゲット型(グローバル)メタボローム分析は実現可能なこと、そのためにはどんなふうに本気を出せばいいのかについての展望を議論したいと思います。みなさまお誘いあわせの上ぜひご参加ください。

2015年7月22日水曜日

ノンターゲットメタボローム分析の課題その16 化合物オントロジーシステム

化合物オントロジーシステムは、CAS, BioCyc, PubMed, ChiBiなどが独自に構築をすすめています。これらのシステムでは、既知化合物の分類を目指したオントロジーシステムです。ただもともと代謝物のアノテーション用に作られたシステムではないため、うーむ。という点も多く見られます。
Chebiはもっともオントロジーに力を入れているデータベースです。トリプトファンは
D-tryptophan (CHEBI:16296)
L-tryptophan (CHEBI:16828)
tryptophan (CHEBI:27897)
と、IDが振られており、
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
L-tryptophan (CHEBI:16828) is a tryptophan (CHEBI:27897)
というオントロジーも定義されています。すごくいい感じです。
しかし、
tryptophan (CHEBI:27897) = CAS 54-12-6
だとも定義されています。このCAS 54-12-6はNISTの定義によるとD体とL体が1:1のラセミ体のトリプトファンなので、Chebiのコードでは、トリプトファンのMetabolite featureに構造情報を付与できない。。。という残念な状況です。また
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
というオントロジーもtryptophan (CHEBI:27897)がラセミ体だとすると、厳密には誤りなんです。おしいです。
さらには、化合物データベースには、構造未知、あるいは部分構造しか決まっていない化合物は収録されていないので(あたりまえですよね)、構造未知化合物の構造情報を記述するオントロジーは未整備な点も多いです。例えば、あるmetabolite feature MF003がトリプタミンの水酸化物というわかった場合、
tryptamines (CHEBI:27162)
というトリプタミン類縁体を示すオントロジーがあるので、現時点では
MF003 is a tryptamines (CHEBI:27162)
と書いておくのが最も正確です。
しかし、もうちょっと詳しく書きたいですよね、
たとえば、5-hydroxytryptamine (serotonin) は、
serotonin (CHEBI:28790) is a tryptamines (CHEBI:27162)
serotonin (CHEBI:28790) has functional parent tryptamine (CHEBI:16765)
と定義されていますので、
MF003 has functional parent tryptamine (CHEBI:16765)
と書けますが、水酸化物という構造情報が記述できないんですな。
MF003 is a derivative (OH) of tryptamine (CHEBI:16765)
とか書けるといいんですけど、動詞部分をいじるのはオントロジー屋さんはいやがるでしょうね。。
そこで、
MF003 has functional parent tryptamine (CHEBI:16765) (hydroxylation)
みたいな形容詞を定義できるとより柔軟にオントロジーが扱えていいと思われます。
また、化合物オントロジーシステムにはいくつかの体系があり得えます。chemical structure(構造での分類), metabolic pathway(経路での分類), biological activity(活性での分類), origin(生物種由来での分類など)を整備できればデータ解析が楽しくなると思われます。



2015年7月15日水曜日

ノンターゲットメタボローム分析の課題その15 部分同定しかできていないMetabolite featureをどのように記述するか?

 Metabolite featureには、構造未知のものが多く含まれます。これらのMetabolite featureについて、質量分析データに基づき、下記のような部分的な構造情報が付与されるでしょう。

  • 精密質量数から得られた組成式の候補
  • MS/MSスペクトルの類似性やフラグメントパターンから推定された部分構造

 たとえば、Metabolite feature MFID002について、精密質量数から組成式がC11H12N2O3であり、MS/MSスペクトルの類似性からトリプトファン類縁体であるとわかったとき、このMetabolite featureは「トリプトファン水酸化物で、水酸化位置が不明なもの」と推定されます。しかし、平面構造が未決定の化合物のCAS番号やInChIKeyは存在しないため、Metabolite feature の記述子としては利用できません。したがって化合物オントロジーをもちいた記述が必要となってきます。たとえば、”トリプトファン類縁体”、”水酸化物”のようなオントロジーワードを用意すれば、トリプトファン水酸化物を記述できるようになるかと思います。どうやら化合物のCAS番号やInChIKeyよりもオントロジーの法がメタボローム分析では大事、みたいですね。

2015年7月8日水曜日

ノンターゲットメタボローム分析の課題その14 Metabolite featureとしてのトリプトファンをどのように記述するか?

Metabolite featureの記述法を統一しないと混乱が生じます。2つのスタディで取得したメタボロームデータの、同じMetabolite featureが、スタディ間で別の名前になっていたら(別々の記述子で指し示されたら)、かなり残念なことになります。特に、パスウェイへの投影とか、統合解析が困難になるのは言うまでもありません。さらにめんどくさいのは、化合物の表記法をCASやInChIKeyに統一すればよい、という問題ではない点に、よく注意を払う必要があります。たとえば、普通のメタボローム分析で、Metabolite feature MFID0001がトリプトファンと同定されたとき、MFID0001とは、D-トリプトファンとL-トリプトファンが未知の割合で混合したものであると考えるのが普通ですよね。生体中には、D-トリプトファンが一定の割合で存在し、通常の分析はD体とL体を分離できないからです。このとき、L-トリプトファンや、D-トリプトファンのCAS番号やInChIKeyは不適切ですよね。あとラセミ体のトリプトファンのCAS番号やInChIKeyも不適切であります。このように、単独の構造を指し示すCAS番号やInChIKeyがMetabolite feature の記述子として適切ではない場合があり得る、というのがややこしいのです。
通常われわれが、このピークをトリプトファンと同定したという場合、そこで、指し示しているのは、「D-トリプトファンとL-トリプトファンが未知の割合で混合したもの」である以上、それを指し示す記述法を作るしかありません。遺伝子の機能はオントロジーを作ることで、整理することが可能となりました。このように、化合物オントロジーとしての「トリプトファン」があれば便利そうです。「トリプトファン」とは、アミノ酸および芳香族アミノ酸に包含され、D-トリプトファンとL-トリプトファンを包含するオントロジーとして定義されていればよい。つまり、Metabolite featureの記述を行うには化合物オントロジーシステムの存在が前提となります。

2015年7月3日金曜日

ノンターゲットメタボローム分析の課題その13 Metabolite featureの構造関連情報の記述法

 尿、血清サンプルのノンターゲットメタボロームデータ中に観察されるMetabolite featureには、化合物情報、あるいは構造関連情報が付与されます。アノテーションといいます。このピークはトリプトファンのピークです。というような具合ですね。
 たとえば前述のコンセンサスMetabolite FeatureリストでMFID0001と定義されている、保持時間2.1分、m/z 205.15に観察される、MS/MSスペクトルMS2をもつMetabolite featureがトリプトファンであると同定され、Known-Knownになったとします。
 このアノテーション情報をもとに、パスウェイへの投影とか、他のオミクス情報と融合して解析を行いたくなるわけですが、そのとき、MFID0001(保持時間 2.1 min, m/z 205.15, MS/MS MS2) になんて書けばいいでしょうか?トリプトファン、Trp?, tryptophan?, CAS?InChIKey?のどれがいいでしょうか?これが共通化されないと、統合解析なんて夢のまた夢です。でも、標準化はこれまで(努力はされましたが)ほとんど実現していません。なぜかというと、アノテーション法に以下のような技術的な課題があり、さらに問題の所在そのものがよく認識されていないからです。


  1. 化合物名をどのように記述するか?
  2. 部分同定しかできていないMetabolite featureをどのように記述するか?
  3. 化合物オントロジーシステムの管理
  4. 「同定した」とみなす基準とはなにか?コンセンサスをどのようにとるか?


以下何回かに分けてこれらの点について議論します。