2015年7月22日水曜日

ノンターゲットメタボローム分析の課題その16 化合物オントロジーシステム

化合物オントロジーシステムは、CAS, BioCyc, PubMed, ChiBiなどが独自に構築をすすめています。これらのシステムでは、既知化合物の分類を目指したオントロジーシステムです。ただもともと代謝物のアノテーション用に作られたシステムではないため、うーむ。という点も多く見られます。
Chebiはもっともオントロジーに力を入れているデータベースです。トリプトファンは
D-tryptophan (CHEBI:16296)
L-tryptophan (CHEBI:16828)
tryptophan (CHEBI:27897)
と、IDが振られており、
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
L-tryptophan (CHEBI:16828) is a tryptophan (CHEBI:27897)
というオントロジーも定義されています。すごくいい感じです。
しかし、
tryptophan (CHEBI:27897) = CAS 54-12-6
だとも定義されています。このCAS 54-12-6はNISTの定義によるとD体とL体が1:1のラセミ体のトリプトファンなので、Chebiのコードでは、トリプトファンのMetabolite featureに構造情報を付与できない。。。という残念な状況です。また
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
というオントロジーもtryptophan (CHEBI:27897)がラセミ体だとすると、厳密には誤りなんです。おしいです。
さらには、化合物データベースには、構造未知、あるいは部分構造しか決まっていない化合物は収録されていないので(あたりまえですよね)、構造未知化合物の構造情報を記述するオントロジーは未整備な点も多いです。例えば、あるmetabolite feature MF003がトリプタミンの水酸化物というわかった場合、
tryptamines (CHEBI:27162)
というトリプタミン類縁体を示すオントロジーがあるので、現時点では
MF003 is a tryptamines (CHEBI:27162)
と書いておくのが最も正確です。
しかし、もうちょっと詳しく書きたいですよね、
たとえば、5-hydroxytryptamine (serotonin) は、
serotonin (CHEBI:28790) is a tryptamines (CHEBI:27162)
serotonin (CHEBI:28790) has functional parent tryptamine (CHEBI:16765)
と定義されていますので、
MF003 has functional parent tryptamine (CHEBI:16765)
と書けますが、水酸化物という構造情報が記述できないんですな。
MF003 is a derivative (OH) of tryptamine (CHEBI:16765)
とか書けるといいんですけど、動詞部分をいじるのはオントロジー屋さんはいやがるでしょうね。。
そこで、
MF003 has functional parent tryptamine (CHEBI:16765) (hydroxylation)
みたいな形容詞を定義できるとより柔軟にオントロジーが扱えていいと思われます。
また、化合物オントロジーシステムにはいくつかの体系があり得えます。chemical structure(構造での分類), metabolic pathway(経路での分類), biological activity(活性での分類), origin(生物種由来での分類など)を整備できればデータ解析が楽しくなると思われます。



0 件のコメント:

コメントを投稿