バイオ情報計測学は舟でゆく: 天然物っぽい化合物の見分け方

むかし、精密質量数から組成式を推定した結果の誤り度合いを見積もる方法について論文を書いたことがあります。化合物データベースの成長速度から植物二次代謝物が持ちうる全組成式の数を推定したり、in silico 構造変換とか、データベースのCompletenessなどの変な概念を導入したりと個人的には書いててとっても楽しかったんですが、マニアックに趣味に走りすぎたため、その筋の人にしかウケなかった論文でもあります。
要するに精密質量数から化合物の組成式を決定したいのですが、よく似た精密質量を持つ組成式が山ほどあるため、なかなか一つに絞り込むのは容易ではありません。検索の答えは天然物なので、天然物だけの完璧なデータベースがあればいいのですが、既存の天然物オンリーのデータベースはエントリーがものすごく不足しているみたいなんです（じつはどのくらい不足しているのかもわかっていない）。そこで、一般的なデータベースをつかうことになるんですが、そこには天然物と合成非天然化合物が区別なく放り込んであり、その見分けが簡単につかないという問題がありました。天然物っぽい化合物、あるいは組成式ってどんなの？というのがわかると、化合物同定作業がだいぶ楽になります。
その難しい課題に取り組んだのが、
Vanii et al. Natural product-likeness score revisited: an open-source, open-data implementation. BMC Bioinformatics 2012, 13:106
です。NP-likenessとか書いてあるので、天然物判定問題はNP完全なのかーそりゃ難しいわ、などとどきどきしましたが、NPはNatural productの略でした。そりゃそうですよね（でも絶対狙っていると思う）。とてもマニア度あふれる論文なんです。しかもどうやって天然物らしさを計算してるのかぜんぜん解らない（笑）。。
これで一応、ある化合物がどのくらい天然物っぽいかは調べられるようになったんですが、欲しいのは天然物だけの完璧なデータベースなんです。
Jeffryes et al. MINEs: open access databases of computationally predicted enzyme promiscuity products for untargeted metabolomics. Journal of Cheminformatics 2015, 7:44
はパスウェイ探索の手法を用いた新しいアプローチを示しています。酵素反応にはパターンがあります。そうすると、まだ報告されていないけど存在してもおかしくない酵素反応で既知の化合物をどんどん変換することができます。既存の天然物を、存在してもおかしくない酵素反応で変換してできた化合物は、きっと天然物に違いありません。KEGG COMPOUNDの化合物から、この方法で571,000個の構造を生成することに成功した。さらに、このうち93%はPubChemにない化合物だった。といっており、かなり完璧に近づいた天然物データベースができたみたいです。また我々が知っている天然物は、全天然物の１割以下らしいこともわかりました。以前の私の論文でも組成式レベルでのin silico構造変換にはチャレンジしており、けっこううまくいった（ぽい）ので、今後のメタボロームアノテーション用データベース整備は、データの収集にくわえて、in silico変換による拡張が鍵を握るのは間違いないでしょう。

バイオ情報計測学は舟でゆく

2015年10月8日木曜日

天然物っぽい化合物の見分け方

0 件のコメント:

コメントを投稿