また、恩師の上野民夫先生(京都大学名誉教授)からは、「マスは重さしかわからないから、マスだけで構造は決められないけど、重さが決まるのがすごいんや」と薫陶をうけてきた身としては、MS/MSスペクトルからの構造推定を"Small molecule identification"と呼ぶインフォマティクスの皆さんの感覚に、ものすごく違和感がありなんか違うアプローチがないものかといろいろ考えていた結果を今回論文にまとめることができました。
F. Matsuda. Regular expressions of MS/MS spectra for partial annotation of metabolite features. Metabolomics (2016) 12:113
例えばMassBankレコードのPeonidin-3-O-α-arabinoside (PR100453)のMS/MSスペクトルデータを数字で書くと
PK$PEAK:
m/z int. rel.int.
258.0558 810 2113
286.0496 2159 301
301.0719 7171 999
433.1134 1231 171
//
m/z int. rel.int.
258.0558 810 2113
286.0496 2159 301
301.0719 7171 999
433.1134 1231 171
//
となりますが、強度値を無視して無理やり文字列にすると
C14H10O5:C14H10O5;C1O1:C15H10O6;C1H3:C16H13O6;C5H8O4:C21H21O10;
とも書けます。[ニュートラルロスの化学式]:[フラグメントイオンの化学式];の繰り返しです。
文字列といえば正規表現ですよね。そうすると、peonidin-pentosideのヒドロキシル化 or メチル化orメトキシ化物にマッチする正規表現は、
(C14H10O5|C14H10O6|C15H12O5|C15H12O6):([CHONS][0-9]*)+;(C1O1|C1O2|C2H2O1|C2H2O2):([CHONS][0-9]*)+;(C1H3|C1H3O1|C2H5|C2H5O1):([CHONS][0-9]*)+;(C6H10O5|C6H10O6|C7H12O5|C7H12O6):([CHONS][0-9])+;
C16H11O5;C1H2O1:([CHONS][0-9]*)+;C2:([CHONS][0-9]*)+;C2H8O4:([CHONS][0-9]*)+;
という正規表現で定義することができそうです。次にある代謝物のMS/MSスペクトルに、この正規表現にマッチすれば、その代謝物はCHEBI:83280 (flavone C-glycoside)というIDを持った化合物として”部分”構造決定ができるんじゃないかなー。などのアイデアが展開されていますのでその筋の方はぜひご覧ください。
本研究では西岡孝明先生(京都大学名誉教授)、有田正規先生(遺伝学研究所)、尾嶌雄也氏(MassBank)が作成されたfragment ion and neutral loss matrixデータが極めて重要な役割を果たしました。改めて心より御礼もうしあげます。また澤田有司博士、山田豊氏 (理化学研究所生物資源研究所)、櫻井望博士、秋元奈弓博士(かずさDNA研究所)の皆さんにはデータベース化および研究に関する貴重なご助言をいただきました。ありがとうございました。
個人的には研究者人生で一度は単著論文が書けてヤターというのはナイショであります。