2017年7月22日土曜日

品質の良いマススペクトルとはなにか?

マススペクトルの議論では下記2点を分けて考えたほうが生産的です。
(1) 物理化学特性データとしてのマススペクトル
(2) 構造情報としてのマススペクトル

品質については、実験科学である以上、再現性という観点(のみ)が重要です。

物理化学特性データとしてのマススペクトル

物理化学特性データとしてのマススペクトルとは、融点やIRスペクトルと同じく、化合物の特性を示すデータです。化合物の調製、単離からマススペクトルの取得に至る方法が、論文に記載されることで再現性が担保されています。この方法で天然から単離した、合成して単離したこの化合物サンプルから、正しく校正された装置でマススペクトルを取得したら、こういうマススペクトルが得られた。という事実に価値があります。同じ手順を踏んで、化合物を調製し、同一の条件でマススペクトルを取得したら(不純物由来の夾雑シグナル等が含まれる可能性があったとしても)同一のデータが得られるはず。という再現性が、マススペクトルの一致を根拠とした化合物同定を可能とします。

したがって、再現性の良いマススペクトルであるかどうかを判定するには、
①正しく校正された装置、条件で取得されたことを担保する情報が必要
これをデータそのものから読み取るには、
※ピークの形状が良い(profileの対称性が良く、重心が真ん中)。
※容易に帰属可能なシグナル(いわゆる分子イオン[M+H]+, M+等)のm/z値が理論値と一致していること(どのくらい一致していたらいいかは後に議論します)。
が根拠になりえます。

②再現性と不純物
1回だけ取得したマススペクトルのシグナルに、不純物由来の夾雑シグナルやノイズが含まれるか判定する方法はありません。異なる由来の同一化合物から取得した複数のマススペクトルで共通して再現性良く観測されるシグナルが、その化合物由来である。と考えるのが妥当でしょう。
したがって、再現性の良いスペクトラムが1つだけある、という状況は考えにくいです。
異なる由来の同一化合物から(できれば異なる研究室や装置で)同一条件で取得した複数のマススペクトルが冗長に存在し、その上で、再現性の高いシグナルが多く含まれる信頼性の高いマススペクトルが判明する。という理路をたどっています。
さらに、厳密にいうと、再現性の高いシグナルが本当に化合物由来かどうかはわかりません。次に取得したデータでは再現せず、夾雑物由来のシグナルであることが判明する可能性があります。となると、再現性の良いスペクトラムというのは、現時点の仮説であって、以降の検証のためにも、冗長なマススペクトルの存在が重要です。
もっというと、冗長なマススペクトルの中に、ノイズや、夾雑物がふくまれるものが含まれていても問題ありません(冗長だからエラー校正ができる)。低品質なデータにもそれなりに使い道があるという点を強調したいと思います。

まとめ
化学者にとって、重要な物理化学特性データとしてのマススペクトルとは、信用できるデータのことです。

  • きちんと校正された装置で取得したかどうかあとから検証可能になっていること
  • 再現性をあとから検証するために、事実としてのスペクトルを多数集積されていること。

が大事であると思います。現在のMassBankがいいのは、一部データが冗長に収集されているため、上記のような検証が可能な点です。玉石混交であってもいろいろあることに事実として価値があります。
データの信用とは、理屈に合う合わないではなく、再現するかしないかのみにあります。どんなに理論に合わなくても、再現して観測されるシグナルがあれば、理論を修正するべきです。
事実としてのスペクトルのうち、現時点で最も信頼性が高いと考えられるものを指定することができます。しかし、将来的には間違いである可能性は排除できません。一方、「高品質」である。という主張は上記手続きとは関係がないため、化学者としてあまり関心がありません。

構造情報としてのマススペクトル

m/z値=>組成式を推定=>フラグメント構造に帰属する、という作業を実施する際に、精密質量電荷比データがあると、組成式の推定が容易(候補が減る)となります。MassBankにはOjimatrixという、組成式帰属情報が収集されており、宝物のようなデータとなっております。帰属結果からは部分構造に関する情報が読み取れる場合があります。ただしOjimatrixでもすべてのフラグメントイオンが帰属できたわけではなく、本当に正しいのかについては検証が常に行われ続けるべきであると思います。
m/z値から組成式を推定する際、m/z値と理論値とのずれをどこまで許容するか、という閾値を設定する必要があります。妥当な閾値は、精密質量電荷比の実測値のばらつきの標準偏差 S の2.5-3倍です(2倍では5%のシグナルでミスが生じると期待されます。)。したがって、構造情報として有用なマススペクトルの必須条件の1つは

  • 質量電荷比の実測値のばらつきの標準偏差が正確に既知であること

となります。現時点でこれを満たしているデータはMassBankにも1つもありません。
そのうえで

  • 閾値が1 - 5 ppm以内

であれば、プロダクトイオン、およびニュートラルロスの組成式を一意に推定できる可能性が増えます。ただこれは情報量が多く、便利なのであって、情報の質や信頼性とは関係がない点には注意が必要でしょう。ユニットマスのマススペクトルからでも有益な構造情報をえることは可能です。m/z値から組成式を推定が推定できると、誤差を含む数値データからおさらばして、記号化できます。
さらに、

  • フラグメントイオンが化学構造とユニークに関連づけることができるのに充分な数だけ観察されている≒できるだけ多くのプロダクトイオンが観察される

のも情報量が多く便利ではありますが、情報の質や信頼性とは関係がなく、分けて議論すべきだという点に注意を払うべきです。
できるだけ多くのプロダクトイオン情報を収集するという観点からは、コリジョン電圧を走査するRampモードでデータを取得する、とか、複数のスペクトルを合成するとか、MSnのイオンツリーとか、正規表現といった、いろいろな抽象化のアイデアが出てきます。物理化学特性データとしての事実としてのスペクトルではもはやありませんので、抽象化した「構造情報としてのスペクトル」として別に考えるべきでしょう。
たとえば、cDNA解析では同一mRNA由来のcDNAの冗長なリードから、mRNA全長配列の再構成がおこなわれました。サンガー法のエレクトロフェログラム(数値データ)から、ショートリードの配列(ATGC..)に記号化され、配列情報を再構成した仮想的、抽象的な全長配列が再構成されます。さらに配列情報の取り扱い方法が確立しており、信頼性評価が可能です。

これと同様に、複数の「物理化学特性データとしてのマススペクトル」から、組成式に記号化し、さらに再構成して抽象化した「構造情報としてのマススペクトル」を作成しようとしている。と考えることができます。
この場合は、「構造情報としてのマススペクトル」に含まれるフラグメントイオンの情報の信頼性は、できるだけ多くの「物理化学特性データとしてのマススペクトル」で再現性良く観測されること、に依存します。これを実現するには、「物理化学特性データとしてのマススペクトル」は冗長であることがとにかく重要です。
また、「構造情報としてのマススペクトル」の信頼性の評価法が必要です。この部分は現在研究段階にあり、研究を進めるには「物理化学特性データとしてのマススペクトル」がじゃぶじゃぶある。という状況を作るべきです。
現在のマススペクトルに関する誤謬の一つは、「物理化学特性データとしてのマススペクトル」の決定版が1つだけあり、そこからすべてが読み取れるというものです。GC-MSがそれにやや近いため生まれた誤謬であると思います。

他にも構造情報としてのスペクトルでは、

  • 帰属済みのシグナルのm/zは組成式で記述すべき
  • 構造情報としてのマススペクトルをどのように記述すればいいのか
  • スペクトルの分解能とでもいえる品質評価法がありえるのではないか

などの論点があります。またの機会に。

まとめ
構造情報としてのマススペクトルという観点から、広く公開されている情報は、MassBankのOjimatrixデータのみであるといえます。Ojimatrixデータの充実、信頼性の向上が、化合物同定のための品質向上につながります。一方、貴重なOjimatrixデータのうち、低品質なものを落とすとことにどれだけ意味があるのか不明ですが、もったいないというのが率直な感想です。
現状のOjimatrixデータは「物性情報としてのマススペクトル」を一部記号化した、注釈として位置づけられています。そこから抽象化の進んだ「構造情報としてのマススペクトル」はMassBankにはまた存在していません。存在しないものについて高品質であるかどうかは議論できません。また、信頼性=再現性=冗長性なので、現時点でできるとことは、データを収集、充実、整理していくこと以外にありません。

0 件のコメント:

コメントを投稿