2015年4月24日金曜日

清水研雑誌会 4/24

今日の雑誌会はD1の日浅さんでXiong et al. Integrated transcriptomic and proteomic analysis of the global response of Synechococcus sp. PCC7002 to high light stress.Mol Cell Proteomics. 2015 14(4):1038-53でした

光合成をする微生物に二酸化炭素から直接バイオ燃料やバイオプラスチックを作らせることができればとても有用です。どんどん光合成をしてCO2固定してもらうには、強い光をあててやると良いんですが、あまり光が強すぎると光合成が逆に阻害されてしまうという問題点もあります。Synechococcus sp. PCC7002という光合成微生物はもともと強光条件にすこし耐性があるといういい特性をもっていますが、強光耐性メカニズムがわかればもっとも強くする手法を見つけることができません。こういうとき、通常と強光条件での全遺伝子の発現量がわかれば、強光条件でのみ強く発現している遺伝子は、耐性に関係しているかもしれません。そこで本研究ではRNAseqという最新の手法で遺伝子発現量の比較を行なっています。しかし、遺伝子の発現量アップ=>翻訳産物のタンパク質アップとは必ずしもならない。といわれています(はっきりしたことはよくわかていません)。そこで、TMTというタグを使ったプロテオーム解析で、タンパク質発現量の網羅的な比較も行なっています。わかったことは、強光条件で多数の遺伝子とタンパク質の発現量が増減するが、その間に明確な相関がない。とか、アンテナタンパクが減るとか、光化学系I, IIのタンパク質もへるとか、逆にRuBisCOの発現量は増えるとか、DNA修復系があがるとか、さまざまななことがわかりましたす。また、遺伝子とタンパク質の発現量が同時に向上した遺伝子群のなかには、その遺伝子を欠損させると強光耐性が大きく低下するものがあることもみつかりました。網羅的な解析をすると、なんでもわかるわけではありませんが、なんとなく全体の雰囲気がわかる点が大きいです。さらに、そこからさまざまな仮説が生成できて、次の実験につながります。また、興味深い機能を持った新規遺伝子の発見にもつながる投げ縄ツールとしても便利です。研究開始時のとっかかりをつかむためのツールといえるでしょう。もちろん新規遺伝子の機能を予測するだけでは研究にならないので、遺伝学的、生化学的に実験して検証する必要はもちろんあります。今回の論文では欠損変異株で遺伝学的な機能解析をやっている点がえらいですね。

二人目はM1の野村君で、Zhang et al. A fast sensor for in vivo quantification of cytosolic phosphate in Saccharomyces cerevisiae.Biotechnol Bioeng. 2015 May;112(5):1033-46

です。酵母細胞内のリン酸濃度をはかる新技術です。マルトースを資化できない酵母株に、

  • Maltose phosphrylase: glucose + G1P = maltose + Pi, Keq1 = 4.5
  • beta-phosphoglucomutase: G6P = G1P, Keq2 = 0.053

の2反応を触媒する酵素を強発現し、これらの反応を化学平衡と見なせるようにします。
そうすると、glucose、G6P、maltoseの細胞内濃度から次式で
Pi = [glucose][G6P]/[maltose] * Keq1 * Keq2
リン酸濃度が測定できたようです。という報告です。さらに、glucose、G6P、maltoseが細胞質にしかないと仮定すると、細胞質中のPi濃度がはかれたことになります。本当に平衡になっているの?細胞質中のglucose、G6P、maltose濃度をどうやってしらべるの?などのつっこみどころはありますが、すごい萌え萌えの手法です。ふたりともチャレンジングな論文を上手に説明できていました。

ノンターゲットメタボローム分析の課題その3

ノンターゲットメタボローム分析のデータ取得から、データ処理、データマトリクス生成のプロセスをもう少し細かく細分すると

  1. LC-MSを用いたデータの取得
  2. 保持時間の補正
  3. Metabolite Featureのリストアップ
  4. Metabolite Featureの強度値の算出
  5. 欠損値の処理
  6. 強度値の補正
  7. Metabolite featureへの構造関連情報の付与

となります(ソフトウェアによって考え方が異なるので、これ以外にもありえます)。既存のデータ処理ソフトウェア (XCMS, Metalign, MZMine, ProgenesisQI)1スタディ内で取得した1セットのLC-MSメタボロームデータを上記手順で解析し、データマトリクスを生成します。ノンターゲット分析でつかわれる、Metabolite Feature、Known-known, Known-unknown metabolite featuresという用語について軽く触れ、上記データ処理法を再構成してみます。

Metabolite Feature

LC-MSメタボロームデータ中に観察される、代謝物由来のシグナルを Metabolite Feature (ion feature, peak の場合もあり)などと呼びます。Metabolite Feature とは、質量電荷比 m/z = yの選択イオンクロマトグラム上で保持時間 x min に観察されるピークのことです(インフォマティストにはpeakという言葉に違和感があるらしい)。したがって、ある代謝物由来のMetabolite Feature は、LC-MS データのxy)座標上の位置として指し示すことができます。また、Metabolite Feature MS/MS, MSスペクトルをMSと表記すると、あるMetabolite Feature の物理化学特性は[x, y, MS]として定義できるでしょう。注意すべきは、1つの代謝物から、モノアイソトピックイオン、同位体イオン、フラグメントイオン、多価イオン等が生成する点です。つまり、1つの代謝物の代表的な Metabolite Feature 以外を除去する必要があります。

Known-known, Known-unknown metabolite features

観察された Metabolite Feature に対して構造情報を付与します。たとえば、尿サンプルでいつも観察される既知 (Known) の Metabolite Feature が、クレアチンと同定されて既知 (Known) 化合物であったとき、この Metabolite Feature は Known-known である。とよびます。一方、尿サンプルからよく観察される既知 (Known)Metabolite Featureが、いまだ未同定 (Unknown) であるとき、Known-unknownと呼びます。

データ処理の再構成

上記の(1)-(7)のデータ処理項目の内、
(1) LC-MSを用いたデータの取得、(2) 保持時間の補正
を分析パートとすると、
(3) Metabolite Feature のリストアップ
はデータセット中に存在する、Metabolite Featureをリストアップする検出パートの作業であるといえます。この時点で見つかったMetabolite Feature は、Known-unknownになるといえます(諸説ある)。ついで、定性パートの
(7) Metabolite featureへの構造関連情報の付与
を経過すると、Metabolite Featureリストの一部のMetabolite Featureが化合物同定され、Known-known になります。
定量パートでは、Known-unknown と Known-known からなるリスト中の個々の Metabolite Feature について、
(4) Metabolite Feature の強度値の算出
(5) 欠損値の処理
(6) 強度値の補正
を行っていきます。

分析、検出、定性、定量パートは必ずしも一括で行う必要がない点が要注意です。たとえば、標準化合物の分析により作成した、Known-known な Metabolite Feature のリストを用いて、分析パートの処理の後、定量パートを実施すれば、いわゆるターゲット分析が実施できます(CE-TOF-MSでよく行われる)。また、Known-knownのリストに、過去に尿サンプルから検出された Known-unknown の Metabolite Feature を追加し、定量パートを実施すれば未知代謝物も含めたターゲット分析も実施できちゃいます。
さらに、同じ分析メソッドを用いている人たちの間で、類似のサンプルを分析すれば、同じMetabolite Feature[x, y, MSが観察されるので、 たとえば、尿から検出される Known-unknown の Metabolite Featureのリストをシェアできます。 Known-unknown な Metabolite FeatureにそれぞれIDを付与すると、機能未知遺伝子に付与された遺伝子コードと同様、構造未知であるID9040のMetabolite Featureが増加した。と記載できるようになります。GC-MSではMass spectral tag (MST)という同様の試みがすでにおこなわれています。また、定性パートでも、どこかの誰かが、Known-unknown の構造を決定して、Known-known にしてくれると、同じ分析メソッドを用いる別の人の分析でもそのMetabolite Feature はKnown-known として取り扱えるはずです。ID9040がじつは、アラニンだったと後からわかったとき、ID9040=アラニンという情報を共有することで、アノテーション情報を豊富にできます。
ノンターゲットメタボローム分析を考えるときにはどうやら、
  • 新規Metabolite Featureをさがす検出

と、
  • Known-unknown  Metabolite Featureのシグナル強度を決める定量
は分けて考えるのがよさそうです。
それから、
  • 尿、血清、血漿のように、よく似たサンプルを多数分析する場合には、複数の研究室で同一(互換性のある)の分析法を採用する。
のがよさそうです。ひとつの分析法に、できる限り多くのKnown-unknown な Metabolite Feature とアノテーション情報を積むことができれば、どんどん分析法が「かしこく」なり、分析データから得られる生物学的な知見を増やすことができます。目的を達成するための手段があるならするしかありませんが、問題は、それ、ができるのか?なのも明らかです。





2015年4月22日水曜日

ノンターゲットメタボローム分析の課題その2

LC-MSを用いた通常のいわゆるターゲット分析では、事前に測定対象の検出位置(保持時間、質量電荷比)を決め、検量線を作成してシグナルのレスポンスと含量との関連をつけます。ターゲット分析のデータ処理では、既知の検出位置でのシグナルの強度値を抜き出して、その値から対象化合物の試料中含量を算出することです。ターゲットを特定している限り、対象化合物数や、サンプル数がどれだけ増加しても同じアプローチでデータを処理できるんですが、ターゲット以外の成分の予期せぬ変化を見つけ出すことはできません。
 一方、ノンターゲット型のメタボローム分析では得られる情報を最大化するため、分析ターゲットをあらかじめ特定せず、測定データ中に含まれるすべてのシグナルを解析対象とします。分析データ中に含まれるすべてのMetabolite Feature(ピーク)を網羅的に検出し、それらの強度を数値化してから、サンプル間で共通して存在するシグナルを認識して、データを行列化し、各サンプル中でそれぞれのシグナルが、どれくらいの強度で検出されるかを記録した表(データマトリクス)を出力します。その上で、あらかじめ標準物質をもちいて取得したスペクトラムデータと照合して、各シグナルに代謝物情報を付与していきます(アノテーション)。このようなデータ処理を行うための専用ソフトウェアが必要になりますが、すでに、データ処理ソフトウェアが複数開発、市販され (XCMS, Metalign, MZMine, ProgenesisQI)、それらを用いた数10から数100サンプル規模のスタディが数多く実施されてきました。

しかし、まだまだ技術的な課題が多く残されています。
  • 同一データを4種の市販ソフトで解析したとき共通して検出できたMetabolite Featureは全体の7%だった(Rapid Commun Mass Spectom (2015), 29. 119)。
  • データのクオリティーを評価する方法がない。
  • 化合物の同定がうまくできない。
  • 複数のスタディの統合が難しい。

これまで、これらの問題に関する最近の論文を紹介してきました。今後、より大規模なノンターゲットメタボローム分析を実施し、研究室間でのデータ共有していくには、何が必要なのか、どうすればいいのか考えていきます。

2015年4月20日月曜日

ノンターゲットメタボローム分析の課題その1

LC-MSを用いたノンターゲットあるいはアンターゲット(non-targeted, un-targeted)型のメタボローム分析はデータ処理に対する考え方が、通常のターゲット型定量分析と大きく異なります。これまでの小規模なノンターゲット分析から、大規模化するための検討事項、および研究室間でのデータ共有むけて標準化すべき課題の洗い出しをおこなってみましょう。これから下記の点について議論していきます。
  • LC-MS分析メソッド
  • LC-MS動作の基準およびその確認法
  • 分析法全体のバリデーション法
  • 保持時間のアライメント用のテンプレートデータファイルの共有、標準化
  • コンセンサスMetabolite Featureリスト (Known-unknowのリスト)
  • コンセンサスMetabolite Featureリストを管理するコンソーシアム
  • 堅牢なピーク面積の決定法
  • ピーク面積処理結果のQuality assessment
  • globalQCより上位のMasterQCサンプル
  • global QCを設定する際の考え方
  • QCサンプルを挟む頻度などのランオーダー
  • QCを用いた強度値補正法
  • 検出器感度補正用内部標準物質の種類および濃度
  • 化合物オントロジーシステム
  • 化合物を「同定した」とみなす基準
  • ヒト代謝物同定jamboree開催

2015年4月17日金曜日

清水研雑誌会4/17


1人目はM1の森田君で Borodina et al. Establishing a synthetic pathway for high-level production of 3-hydroxypropionic acid in Saccharomyces cerevisiae via beta-alanine. Metab Eng. 2015 Mar 10;29:86-96. Metab Eng. 2015 Jan;27:57-64. doi: 10.1016/j.ymben.2014.10.003.です。3-ヒドロキシプロピオン酸 (3HP) はポリマー原料のアクリル酸に変換可能な有機酸です。これを微生物に生産させて培地中の3HPが増加すると、培地のpHが下がってしまい、微生物の元気がなくなってしまうという問題がありました。そこで、もともと低pHに強い出芽酵母に3HP生産能力を付与した、という論文です。まず酵母細胞内に構築する3HPの合成経路の吟味をしています。3HP合成経路は4つくらいあるのですが、フラックスバランス解析による代謝シミュレーションを行ない、通気条件などの比較検討から、beta-alanine経路が最も適していると結論しています。つぎに、実際に他生物種の酵素遺伝子を酵母に組み込んで、3HP合成経路を構築します。問題はどの酵素遺伝子を選ぶか?その酵素が酵母でも機能するのか?などの課題があります。タンパク質のin silico モデリングをつかって酵素を選んでます。あとは、さまざまな生物種由来の酵素遺伝子株を組み込んだ酵母株をたくさん作成して、発酵試験をでいいものを選び、最後はFed-batchでtiter13.7 g /Lを力業でたたき出すという流れでした。酵母の代謝工学の教科書みたいな仕事ですね。森田君の力業が炸裂するのが楽しみです。

2人目はD1の徳山君で Chiam et al. Rational design of a synthetic Entner-Doudoroff pathway for improved and controllable NADPH regeneration.Metab Eng. 2015 Mar 10;29:86-96. doi: 10.1016/j.ymben.2015.03.001.です。長鎖DNA断片を自在に合成できる時代になりました。おおよそどんな配列でも(お金がある限り)合成できます。本研究では大腸菌にZymomonas mobilis由来のEntner-Doudoroff経路を機能させることを目指し、zwf, pgi, edd, eda & pgi 遺伝子の配列を、コドン最適化、リボソーム停止配列の除去、5'UTR, 3'UTR配列の最適化を行なった EDオペロン (ED1.0) を設計、合成しています。もうゲノムDNAから遺伝子をPCRでクローニングしたりしません。次に、各遺伝子の翻訳効率をファインチューニングするために、翻訳開始点のRibosomal binding site (RBS)の配列をRBSライブラリものとランダムに取り替えた改変EDオペロンを387種作成し (MAGE法というかっこいい名前がついてます)、その効果をNADPH依存蛍光タンパクを用いてハイスループットに評価しています。おしゃれです。このオペロンをイソプレノイドNeurosporene生産株に組み込んで生産量がざっと2倍 (2 mg/g DCW => 4 mg/g DCW)になりました。この研究がすごいのはED1.0の設計までは人間技なんですが、残りは全部システム化されている(=自動化できる)点です。最初のオペロン設計、構築部分も原理的に自動化可能だとおもうので、zwf, pgi, edd, eda & pgi 遺伝子をオペロン化していいやつを選んでね、と自動化システムに指令すればあとはマシーンがやってくれる。かも、という時代のその先をがんばって切り開いていきましょう。B4にもわかりやすい発表でした。

2015年4月16日木曜日

ピーク?ピークじゃない?


LC-MSを用いたノンターゲットメタボローム分析では、いきなりサンプルをLC-MSで分析し、出現したピークをすべて根こそぎ検出することで、予期せぬ代謝成分の含量変化を検出することを目指します。LCをもちいた定量分析にご経験をお持ちのかたはそこで、ん?と思われたはずです。そんなことできるんですかい?と。LCのクロマトグラムから目的のピークをうまく検出してほしいのだけど、クロマト処理ソフトのパラメーターを感度を下げると目的のピークが検出されず、感度を上げると今度はとなりの夾雑物ピークが検出される。という経験を多くの分析屋がお持ちのことだと思います。ましてや高分解能の質量分析装置がはき出すデータからどうやってピークをうまく見つけ出すのか、難しそうだなぁうまくいくのかなぁと疑問におもわれるのもあながち間違いではありません。じつは間違いだらけなのです。
ピークピッキングのまちがいには2種類あります。1つ目はピークじゃないノイズなどをピークだと誤認識する場合です。これをfalse positiveと呼びます。2つめは代謝物由来のピークを認識しそこねた場合です。これをfalse negativeと呼びます。ピークの認識を鋭敏にした場合、false negativeは減りますが、false positiveは増えてしまうでしょう。そのまた逆も可なり。といえます。では、false positiveとfalse negativeのどちらを避けるべきでしょうか?予期せぬ変化を見逃したくないというノンターゲット分析法の目的から言うと、false negativeは不味いですよね。というわけで、ノンターゲット分析用のピークピッキングソフトウェアが出力するマトリクスには、非常に多くのfalse positiveが含まれています。印象としては6-8割くらいがfalse positiveだとおもっていいようです。
それじゃああんまりなので何とかならないかといろいろ各ソフトウェアが工夫しています。多くの場合、同位体イオンの有無や、ピーク形状でのフィルタリングなどが行なわれてきましたが、ほんとに有効なのかについてのベンチマークはありませんでした。
Zhang et al. Review of Peak Detection Algorithms in Liquid-Chromatography-Mass Spectrometry (2009) Curr Genomics. 2009 Sep; 10(6): 388-401.はこの問題をとりあつかった渋いレビューです。MZmine, msImpactなどが採用しているピークピッキングアルゴリズムを説明後、プロテオーム分析のシミュレーションデータを解析して、えられたROCカーブから

  • ピーク検出の閾値とする指標として、同位体イオンの有無やS/N比よりピーク強度がいい
  • ピーク形状でのフィルタリングはfalse negativeを増やしてしまう。

というデータを示しています。もう少し、いろんなデータをもちいた検証が必要なんですが、スマートな理屈はクロマトの現実の前に敗北する。という歴史がまた繰り替えられているようですね。
ベンチマーク用データセットを用いてピークピッキングソフトウェアの各機能の性能評価行い、客観的な評価を積み上げていくことが今後もとくに重要だと思われます。

2015年4月14日火曜日

保持時間の補正法

LC-MSを用いたノンターゲット型のメタボローム分析では、複数のメタボローム分析生データの間で、同じ保持時間、同じ質量電荷比 (m/z) に検出された代謝物由来のシグナル(ピーク)を「同じ代謝物のピーク」と認識します。ですので、あるピークの保持時間、質量電荷比が常に同じでないと困ったことになります。質量電荷比 (m/z) はほとんど一定に保つことは可能ですが、ピークの保持時間はLCの条件およびコンディションに依存しているため、どうしても前後に変動してしまいます。

このままだと、ピークの認識ミスにつながるので(同じ代謝物を別のものだと勘違いしたり、異なる代謝物を同じものだと勘違いしたりします)、保持時間を補正してぴったりそろうようにします。
保持時間の補正法には大きく分けて2種類の考え方があります。1つ目は、
・各メタボローム分析生データ毎にピークピッキングを行う。
・ある基準となるデータのピークリストにもっともぴったり重なるように、各データのピークリストの保持時間を補正する。
というものです。Lange et al.Critical assessment of alignment procedures for LC-MS proteomics and metabolomics measurements. BMC Bioinformatics (2008), 9:375 はこの方法で補正を行うソフトウェア、msInspect, MZmine, XCMSなどのパフォーマンスを比べたものです。著者らはソフトウェア間のパフォーマンスの差より、パラメーターのチューニングが大事だと結論しています。どういうことかなーと論文に示された結果をみても、この方法、どのソフトでもあんまりうまくいっていないみたいなんですよね。なので、パラメーターのチューニングが大事だという結論になるみたいです。
そこで、2つ目の方法です。現在利用可能なピークピッキングソフトウェアはおおよそこちらで保持時間補正を行っております。
・ある基準メタボローム分析生データにもっともぴったり重なるように、各メタボローム分析生データのクロマトグラムを前後ずらして補正する。
・補正後のメタボローム分析生データ毎にピークピッキングを行う。
ものです。こちらの方法についての性能比較はありませんが、Vu et al.Getting Your Peaks in Line: A Review of Alignment Methods for NMR Spectral(2013) Data Metabolites 2013, 3, 259-276 はNMRのデータ処理を題材に生データの補正法をレビューしています。補正法だけで20種類くらいあるのですが、LC-MSデータの補正でよく見るのはCorrelation Optimized Warping (COW) です。私も2004年頃にLC-PDAやLC-MSのメタボロームデータの保持時間補正にCOWを活用しており、下記のような補正をパワフルに行ってくれます



では補正されるんだから保持時間のことは気にしなくてもいいのか。といえばそれは違います。これまでの経験則から申し上げますと、補正はあくまでも補正にすぎず、完璧には補正はできません。ピークの誤認識を減らすには、データ取得時の分析法を工夫し、そもそも補正をしなくてもうまくいきそうなくらい保持時間のそろったデータをとることが何よりも大事です。その上で補正をかけるとかなりうまくいくようです。

1つ目に紹介した、ピークリスト作成後の保持時間補正があまりうまくいかない。とは、異なるスタディから得られた2つのデータマトリクス(ピークリスト)の統合がうまくいかないということを意味しています。近年、ノンターゲットのメタボロームデータを1年、2年の単位でとりためて、最終的に統合して解析したいんです(臨床検体サンプルを10-20サンプルずつ適時分析して、最後にデータを統合したい)というお話をお聞きしますが、数十サンプルの分析=>データマトリクス生成=>保持時間補正によるデータマトリクスの統合という流れは技術的に難しいかもしれません。そうなりますと、全サンプルをまとめて保持時間の補正=>全部をまとめたデータマトリクスの一挙生成というワークフローになります。全サンプルをまとめた保持時間の補正を成功させるには、データの保持時間がそろっていることが上述のように大事です。つまり、長期間にわたるLC-MSの分析について、保持時間を一定に保つべく分析屋がウデを大いにふるう余地があります。保持時間がずれない分析をする心構えはまた後日議論します。

2015年4月12日日曜日

欠損値の補間方法

ノンターゲットメタボロームデータから、ピークピッキングソフトウェアを用いて作成したデータマトリクスには、結構空欄があります。これを欠損値(missing value)と言います。およそ20%が欠損値だともいわれています。


欠損値のあるマトリクスの例。白いところが欠損値


空欄が生じる原因は(i)ピークの強度が低く検出できなかった。(ii)ピークピッキングに失敗した。などがありえます。できてしまうものはしょうがないのでこのままデータの解析に進むことになりますが、一つ不具合が生じます。多くの多変量解析では欠損値を許容しないため何か数字を入れる必要があるのです。ではどんなシグナル強度値で補間 (impute) するのが正しいのでしょうか?これまで、

  1. 適当に小さめの値(0.01とか)を入れる
  2. その代謝物シグナルの強度値をサンプル間で比較したときの最小値の1/2
  3. その代謝物シグナルの強度値をサンプル間で比較したときの同じく平均値
  4. サンプル毎に計算したノイズレベル

などが欠損値の補完に用いられてきました。しかし、どれも全く根拠がありませんでした。だれもがほんとにこれでいいの??とおもいつつもケチをつけてもしょうがないということで、知らんぷりを決め込んでいた節があります。Metalignがいいのは、4の方法で、欠損値を補完しておいてくれるため、悩みが1つ減る点にありました。最近優秀なバイオインフォマティストがメタボローム分析に興味を持ってくれはじめたらしく、欠損値の補間方法について検討した論文が相次いで報告されています。

Hrydziuszko et al. Missing values in mass spectrometry based metabolomics: an undervalued step in the data processing pipeline Metabolomics (2012) 8:S161-S174

によると、欠損値は低強度の代謝物シグナルで頻発する傾向があり、ランダムに分散しているわけではないようです。また、3の平均値よりは、1.2.4などの小さめの値のほうが、多変量解析の結果に与えるゆがみはまだ少ないようでした。いままで4を用いてきた身としてはほっとさせられる結果です。しかしもっともリースナブルな補間結果をもたらしたのは、weighted k-nearest neighbour algorithm (kNN) です。サンプル間でよく似た変動をする他の代謝物シグナルを5つくらい探しだし、欠損値をその線形和で回帰して予測する手法です。似たもの同士では欠損値もにているはずだ。と考えるわけです。

Gromski et al. Influence of Missing Values Substitutes on Multivariate Analysis of Metabolomics Data. Metabolites (2014), 4:433-452

では、さらに詳細に検討を加え、random forest (RF) imputationがkNNよりもよいと結論しています。これらの報告は、メタボローム分析における欠損値の取り扱いに明確な指針を示したという意味で、すごくインパクトがあります。また、random forestって回帰や判別を行うための最新のノンパラメトリック法の一つなんですが、超モダンな統計解析技術がばりばりとメタボローム分析に応用され始めているのをみるとわくわくしてしまいますね。


2015年4月10日金曜日

ノンターゲット分析用ピークピッキングソフトウェア性能比較

ノンターゲットメタボローム分析では、ピークピッキング、データの整列化を行うための特殊なソフトウェアが必要になります。
Coble et al.Comparative evaluation of preprocessing freeware on chromatography/mass spectrometry data for signature discovery.J Chromatogr A. 2014;1358:155-64. は、Metalign, MZmine, SpectConnect, XCMSという、4種のフリーで使えるピークピッキングソフトウェアの性能を比較し、検出できたピークの割合がGC-MSのデータで、Metalign 83%, MZmine 60%, SpectConnect 47%, XCMS 41%、LC-MSのデータでMetalign 80%, MZmine 35%, XCMS 45%と、Metalignが圧勝だったことを報告しています。8年近くもやもやしていた点がすっきりしてうれしい限りです。一方、ソフトウェアの顔ぶれに8年間あまり変化がなかったようなので、この分野がやや停滞していたのかなと思うとちょっと残念な気もします。また、結果の解析から単独のソフトウェアでは見落としがあり得ある。と議論しています。バイオマーカーの探索を行う場合は、同じデータセットを複数のソフトウェアを用いて解析することが重要なようです。

さらに Niu et al. の Comparative evaluation of eight software programs for alignment of gas chromatography-mass spectrometry chromatograms in metabolomics experiments. J Chromatogr A. 2014;1374:199-206. では、GC-MSのデータを用いて、SpectConnect, MetaboliteDetector 2.01a, MetAlign 041012, MZmine 2.0, TagFinder 04, XCMS Online 1.21.01, MeltDB, GAVINの8種のソフトウェアを比較して、MetaboliteDetector 2.01aとMetAlign 041012が一番良かったと結論しています。やはりMetAlignは見込んだ通り、かなり根性があるみたいですね。

※MetaboliteDetectorは本家がリンク切れです。開発止まっちゃったんでしょうか?

ちなみに同様の比較を商用ソフトでおこなったRaflei et al. Comparison of peak-picking workflows for untargeted liquid chromatography/high-resolution mass spectrometry metabolomics data analysis. Rapid Commun Mass Spectrom 2015;29(1):119-27では、同一のデータセットを4種のソフト Peakview, Markerview, MetabolitePilot, XCMS Onlineで処理したところ、4つすべてで共通して検出できたのは全体のたった7%だったという衝撃の結果を報告しています。この結果から、一つのソフトウェアでのみ検出されたピークはFalse positiveである可能性が高いので、複数のソフトウェアで共通して検出されるピークを信用するべきである。とCoble et al.とはことなる結論に達しております。
ノンターゲット分析のニーズが年々高まり、ユーザーが増えてきたおかげで、ピークピッキングソフトウェアの比較検討もおこなわれるようになってきたんだと思われます。ただ、結論が混乱しているように、ピークピッキングソフトウェアには、まだまだ改良の余地が多く残されています。何かもう一つブレークスルーが足りないんですよね。しかし、最近になってProgenesis QIのようなかなり本気の市販ソフトも現れるなと、ピークピッキングソフトウェア群雄割拠の時代が近づいているようです。今後の動向と進展に期待大です。
だれかProgenesis QIとMetAlignの比較をしてくれないかな。。

2015年4月8日水曜日

ターゲット分析とノンターゲット分析

質量分析装置を用いたメタボローム分析には大きく分けて2つの考え方があります。
ターゲット分析 (targeted analysis) では、まずはじめに分析する対象化合物を決めます。標準化合物などを用いてクロマトグラム上で対象化合物が溶出する時間と質量電荷比 m/z を確認します。実サンプルを分析し、対象化合物のピーク強度を測定します。たくさんの化合物を計測したいときは、分析対象化合物の数を増やせばいいです。上限はありません。本法のいいところは、従来の分析を考え方が全く同じなため、既存のソフトウェアを用いてピークピッキングなどのデータ処理ができる点にあります。一方、本法ではターゲット化合物以外の予期せぬ変化を見逃してしまいます。

ノンターゲットまたはアンターゲット分析 (nontargeted or untargeted analysis) では、事前に測定対象を決めません。いきなり実サンプルを分析します。たくさんのピークが検出されますので、そのすべての強度値を調べます(ピークピッキング)。サンプル間で各ピークのシグナル強度を比較できるようデータを整列化して、データマトリクスを出力します。これでは、各ピークがどの代謝物に由来するかわかりませんので後から、データベース検索を行ってピーク同定を行います。本法のいいところは、サンプル内の代謝物組成の予期せぬ変化を見つけることができる点です。一方、従来の分析法を考え方が逆なため、ピークピッキング、データの整列化を行うための特殊なソフトウェアが必要な点があげられます。

私が2004年ころにノンターゲット分析に着手した頃はピークピッキング、データの整列化を行うためのソフトウェアがほとんどありませんでした。唯一利用できたMSFACTsではうまく処理できず、しかたなく自力でPerl scriptを書いたりしました。まずLCMS (島津LCMS2010)のデータをNetCDF形式に変換した後、バイナリファイルをテキストに変換します。さらにテキストファイルを整数質量値*スキャン番号のマス目に強度値が入ったテーブル形式に変換し、COWToolsというクロマトグラムアライメントソフトウェアで保持時間の補正を行い、補正後のデータを用いてピークピッキング、データの整列化をおこなうスクリプトを書きました。必要はなんとやらというもので、論文に使える仕事ができたのでありますが、素人プログラムの限界も明らかでした。
そこで、2006年からQ-TOFのデータを用いて本格的にノンターゲット分析を実施するに当たり、その頃登場していたフリーのソフトウェアXCMS, Metalign, MZmineを一通り試用しました。そのときの印象として、XCMSはピークの取りこぼしが多い、MZmineは同位体イオンの考慮などのおしゃれ機能があるが、そのせいで取りこぼしが多い、MetalignはFalse positiveも相当多いが、取りこぼしが少ない根性のあるpeak pickerである。というものでした。正解がうまく検出されないよりは、ゴミピークの中に正解が埋もれている方がまだましである。と考え、以降の植物二次代謝産物のノンターゲットメタボローム分析はMetalignを一貫してもちいてきました。が、本当にこの判断が正しかったのかまったく自信はなかったのです。

つづく

2015年4月6日月曜日

ピーク形状の品質評価法

細胞内にふくまれる代謝物の定量には、液体クロマトグラフィー―質量分析装置 (LC-MS)などを用います。LC-MSを使うと、代謝物はクロマトグラム上のピークとして検出されます。ピークの面積と代謝物濃度が比例します。そこで、メタボローム分析では、多数のピークを自動的に検出して面積値のリストを出力してくれる便利なプログラムが大活躍します。が、小さいピークになるとノイズの影響を強く受けてしまい、がたがたしたジグザグのヘンな形のピークになってしまうことがあります。そういうピークの面積値はあまり信用ができません。しかし、プログラムが書き出した面積値のリストを見てもどのピークの形がジグザグなのかはわかりません。なので、どうしても確認したいときは、人間の目で確認する必要がありました。
Zhang et al. Quality evaluation of extracted ion chromatograms and chromatographic peaks in liquid chromatography/mass spectrometry-based metabolomics data. BMC Bioinformatics 2014, 15(Suppl 11):S5 はピーク形状を評価する新しい指標、その名も zigzag index を提案した論文です。きわめて簡単な方法(クロマトグラム上の隣接するポイントの距離を計算する)で計算したzigzag indexが、ガウス分布への適合度やS/N比などの従来法にくらべてピーク形状の品質評価指標として圧倒的に優れていることを示しています。
クロマトグラムの解析技術とは、スマートな理論が現実に敗北し続けた死屍累々の歴史でもあるわけですが、この zigzag index がいいところは、

  • そもそものきっかけが実務家の魂の叫びとも言うべきニーズから始まっている。
  • スマートな理屈抜きでかつ簡潔

な点です。かなり使えそうな印象です。実際のメタボロームデータを用いた検証がもう少し必要ですが、こういう技術がどんどん発展していくとうれしいですね。