2015年12月16日水曜日

pythonでnumpy用疎行列をつくる

代謝解析用ソフトウェアをpythonで書いています。疎行列を作成し、安定同位体の割合をnumpy.dot関数で計算します。その疎行列を作成する方法をいくつか試してみました。

100 * 100 の大きさで対角がすべて-1.0を作成します。

    data = 1.0
    for j in range(10000):
        x = numpy.zeros((100,100))
        for i in xrange(100):
            x[i][i] = data * -1.0

0.405 sec/10000回

    data = 1.0
    for j in range(10000):
        x = numpy.zeros(10000)
        for i in xrange(100):
            x[i*100+i] = data * -1.0
        x.resize((100,100))

0.296 sec/10000回


    for j in range(10000):
        y = [0.0] * 10000
        for i in xrange(100):
            y[i*100+i] = data * -1.0
        x = numpy.array(y)

        x.resize((100,100))

3.762 sec/10000回

でした。また、行列をべた書きするのも3-4秒かかることから、1次元のnumpy.arrayで作成し、numpy.resizeするのが最も高速。のようです。

もっと早くする方法があったら伝授のほどよろしくお願いします。



2015年11月20日金曜日

清水研雑誌会11/20

13C代謝フラックス解析は細胞内の代謝流束を決定できる強力な解析手法です。清水研のコア技術の1つで細胞内代謝を理解し、利用するための有用な知見をもたらしてくれます。これまでの13C代謝フラックス解析は、細胞内の定常状態を仮定するため、解析できる対象が変化しない、イメージで言うとずっと同じエンジン回転数、速度でクルーズしている自動車のような状態である必要がありました。定常状態でしか測れないため、定常状態の現象しか調べることができません。そこでか定常状態以外の代謝フラックスを測定する、上り坂にさしかかり、エンジン回転数や速度が変化するような動的な状態を測定する技術が求められています。今日の雑誌会で前田君(M1)が紹介してくれたMartinez et al.Dynamic metabolic flux analysis using B-splines to study the effects of temperature shift on CHO cell metabolism. Metabolic Engineering Communications. 2,46-57はそんな試みの一つです。細胞内外の物質収支の経時データをBスプラインカーブで近似して、細胞内の代謝物蓄積量の経時変化がゼロになるように、細胞内部のフラックス分布をバランスをとりながら解いていきます。本法はいわゆるDeterminedなシステムしか解析できませんが、これと13C標識を組み合わせたらUnderminedなシステムの解析もできるようになるかもしれませんね。

2015年10月8日木曜日

天然物っぽい化合物の見分け方

むかし、精密質量数から組成式を推定した結果の誤り度合いを見積もる方法について論文を書いたことがあります。化合物データベースの成長速度から植物二次代謝物が持ちうる全組成式の数を推定したり、in silico 構造変換とか、データベースのCompletenessなどの変な概念を導入したりと個人的には書いててとっても楽しかったんですが、マニアックに趣味に走りすぎたため、その筋の人にしかウケなかった論文でもあります。
要するに精密質量数から化合物の組成式を決定したいのですが、よく似た精密質量を持つ組成式が山ほどあるため、なかなか一つに絞り込むのは容易ではありません。検索の答えは天然物なので、天然物だけの完璧なデータベースがあればいいのですが、既存の天然物オンリーのデータベースはエントリーがものすごく不足しているみたいなんです(じつはどのくらい不足しているのかもわかっていない)。そこで、一般的なデータベースをつかうことになるんですが、そこには天然物と合成非天然化合物が区別なく放り込んであり、その見分けが簡単につかないという問題がありました。天然物っぽい化合物、あるいは組成式ってどんなの?というのがわかると、化合物同定作業がだいぶ楽になります。
その難しい課題に取り組んだのが、
Vanii et al. Natural product-likeness score revisited: an open-source, open-data implementation. BMC Bioinformatics 2012, 13:106 
です。NP-likenessとか書いてあるので、天然物判定問題はNP完全なのかーそりゃ難しいわ、などとどきどきしましたが、NPはNatural productの略でした。そりゃそうですよね(でも絶対狙っていると思う)。とてもマニア度あふれる論文なんです。しかもどうやって天然物らしさを計算してるのかぜんぜん解らない(笑)。。
これで一応、ある化合物がどのくらい天然物っぽいかは調べられるようになったんですが、欲しいのは天然物だけの完璧なデータベースなんです。
Jeffryes et al. MINEs: open access databases of computationally predicted enzyme promiscuity products for untargeted metabolomics. Journal of Cheminformatics 2015, 7:44  
はパスウェイ探索の手法を用いた新しいアプローチを示しています。酵素反応にはパターンがあります。そうすると、まだ報告されていないけど存在してもおかしくない酵素反応で既知の化合物をどんどん変換することができます。既存の天然物を、存在してもおかしくない酵素反応で変換してできた化合物は、きっと天然物に違いありません。KEGG COMPOUNDの化合物から、この方法で571,000個の構造を生成することに成功した。さらに、このうち93%はPubChemにない化合物だった。といっており、かなり完璧に近づいた天然物データベースができたみたいです。また我々が知っている天然物は、全天然物の1割以下らしいこともわかりました。以前の私の論文でも組成式レベルでのin silico構造変換にはチャレンジしており、けっこううまくいった(ぽい)ので、今後のメタボロームアノテーション用データベース整備は、データの収集にくわえて、in silico変換による拡張が鍵を握るのは間違いないでしょう。





2015年10月5日月曜日

二兎を追う者は

「二兎を追う者は一兎をも得ず」と言うように、2つのことをいっぺんにしようとすると、どちらもうまくいかない(ことがおおい)ものであります。メタボローム分析はそれにもかかわらず1回の分析で複数の代謝物を定量しようとしてるところにあふれるロマンがあるわけです。さらに、化合物の構造を決めつつ、その定量もしたいと、これまた欲張りに二兎を追っています。
Q-TOFは、四重極マスフィルターを用いたプリカーサー選択と、TOFの高速スキャン、高分解能を組合わせた装置です。あきらかに構造解析に特化したMS/MS取得用定性マシンです。Qを使わずにTOFとしてつかうと、定量にも使えなくはないが、感度もダイナミックレンジも十分とは言えない。というものでした。2000年代前半まではプロテオーム分析のペプチド同定用MS/MS取得マシンとして大活躍しておりました。が、その後より高分解能なOrbitrapの登場とともにその座を脅かされます。分解能では太刀打ちできないので、これまで高感度化、高ダイナミックレンジ化、高速化が推し進められてきました。その結果、定性にも定量にも使える二兎を追いたい人のための欲張り煩悩マシンとしてSWATHと言う分析モードが登場してきました。詳細はメーカーのHPをご覧くださいね。
SWATHがおもしろいのは、全チャンネルMRMという夢の定量モードにも見えますし、全プリカーサーMS/MSという夢の定性モードにも見えてしまう点です。SWATHを定量モードと見るか、定性モードと捉えるかは、分析屋のセンスの見せ所です。とにもかくにもこの調子で動作の高速化が進むと、m/z 100-1000の901プリカーサーイオンのMS/MSデータを取得などという、完全SWATHが実現するのも時間の問題、4-5年後にはできるようになるでしょう。そうなると、分析と定性、どちらも完璧に(厳密に言えば最高に完璧とはいえませんが)できちゃう、つまり、二兎を追っていたつもりが実は一匹の麒麟を追いかけていたというこれまたよくできたお話になるんじゃないかとわくわくしてしまいますね。

2015年9月17日木曜日

姫路振興策

高校時代は姫路城近くの高校に通っていた。姫路には姫路城があるが、姫路城しかないとも言える。姫路を観光で盛り上げるにはどうすればいいのか、三宮の居酒屋で高校時代の恩師と飲んでいるときにでたアイデアが以下の通り。
1.姫路忍者学校の創設。外国人向けに姫路忍者学校を創設する。もともと姫路は忍者に縁はないので、甲賀か伊賀、および忍たま乱太郎とフランチャイズ契約を結ぶ。学校用地は、城北の公園あたりに忍者屋敷を新築すればよい。日本人子供向け一日コースは忍たま乱太郎のキャラと遊べるというもの。2日コースは、2日続けて忍術学校で勉強して忍者試験に合格すると、卒業証書がもらえる。というもの。外国人向けコースの肝は、忍者学校として忍者の資格にランクをつけるというものである。たとえば、一日体験コースだと風ランク、2日連続コースを卒業すると林ランク(忍者証明書がもらえる)、姫路の学校と伊賀または甲賀の学校を両方卒業すると火ランク、一年間母国で修行を積み、再来日して修行の成果を披露すると山ランク、等と設定し、林ランクの有資格者はHPでその氏名を公開する。と言うのはどうだろうか。※姫路に一泊する状況をつくる、※他の観光地にも行くインセンティブをつける。※また日本に来る理由を作る。※ランクを公開して競争心をあおる。という仕掛けが必要と思われる。
2.姫路江戸の町並み計画。姫路城城下町をお江戸スタイルで再建する。たとえば、※城北の公園に伊勢のおかげ横町に似た感じの施設を作る。※東映太秦時代村を姫路城周辺に誘致する。※城周辺の商店街はいい感じで寂れているので再開発を行ない、彦根のような感じで江戸の町並みにする。正直姫路城周辺は観光地としてあまり魅力的ではない。バスで来て城見てそのまま帰る。という感じ。姫路に人々が求めているのはこじゃれた今風の商業施設ではなくずばり、江戸であろう。そこで、江戸風の町並みを再現することで、もうすこし姫路への滞留時間を延ばすことができるかもしれない。また、夜の花魁行列。とか、朝市などのイベントをくみこめれば、姫路に一泊する観光客を増やせる可能性有り。
3.姫路武道の拠点化計画。姫路=>城=>武士=>武道である。そこで次のような大会を主催する。姫路の武道館でもちいて1年間断続的に、高校生を対象とした剣道、柔道、弓道、相撲、将棋、囲碁の学校対抗団体戦大会を開く。各大会の成績毎に各高校にポイントを付与する。1年間の総ポイントが上位となった選抜8校の決着は、学校対抗の騎馬戦のトーナメントで決定する。会場は姫路城三の丸広場で、大将はその高校の校長となるだろう。優勝校およびその校長先生は次の大会までの1年間は、姫路城当番校および姫路城代を名乗ることができる。また、姫路市のカレンダーは、お世継ぎおよび姫の衣装をまとった生徒会長および役員、姫路城代の校長先生と大会参加メンバー全員の写真が組み込まれる。というのはどうだろう。一番になると姫路城代という称号がもらえて目立てる。というのはなんか、いいモチベーションにあると思われる。また、全校対抗の騎馬戦トーナメントはかなり盛り上がるだろう。さらに教育的にはあれだが、選抜8校トーナメント戦上位3校を予想投票してもらい、当選者には姫路地域振興券を配るとかもいいかも。みんな燃えるはず。

2015年9月11日金曜日

摩耶山振興策

以前神戸の摩耶ケーブル駅近くに住んでいたことがある。摩耶山頂はたいへん眺めがよい場所で、オテル・ド・摩耶とか、山頂駅のレストランとかいい観光資源もあるのに、人気スポットとは言えない。その理由は、交通の便がよくない点につきる。摩耶山頂にいく交通手段としてテンションが上がるのは、摩耶ケーブル、ロープウェーを乗り継ぐコースである。しかし、ふもと側の摩耶ケーブル駅が鉄道駅から遠く離れているため三宮か六甲道からのバスに乗っていかなくてはならず、不人気のためか摩耶ケーブルとバス路線の廃止がよく取りざたされている。この不便さを乗り越えられる振興策として六甲の飲み屋でかつて雑談した成果が以下の通り。
1.掬星台展望台についたてを設置する:交通事情が悪く、人があまりいない。しかしそういう場所であまり周囲を気にせず夜景を2人で見たいという需要は、すくなからずあると思われる。摩耶山展望台の手すり沿いの3メートルおきに、高さ2メートルくらいのついたて、あるいは隣からみえなくなるくらいの目隠しを作成すれば、低予算でそういう目的に応える施設になると考えられる。
2.三宮からの送迎リムジン、貸し切りロープウェー:そういうところに二人で行きたいと考える人たちにとってテンションが上がることが何よりも重要であり、そのための仕掛が必要である。おそらく誘う側は誘う相手のテンションを上げるために、多少のコストがかかってもよしとするだろう。そこで、予約すれば三宮や灘駅から摩耶ケーブル駅まで送迎リムジンを走らせれば、一気にサプライスモードに持ち込めると考えた。そこに、ケーブル、ロープウェーを貸し切りにするサービスもつければ、駅に着く=>リムジンが待ってる=>貸し切りロープウェーで山頂=>夕焼け、という感じでそのような需要に応えることも可能であると思われる。神戸市民なら2人で往復8000円、それ以外で14000円くらいならかなり行けるんじゃないだろうか。
3.ホテル・ド・マヤとの連携:山に登ると下りなくてはならない。せっかく上がったテンションもすこし下がってしまう。しかし摩耶山にはオテル・ド・摩耶がある。となると、夜7時に三宮か、新神戸からリムジン、貸し切りロープウェーで山に上がって、山頂駅のレストランでディナー、夜景を見た後、一泊。翌朝は朝早く三宮まで逆コースで帰る。というようなセットにすれば、大阪からとか、東京からあまり他の人にはあわずにぜひ夜景が見たいというお二人の需要にもこたえられる。
4.地元との連携:山頂でいいことがあった2人には灘区のレストランの割引券をつけるとか、結婚式場のスペシャルコースが使えるなどとすると地域経済にも貢献できる。重要なことは摩耶山頂に多くの思い出を持つ人が増えて、また行ってみたいと思うリピーターが増え、摩耶山ケーブル乗り場経由のバス路線が末永く存続することを地元住民は望んでいる。
5.JR摩耶駅開業はいい機会になるかもしれない。
6.これとは全く別であるが、摩耶山頂に高さ5メートルくらいランディー・バースの銅像を建立し、阪神甲子園球場の守り神とする。また、限定必勝お守りと風船を販売するという案も真剣に検討された。掛布、バース、真弓の3像とするなどの構想も議論されたが、やはりバースではないか。との意見が大勢を占めた。

2015年7月31日金曜日

Phenomicsのためのメタボローム分析精度管理

これまで本ブログでアジってきましたノンターゲット型メタボローム分析技術の課題をどんとまとめてお話しさせていただく機会をいただきました。

Waters MSフォーラム - トランスレーショナルリサーチ


「Phenomicsのためのメタボローム分析精度管理」という演題で大規模なノンターゲット型(グローバル)メタボローム分析は実現可能なこと、そのためにはどんなふうに本気を出せばいいのかについての展望を議論したいと思います。みなさまお誘いあわせの上ぜひご参加ください。

2015年7月22日水曜日

ノンターゲットメタボローム分析の課題その16 化合物オントロジーシステム

化合物オントロジーシステムは、CAS, BioCyc, PubMed, ChiBiなどが独自に構築をすすめています。これらのシステムでは、既知化合物の分類を目指したオントロジーシステムです。ただもともと代謝物のアノテーション用に作られたシステムではないため、うーむ。という点も多く見られます。
Chebiはもっともオントロジーに力を入れているデータベースです。トリプトファンは
D-tryptophan (CHEBI:16296)
L-tryptophan (CHEBI:16828)
tryptophan (CHEBI:27897)
と、IDが振られており、
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
L-tryptophan (CHEBI:16828) is a tryptophan (CHEBI:27897)
というオントロジーも定義されています。すごくいい感じです。
しかし、
tryptophan (CHEBI:27897) = CAS 54-12-6
だとも定義されています。このCAS 54-12-6はNISTの定義によるとD体とL体が1:1のラセミ体のトリプトファンなので、Chebiのコードでは、トリプトファンのMetabolite featureに構造情報を付与できない。。。という残念な状況です。また
D-tryptophan (CHEBI:16296) is a tryptophan (CHEBI:27897)
というオントロジーもtryptophan (CHEBI:27897)がラセミ体だとすると、厳密には誤りなんです。おしいです。
さらには、化合物データベースには、構造未知、あるいは部分構造しか決まっていない化合物は収録されていないので(あたりまえですよね)、構造未知化合物の構造情報を記述するオントロジーは未整備な点も多いです。例えば、あるmetabolite feature MF003がトリプタミンの水酸化物というわかった場合、
tryptamines (CHEBI:27162)
というトリプタミン類縁体を示すオントロジーがあるので、現時点では
MF003 is a tryptamines (CHEBI:27162)
と書いておくのが最も正確です。
しかし、もうちょっと詳しく書きたいですよね、
たとえば、5-hydroxytryptamine (serotonin) は、
serotonin (CHEBI:28790) is a tryptamines (CHEBI:27162)
serotonin (CHEBI:28790) has functional parent tryptamine (CHEBI:16765)
と定義されていますので、
MF003 has functional parent tryptamine (CHEBI:16765)
と書けますが、水酸化物という構造情報が記述できないんですな。
MF003 is a derivative (OH) of tryptamine (CHEBI:16765)
とか書けるといいんですけど、動詞部分をいじるのはオントロジー屋さんはいやがるでしょうね。。
そこで、
MF003 has functional parent tryptamine (CHEBI:16765) (hydroxylation)
みたいな形容詞を定義できるとより柔軟にオントロジーが扱えていいと思われます。
また、化合物オントロジーシステムにはいくつかの体系があり得えます。chemical structure(構造での分類), metabolic pathway(経路での分類), biological activity(活性での分類), origin(生物種由来での分類など)を整備できればデータ解析が楽しくなると思われます。



2015年7月15日水曜日

ノンターゲットメタボローム分析の課題その15 部分同定しかできていないMetabolite featureをどのように記述するか?

 Metabolite featureには、構造未知のものが多く含まれます。これらのMetabolite featureについて、質量分析データに基づき、下記のような部分的な構造情報が付与されるでしょう。

  • 精密質量数から得られた組成式の候補
  • MS/MSスペクトルの類似性やフラグメントパターンから推定された部分構造

 たとえば、Metabolite feature MFID002について、精密質量数から組成式がC11H12N2O3であり、MS/MSスペクトルの類似性からトリプトファン類縁体であるとわかったとき、このMetabolite featureは「トリプトファン水酸化物で、水酸化位置が不明なもの」と推定されます。しかし、平面構造が未決定の化合物のCAS番号やInChIKeyは存在しないため、Metabolite feature の記述子としては利用できません。したがって化合物オントロジーをもちいた記述が必要となってきます。たとえば、”トリプトファン類縁体”、”水酸化物”のようなオントロジーワードを用意すれば、トリプトファン水酸化物を記述できるようになるかと思います。どうやら化合物のCAS番号やInChIKeyよりもオントロジーの法がメタボローム分析では大事、みたいですね。

2015年7月8日水曜日

ノンターゲットメタボローム分析の課題その14 Metabolite featureとしてのトリプトファンをどのように記述するか?

Metabolite featureの記述法を統一しないと混乱が生じます。2つのスタディで取得したメタボロームデータの、同じMetabolite featureが、スタディ間で別の名前になっていたら(別々の記述子で指し示されたら)、かなり残念なことになります。特に、パスウェイへの投影とか、統合解析が困難になるのは言うまでもありません。さらにめんどくさいのは、化合物の表記法をCASやInChIKeyに統一すればよい、という問題ではない点に、よく注意を払う必要があります。たとえば、普通のメタボローム分析で、Metabolite feature MFID0001がトリプトファンと同定されたとき、MFID0001とは、D-トリプトファンとL-トリプトファンが未知の割合で混合したものであると考えるのが普通ですよね。生体中には、D-トリプトファンが一定の割合で存在し、通常の分析はD体とL体を分離できないからです。このとき、L-トリプトファンや、D-トリプトファンのCAS番号やInChIKeyは不適切ですよね。あとラセミ体のトリプトファンのCAS番号やInChIKeyも不適切であります。このように、単独の構造を指し示すCAS番号やInChIKeyがMetabolite feature の記述子として適切ではない場合があり得る、というのがややこしいのです。
通常われわれが、このピークをトリプトファンと同定したという場合、そこで、指し示しているのは、「D-トリプトファンとL-トリプトファンが未知の割合で混合したもの」である以上、それを指し示す記述法を作るしかありません。遺伝子の機能はオントロジーを作ることで、整理することが可能となりました。このように、化合物オントロジーとしての「トリプトファン」があれば便利そうです。「トリプトファン」とは、アミノ酸および芳香族アミノ酸に包含され、D-トリプトファンとL-トリプトファンを包含するオントロジーとして定義されていればよい。つまり、Metabolite featureの記述を行うには化合物オントロジーシステムの存在が前提となります。

2015年7月3日金曜日

ノンターゲットメタボローム分析の課題その13 Metabolite featureの構造関連情報の記述法

 尿、血清サンプルのノンターゲットメタボロームデータ中に観察されるMetabolite featureには、化合物情報、あるいは構造関連情報が付与されます。アノテーションといいます。このピークはトリプトファンのピークです。というような具合ですね。
 たとえば前述のコンセンサスMetabolite FeatureリストでMFID0001と定義されている、保持時間2.1分、m/z 205.15に観察される、MS/MSスペクトルMS2をもつMetabolite featureがトリプトファンであると同定され、Known-Knownになったとします。
 このアノテーション情報をもとに、パスウェイへの投影とか、他のオミクス情報と融合して解析を行いたくなるわけですが、そのとき、MFID0001(保持時間 2.1 min, m/z 205.15, MS/MS MS2) になんて書けばいいでしょうか?トリプトファン、Trp?, tryptophan?, CAS?InChIKey?のどれがいいでしょうか?これが共通化されないと、統合解析なんて夢のまた夢です。でも、標準化はこれまで(努力はされましたが)ほとんど実現していません。なぜかというと、アノテーション法に以下のような技術的な課題があり、さらに問題の所在そのものがよく認識されていないからです。


  1. 化合物名をどのように記述するか?
  2. 部分同定しかできていないMetabolite featureをどのように記述するか?
  3. 化合物オントロジーシステムの管理
  4. 「同定した」とみなす基準とはなにか?コンセンサスをどのようにとるか?


以下何回かに分けてこれらの点について議論します。

2015年6月28日日曜日

イノベーション

イノベーションって最近よく聞きます。日本語に訳すと「すごい」ですかね。イノベーションを起こす部下がほしい、あるいは育てたい、自分が率いる組織でイノベーションを起こすにはどうしればいいのかという話はいっぱいあります。ビジョンとか、融合、とか、風通しのいい組織とかですね。また、誰がどんなイノベーションを起こした(ジョブスはこうこうしてiPhoneがどうした)という実例にも事欠きません。そんな中で内田樹の「私家版・ユダヤ文化論」の終章は「イノベーションとはどんな人がおこすのか」について考察した珍しい論考です。本論における内田樹の議論はなかなかにまとめにくいのですが、文章を引用、改変しつつまとめると、

  • (ノーベル賞受賞や哲学者、芸術家のリストを見るに)ユダヤ人たちは多くの領域でイノベーションを担ってきた。
  • ユダヤ人たちが民族的な規模で開発することに成功したのは「自分が判断するときに依拠している判断枠組みそのものを懐疑する、自分が自己同一的に自分であるという自同律に不快を関知する(今をつくりかえてしまうよりよい何かがあると考え、そのために自分自身の限界を超えようとする)」能力である。イノベーションとはそういうことができる人によって担われる。
  • これはユダヤ教における特異な時間感覚に起因するらしい。
  • 「私はこれまでずっとここにいたし、これからもここにいる生得権利を有している」のではなく、「私は遅れてここにやってきたので、<この場所に受け容れられるもの>であることをその行動を通じて証明して見せなければならない」と考えるところから上記のようなイノベーティブな能力が生まれる。
  • 別の言い方をすると、「すでに存在するもの」の上に「これから存在するもの」を時系列に沿って積み重ねていこうとする思考ではなく、「これから存在せねばならぬもの(イノベーション)」を基礎づけるために「いまだ存在したことのないもの」を時間的に遡行して創造的な起点に措定しようとする思考がイノベーションを生む。
  • 私は遅れてここにやってきた、と考えることがイノベーションの起点である。これは善をめぐるアクロバティックな思考に由来する。
  • 私が過去に犯した罪について、神への恐れ、神の下すであろう厳正な裁きの予感が私を善に導くことはない。それは善ではなく恐怖であり、外部にある戒律に盲従して、処罰を免れようとする「幼児」である。
  • 自らの良心に基づいて善を指向する成熟した「大人」となるには、善への指向は私の内部に根拠を有するものでなくてはならない。それにはこう考えるしかない。人間はまず何かをして、それについて有責なのではない。人間はあらゆる行動に先んじて、私は自分の犯していない罪についてすでに有責なのである。「自分の犯していない罪」とは決してあってはならないことであるが、私の善性を基礎づけるために根源的な罪に関わる偽りの記憶を私は進んで引き受けなくてならない。「自分の犯していない罪」について有責であると認める、いいかえると、私は現在に対して返さなくてはならない借りがある。私は借りを返すためになにかしなくてはならない宿命を持つ。と考えることが善の起点であり、イノベーションの起点にもなる。
  • そして、善が存在するには。人間は「一度も存在したことがない過去」を自分の現在「より前」に擬制的に措定しなくてはならない。そのためにこそ、そのつどすでに取り返しがつかないほど遅れて到来したものとしておのれを位置づけなくてはならない。

ね。ややこしいでしょ。ですが、この枠組みでイノベーションに関するほとんどのネタを取り扱えますよね。

  • 異分野融合=>私は遅れてここにやってきた、場所を人工的に作る。
  • ビジョン=>宿命。あるいは「自分の犯していない罪」
  • 風通しのいい組織=>大人の組織

ってなぐあいです。
非イノベーティブな振る舞いも簡単に判定できます。

  • 「私はこれまでずっとここにいたし、これからもここにいる生得権利を有している」=>地元愛ヤンキー、ネタ大好き大阪人
  • 「すでに存在するもの」の上に「これから存在するもの」を時系列に沿って積み重ねていこうとする=>受験勉強あるいは、出口のみえなくなった応用研究
  • 「幼児」=>いわゆるリーダー

またイノベーティブの人材の育て方の指針も得られます。

  • 私は遅れてここにやってきた=>転校させる。あるいは、ルールのわかりにくい、複数のルールが併存するわかりにくい空間にかえる。
  • 「いまだ存在したことのないもの」を時間的に遡行して創造的な起点にする=>運命(さだめ)論教育(君が今ここにいるのも、誰かに出会うのも宿命あるいは運命であるのではやくあきらめたもんが勝ちである)
  • 善への指向は私の内部に根拠を有するものでなくてはならない=>なにかは自分で学ぶものだ。

ものすごく使える論考ですので、イノベーションに興味のある方はぜひ。

2015年6月17日水曜日

「正しく」読もうとしないこと

 システム生物学が、データの背後にある事実に関するお話を作る作業であるとするなら、サイエンスという小さな枠を超えたいろんな観点からその作業について吟味できるようになるでしょう。内田樹は「映画の構造分析」において数多くの吟味ポイントを示唆してくれています。例えばわれわれはデータの何かを見落とすことがあります。引用します。

 無知というのはなにかを「うっかり見落とす」ことではなく、何かを「見つめ過ぎて」いるせいで、それ以外のものを見ない状態のことです。それは不注意ではなくて、むしろ過度の集中と固執の効果なのです。(略)。
 私たちは何かを見落とすのは、不注意や怠惰のせいではありません。「見落とすこと」を欲望しているからです。そして「「見落とすこと」を自分は欲望している」という事実を見落としているからです。
 私たちが隠れている何かを組織的に見落とすのは、抑圧の効果なのです。
 ですから抑圧の効果を逃れるただ一つの方法は、自分の目に「ありのままの現実」として映現する風景は、私たちが何かから組織的に目を逸らしていることによって成立しているという事実をいついかなるときも忘れないこと、それだけです。 (「映画の構造分析」p116-7、文春文庫)

 私たちはなにかいつもかならず見落としているわけです。見落としているものを見つけるのは容易ではありませんが、おそらくそれは(なにしろ見落とすことを欲望するくらいのことですから)いやな感じの、目を背けたくなるような、できれば避けて通りたい何かとして見つかるはずです。

そして「正しくデータを読みたい」という気持ちこそが見落としを生む。のです。引用を続けます。

 ですから、今私たちがしているような「謎解き」もまた常に「(私はデータの背後にある真実を知りたいという)欲望の見落とし」の問題と背中合わせであることを忘れてはなりません。謎解きとか解釈とか推理というのは、要するに「お話」を一つつくることです。その解釈はおのれの欲望が生み出した「お話」です。そして、自分が作り出した「お話」を私たちは実に簡単に現実と錯認してしまうのです。
 分析者=解釈者は「病識」を持ち続けなくてはなりません。「私の解釈」は「私の欲望」の関数であり、その欲望は他人の目には筒抜けであり、その事実から私は全力を挙げて目を逸らそうとしている、ということを意識し続けていなければなりません。(略)
 解釈者の仕事は「パスする」ことです。(略)。「できるだけ多様な次なる解釈の起点になりうるような解釈」こそが「よいパス」なのです。(「映画の構造分析」p144-6、文春文庫)

 できるだけ多様な次なる解釈の起点になりうるような、大規模データの解釈、という読み筋があるとすれば、それは「どきどきわくわくするようなお話」となると思われます。となるとデータを読むコツはまず第一に「正しく」読もうとしないこと。次いで「おもしろい話をつくろうとする」ことと言える、のかもしれません。


2015年6月15日月曜日

先生はえらい

要約の達人2人目は(以下敬称略)内田樹です。内田樹は要約できないことを説明するプロです。世の中の大事なことのほとんどはもちろんそんなに簡単に要約なんかできはしません。名著「先生はえらい」において、内田樹はえらい先生に出会うことの意義と効能について中学生向けという制約をむしろうまく使って説明しながら、例え話(有名なF1ドライバーと自動車教習所の教官の違い)、脱線(アマゾンの無言交易とか、、)などを積み重ねることで、わからないはずの話をわかった気にさせる荒技を繰り出して、えらい先生に出会ったときの自分を前倒して一瞬体験させることに成功しています。すごいです。この本の内容は、一言でいえば「先生はえらい」ですので、要約すればするほどわけがわからなくなる話なのですが、自分がそのことにいままで気づいていなかったことに気づくのは一瞬なんです。あっそっか、そういうことね。なんですが、それを気づいていない人に理屈で教えることはできません。ただ多くの先生と呼ばれる人たちは、それだけでいいから気づいてもらいたく、わけのわからない話を学生にすることになるわけであります。ですので、清水研の学生は全員読むように。

ノンターゲットメタボローム分析の課題その12 QC法以外の補正法の検討

 LCMSを用いたノンターゲット型のメタボローム分析で、大規模な解析を行なうには、強度値を補正する手法が必要です。QC法はもっとも有力な方法として期待されます。pooled QCサンプルの作成するときに、全サンプルの1-2%程度以下のサンプルにのみ含まれるレアな代謝物は大希釈されるので、QCサンプルから検出できなくなってしまう可能性があります。このように、QC法は完璧ではありません。
 QC法では補正できないMetabolite featureを扱う他の方法が必要になるでしょう。2006年に作成した分析法(Matsuda et al. Plant J (2009)57, 555-577)では、イオン化効率、検出器感度の変化を追跡するための内部標準物質の設定に取り組みました。種々の安価、安定な非天然物から、実サンプルに添加してもサンプルマトリクスからの影響(イオンサプレッション)を受けにくいものを探索しました。その結果、d-カンファースルホン酸とリドカインを強度値補正用内部標準物質として有用なことを見いだしました。メタボロームデータ中の、強度値補正用内部標準物質の強度値にはイオンサプレッションの影響はない。と期待できます。そこで、全Metabolite featureの強度値を同一分析(インジェクション)の内部標準物質の強度値で除算するという補正を行いました。本法でもある程度補正がかけられることがわかっています。
 QC法ではイオン化効率、検出器感度の経時変化をMetabolite feature毎にそれぞれ補正することができる点が長所です。したがって、イオン化まわりのパラメータを途中変更しても、質量分析装置に個体差があっても、さらには質量分析装置の機種が異なっても、直近に取得したQCデータから、強度値を正しく補正できると考えられます。一方、内部標準物質法は全Metabolite featureのイオン化効率、検出器感度は、強度値補正用内部標準物質と同様に変化するという仮定に基づいています。しかし、イオン源の雰囲気、イオン化まわりのパラメータの変化や、装置の汚れ具合がイオン化効率、検出器感度に及ぼす影響は化合物ごとにばらばらになると考えられます。実際、本法よりQC法のほうがよい補正結果となることも判明しています(Front Genet. 2015;5:471)。つまり、本法は、QC法が適用できないときのバックアップとして位置づけるべきだろう。また、全スタディを比較する基準としていろいろ役立ちそうなので、検出器感度補正用内部標準物質の種類および濃度を、全研究室で標準化し、全サンプルに添加するとよいと思われます。

2015年6月13日土曜日

ノンターゲットメタボローム分析の課題その11 Metabolite featureの強度値にかんする問題点のまとめ

 LCMSをもちいたノンターゲット型のメタボローム分析を行なうとします。QC法で強度補正を行なうには、QCサンプルを作成する必要があります。どうやら、QCサンプルの設定がQC法の成否を分ける鍵になりそうです。

  • 1つのスタディ内でQC法で正確に補正可能なMetabolite featureとは、各スタディごとに作成するpooled QCから比較的高強度に検出可能なものに限らる。
  • あるスタディを行い、データ処理を行った結果、6000個のMetabolite featureが検出されたとする(全Metabolite featureとよぶ)。これは、少数、あるいは1サンプルからのみ検出されるような、レアなMetabolite featureもすべて含んでいる。
  • pooledQCを作成するとき、レアなMetabolite featureは大希釈されてしまうため検出限界以下になる場合もあり得る。
  • このスタディ用に作成したpooled QCから5950個のMetabolite featureが検出された場合、残り50個のMetabolite featureの強度値補正ができないことになる。
  • さらに、レアなMetabolite featureの割合が多く。pooled QCから3000個のMetabolite featureしか検出できなかった場合、残り3000個分のデータをムダになる。これを避けるには、pooled QC の作成法を工夫するか、QC法以外の強度値補正法が必要となる。
  • この見極めを行うためにも、血清、血漿、尿サンプルについて、1スタディ内のサンプル間でMetabolite feature強度にどの程度ばらつきがあるのか、をまず検討するべきである。
  • 研究室内で大規模統合解析を行う場合は、global QCで比較的高強度に検出可能なものが補正の対象となる。上記と同じ理由で、global QCの設定を誤ると、強度値を補正可能なMetabolite featureの数が減少してしまう(網羅性が損なわれる)。
  • 各スタディから検出された全Metabolite featureのうち、global QCで補正可能なものの割合が、どのくらいになるのかを事前に検討し、極力カバレッジが広いglobal QCサンプルを利用するべきだろう。
  • さらに上位のmaster QCを設定する場合も、同様の検討が必要になる。


2015年6月12日金曜日

清水研雑誌会6/12

今日の雑誌会の一人目はD1和田君のデビュー戦です。紹介した論文は Fu et al. Metabolic flux analysis of Escherichia coli MG1655 under octanoic acid (C8) stress. AMB 2015, 99:4397-408です。再生可能資源からバイオ生産したい化合物の中には、その生産宿主(微生物)にとって毒になるものも多いです。たとえばエタノールは消毒につかわれる溶剤ですので、普通の微生物は培地に数%のエタノールがふくまれると生育できません。酵母がエタノールに強いという性質をうまく使ってお酒をつくっています。この研究ではオクタン酸 (C8の直鎖カルボン酸) によって生育が阻害されている大腸菌の代謝で何が起きているのかを代謝フラックス解析によって調べたという論文です。その結果TCAサイクルの代謝フラックスが38%減少していること、NADHの再生量が25%減少していることを突き止めました。このように細胞内代謝経路の活性をダイレクトに調べることができる点が代謝フラックス解析の強力な点です。そこから細胞内の酸化還元バランスや、エネルギー状態についても議論できます。これは他の手法(遺伝子発現、代謝物蓄積量の計測)からはなかなか得ることのできない情報で、代謝について本質的な理解を行なう上でのファイナルアンサー、あるいは鍵となる技術です。清水研ではこの代謝フラックス解析の技術開発を行なっており、和田君もこの春から清水研に加入して代謝フラックス解析研究をがんばっています。代謝フラックス解析の専門家集団らしく、本論文についてもフラックス解析法の詳細について活発な議論が行なわれました。
二人目は清水研の若頭D2岡橋君で、 Webb et al. Structures of human phosphofructokinase-1 and atomic basis of cancer-associated mutations. Nature 2015, doi:10.1038/nature14405  です。われわれは、代謝の流れや代謝物の蓄積量が代謝機能とどのように関連しているのかに関心を持っていますが、代謝反応の触媒を担うのは酵素タンパクであり、その機能はタンパクの高次構造とつよく関連しています。ホスホフルクトキナーゼ (PFK)は解糖系の上流の制御を担う重要な酵素です。また、がん化した細胞ではPFKをコードする遺伝子に共通の変異があることがしられており、がんとの関連という観点からも興味深い酵素です。本研究ではヒトPFKの4量体の結晶構造を解き、構造とがん化にかかわる変異との関連について議論しています。代謝を理解するには、代謝を眺めるときの範囲を、全代謝反応レベルで広く見たり、1タンパク、1遺伝子レベルまで狭くみたり視野を自在に拡大縮小することが大事だと改めて感じさせてくれたイイ発表でした。

2015年6月11日木曜日

この物語を7文字で要約せよ。

大規模データの解析には、まず、お話を要約するスキルが重要みたいです。要約の達人といえば(以下敬称略)、山形浩生と内田樹でしょう。二人の東大出身者らしい天井知らずな頭の良さにしびれてみましょう。今回取り上げます山形浩生は「要するに」とか「雇用と利子とお金の一般理論の要約」などを書いちゃうくらい、要約大好きな、ひとです。最近はトマ・ピケティの「21世紀の資本」を翻訳し、そのついでに無精なわれわれにこの大著を要約、解説したあんちょこまでつくって無料で公開してくれています。ありがたや。このあんちょこをみると

  • 優先順位を階層ではっきり示す。
  • うまく要約できれば1-2行の箇条書きになる
  • 正確さと難しい言葉づかいは関係しない。

点などがが我々初心者の学習ポイントでしょうか。気楽に書いているように見えますが、実際に作るのは相当の技が要る点にも注意しましょう。ちなみに本記事のタイトルの答えは「いろいろあった」(国語入試問題必勝法より)であります。受験で要約問題など国語が苦手だった人は必ず読みましょう。清水研文庫にもそのうち入れておきます。

ノンターゲットメタボローム分析の課題その10 QC法で正確に補正できるMetabolite featureの範囲

 LCMSを用いたノンターゲット型のメタボローム分析で大規模な解析を行なうには、検出した代謝物シグナルの強度値を補正する必要があります。そこで、
・尿の分析なら代表的な尿サンプルを標準物質混合液とみなす(QCサンプル)。
・QCサンプルの分析結果を外部検量線として、QCサンプルに対する強度比として代謝物濃度を測定する。
・QCサンプルで作成した検量線の寿命は数時間である。検量線を数時間おきに引き直し、さらにその経時変化も加味する。
という手法が編み出されました。
 QC法で正確に補正可能なMetabolite featureとは、全サンプルから比較的高強度に検出されるMetabolite featureです。多検体の分析をおこなうと質量分析装置の検出感度が低下するため、Metabolite featureの強度値も経時的に減少してしまいます。そこで、QCサンプルの強度値情報を用いて、実サンプルの強度値も補正するわけです。QCサンプルを6-12回に1回分析し、QCサンプルの強度値情報の経時変化から、LOESS補間法などで検量線の基準線を作成します。この線を基準として、実サンプルの強度補正を行う手法が提案されています(Nature protocol(2011) 6, 1060など)。実サンプルの分析にQCサンプルを挟む頻度などのランオーダーを標準化することで、データ処理の効率、精度が向上すると期待されます。
 しかし、この方法はかなり強い補正をかけるので、明らかな問題点もあります。もし、実サンプルのMetabolite featureの強度値が検出限界ぎりぎりな場合、分析が進むと感度が下がって、下限値に到達するでしょう。以降は欠損値としてノイズレベルが強度値と見なされることになります。そこで、QCサンプルで実サンプルの強度値を補正すると、補正に起因するゆがみが生じてしまいます。このゆがみはデータ解析に悪影響を与えます(そういうトホホな実例なら任せてください。[例]シロイヌナズナメタボロームデータをもちいてMetabolite feature間のスピアマンの順位相関係数を計算したところ、多数のMetabolite feature間に明確なクラスターが観察された。これは、強度値補正に起因するゆがみの結果生じた擬陽性の相関だった。)。とくに、ノンパラメトリックな解析(順位相関など)に深刻な影響を及ぼすようです。メタボロームデータ中のMetabolite featureは強度値が検出限界に近い場合が多いと予想されます。QC法による補正はゆがみの原因にもなり得るんだと言う点には注意が必要でしょう。


2015年6月5日金曜日

清水研雑誌会6/5

本日の雑誌会の一人目はB4の後野君で Binder et al. A high-throughput approach to identify genomic variants of bacterial metabolite producers at the single-cell level. Genome Biology 2012, 13:R40 です。有用物質を効率的に生産する微生物を作り出すには、設計図を書き、ねらいを定めて合理的に作るアプローチと、ゲノムへランダムに変異を導入し、そのなかからいいものを選ぶ。という二つのアプローチがあります。前者(若紫系)はねらい通りに行けばすごいのですが、ねらいをはずすと大変なうえ、ねらい以外の思いがけない大当たりにぶつかることができません。後者(ナンパ系)は思わぬ大当たりを拾える可能性が高いのですが、大当たりを拾うには、微生物1細胞ごとの生産能力を評価する大変な手間がかかります。そこで、微生物細胞内の目的物質濃度が高くなると、蛍光を発するようなセンサーを微生物に組み込んでおけばいいじゃん。というアイデアを形にしたのがこの論文です。細胞内リジン濃度が高くなると蛍光タンパクを発現するようにしたプラスミドをコリネ菌に形質転換します。この株にランダムに変異を導入した細胞集団から、リジン高生産変異体を蛍光強度を指標としてセルソーターで選び出し、既知以外の変異を持つ株のリシーケンスを行なって、新規の有用変異を見つけ出しています。質疑応答ではリジンセンサーのメカニズムの詳細と、この新しい変異は既知ものと比べてどうなの?等が出ました。
二人目はB4の渡辺君で Xu et al. Improving fatty acids production by engineering dynamic pathway regulation and metabolic control. PNAS  2014 111(31):11299-304. です。代謝中間体の細胞内濃度を検出して、細胞内濃度が低いときは上流の反応をOF,下流をOFF,濃度が高いときは上流の反応をOFF,下流をONにできれば効率が良さそう、ですよね。そこで、脂肪酸生合成の鍵中間体のマロニルCoAのセンサーとなるにfapRという転写因子をもちいた回路を作成しています。これがうまくいって脂肪酸生産量が3倍くらい向上しています。さらに、細胞内マロニル酸濃度が時間的に増減、すなわち振動する。といっています。しかし、なんでうまく動くんでしょう?質問ではD2岡橋くんから、マロニルCoAのセンサーがONになると、酵素タンパクの発現量があがる。というのはわかるけど、高かった発現量が下がるって何が起きているの?というナイスな質問がありました。さすがです。また、振動するかしないかは3回生でならった制御理論でわかるはずという指摘もありました。発表者は二人とも落ち着いたイケメン感あふれるプレゼンで安心して聞けました。


2015年5月31日日曜日

あなたがどんな人か、よーく、わかったわ

生物の機能、しくみを理解すれば応用できるので理解は大事です。そこで、複雑な生命現象をまとめてシステムとして理解してみようという試みも盛んです。では、どうなれば、「理解できた」といえるのでしょうか?どうも、われわれはなにかを理解するとき、物事を因果関係のあるお話、あるいは物語として理解しているみたいなんです。というより、物語としてお話にできたとき、はじめてなるほどーっと物事を理解したと納得できるんじゃないかと思います。また、物語論の重要な指摘として、「すべての物語には構造がある」というものがあります。善人がいれば悪人がいる。というような非対称な関係性のことです。この物語論の主張も、遺伝子やタンパクの相互作用などのしくみを、矢印を使って構造化したポンチ絵など用いて、ついついお話として説明する習性を持つ研究者には、なかなか論破はできないでしょう。

ウラジーミル・プロップは、『昔話の形態学』(1928)で、ロシアの魔法昔話に現れるモチーフは31個であり、物語の中でほぼ一定の順番で現れる、すなわち物語とはいくつかの紋切り型の集まりであることを示しました。ということは、生命システムがどのようにはたらくか?というお題にたいして、われわれがデータから抽出しうるお話の構造にもそれほどバリエーションはないらしいことを示唆しています。ということは、生物システムの理解とは、生物の複雑でややこしいふるまいを、われわれが理解可能な構造と筋書きへと当てこむ、あるいは要約してお話をつくる作業であると言えるかもしれません。大規模データを解析したことがある方なら、結局われわれは自分たちが読めることしか読めない。という事態に納得していただけるのではないでしょうか?また、京都の女性の「ふーん」という返事に込められた1000通り以上の解釈可能性に魅惑されたことのある方なら、結局われわれはデータについて語ることで、自分自身について語っているのだという文芸評論的なロマンチックな主張にも、ひょっとしたらそうかもねーとうなずいていただけることでしょう。大規模データの解析には、まず、お話を要約するスキルが重要みたいです。さらに、お話の、とくに隠された事実をわれわれはどのように見逃すのか、という点を取り扱った探偵小説も参考になるのでしょう。

2015年5月29日金曜日

清水研雑誌会5/29

今日の雑誌会の一人目はB4楢崎君で Lee et al. Engineering cellular redox balance in Saccharomyces cerevisiae for improved production of L-lactic acid. Biotechnol Bioeng 112, 751-758(2015)です。出芽酵母は発酵時のストレスに強い、菌体のリサイクルができる、扱いやすいなどの特性があるため、バイオエタノール生産の宿主として活用されています。こんな出芽酵母にエタノール以外の有用物質をエタノール並の高収率で作らせることができれば、イイ、ですよね。本論文では出芽酵母に乳酸を作らせています。まず、恒常的に高発現可能なプロモーターを選抜し、そのプロモーターでドライブしてPelodiscus sinensis (スッポン)由来のLDHの高発現を行なっています。さらに、競合する代謝経路の酵素遺伝子をURAブラスター法で破壊しつつ、そのサイトにプロモーター+LDHの断片を組み込んでいます。これをゲノム上の複数箇所で行なうことで、LDHの強発現を行ないました。ミトコンドリアのNADH脱水素酵素遺伝子 (NDE1, NDE2) を破壊しているところが渋いです。
二人目はB4の永井君で、Millard et al. Sampling of intracellular metabolites for stationary and non-stationary (13)C metabolic flux analysis in Escherichia coli.Anal Biochem 465, 38-49,(2014) でした。微生物細胞内の代謝がどうなっているのか調べたいわけです。そこで、菌体を培地から取り出して、培地成分を洗浄し、菌体内の代謝物を抽出して、分析装置で測定します。問題は、細胞内の代謝は変化が秒単位で早く起きるので、上記の操作中に代謝が変化してしまうようなんです。この論文では、さくっとフィルターで菌体をろ集するという方法はダメで、冷たいエタノールやグリセロール水溶液などにつけ込むのがよいと示しています。でも溶液につけこむと、代謝物が流れ出してしまってダメ、という説もあるんですよね。今回は13C代謝フラックス解析に限った話なので、代謝物が減る分には気にならないので大丈夫なんですが、難しいところです。二人とも堂々と発表していました。次回も楽しみです。


2015年5月22日金曜日

ノンターゲットメタボローム分析の課題その9 QC法で補正ができるMetabolite featureの範囲

 QC法は、実サンプルを標準物質として外部検量線を引き、測定データ中のMetabolite featureの強度値を補正する手段です。QC法で補正できるのは、単一のスタディ内に限ると、そのスタディ用に作成したpooled QCサンプルから検出可能なMetabolite featureということになります。したがって、一部のサンプルにしか含まれないマイナーな代謝物はpooled QCサンプルの作成時に大希釈されてしまうため、pooled QCサンプルから検出できない可能性があります。つまりQC法とはノンターゲット分析で検出可能な全Metabolite featureの補正を保証するものでは、そもそもないんだという点に注意しましょう。
 したがって、global QCを用いる大規模な解析で、複数のスタディから得たデータを補正する場合も、global QCサンプルから検出可能なMetabolite featureだけが、補正の対象になります。さらに複数の研究室で取得されたデータを統合する。というようなケースでは、同一のglobal QCで全分析を補正することが困難になると思われます(大量のglobal QCを用意し、全研究室での共有が必要となるため)。たとえば、各研究室で異なるglobal QCを用い、さらに上位のmaster QCを設定して補正を行うというような事態が起こりえるだろう。このとき、QC法で統合可能なのは、当然、master QCおよび全研究室のglobal QCで「共通して」検出可能なMetabolite featureとなります。たとえば、ある1研究室が、極端な組成を持つglobal QCを用いた場合、統合可能なMetabolite featureの数が大きく減少することになると予想されます。このような事態を避けるためにも、各研究室で用意するglobal QC は、極力標準的な組成を持つことが望ましいといえるでしょう。つまり、QC法の重要点は、いいQCサンプルを確保するかにかかっているといえます。でもどうしたら一番いいのかはまだわかっていません。

2015年5月20日水曜日

ノンターゲットメタボローム分析の課題その8 Metabolite featureの強度値の補正方法

 LC-MSをもちいたメタボローム分析では、生クロマトグラムデータ中の代謝物由来のシグナル(Metabolite feature)を網羅的に検出し、その強度値を調べます。この強度値が代謝物濃度の半定量値となるので、正しく定量することが大事です。しかし、Metabolite feature強度値は、①サンプル中の該当代謝物濃度、②サンプルマトリクスからの影響、③イオン化効率、検出器感度の影響を反映しています。なので、LC-UVなどをもちいた定量分析のように、標準化合物溶液で作成した検量線をもちいて、Metabolite featureの強度値からサンプル中の該当代謝物濃度を求めることができるのは、
  1. サンプルマトリクスからの影響が標準化合物溶液、複数サンプル間で一定
  2. イオン化効率、検出器感度が一定の期間変化しない

場合に限られます。
 LC-MSでは、1も2が成り立たないことがわかっています。MSの感度やイオン化効率は、イオン源の状態やMS内部の汚れの影響を受けます。そこで数化合物にターゲットを絞った分析では、安定同位体標識化合物を内部標準としてもちいることでこの問題をクリアしています。一方、メタボローム分析では、すべてのMetabolite featureをカバーする内部標準物質も、非標識の標準化合物溶液を用意できません(未知化合物の標準物質はないですよね)。
 そこで、実サンプルを混合した pooled QCサンプルをもちいるというアイデアが生まれてきました。pooled QCサンプルには、そのスタディで検出されるすべての化合物が含まれるため原理的には、標準化合物溶液の代わりとして用いることができます。
 またメタボローム分析では、サンプル中の該当代謝物濃度の相対濃度がわかればよいです。そこで、pooled QCサンプルを標準化合物溶液とみなした分析を行い、えられたMetabolite featureの強度値から一点検量線を作成し、pooled QCサンプルと実サンプルの中の代謝物濃度の相対値を調べる。という考え方が採用されています。
 さらに、大規模なスタディで必要とされる多検体の分析では、分析期間中にイオン化効率、検出器感度が経時的に変化(低下)してしまいます。つまり、pooled QCサンプルで作成した検量線の寿命が非常に短いため、5-10インジェクションごとにpooled QCサンプルを再分析し、検量線の傾きの変化をモニターし続けるという分析法(以下QC法)につながっています。
 ですが、QC法で完璧というわけでももちろんありません。より大規模な解析では、分析サンプルの前処理とメタボロームデータの取得を並行して実施します。このため、全サンプルを混合したpooled QCサンプルがそもそも作成できない。そこで、1バッチ目の前処理で作成したpooled QCを以降の全分析のQCサンプルとする方法が考えられています。さらに、標準的な均一サンプルを大量に用意し、global QCとして、複数のスタディで共通して利用することも試みられています。
 あと、QC法は、「1サンプルマトリクスからの影響がpooled QCサンプル、実サンプル間で一定である」と仮定してる点には注意が必要です。解決できない問題はそっとしておくのがよいでしょう。以降何回かにわけてQC法の考えかたと課題について議論したいと思います。

2015年5月14日木曜日

ノンターゲットメタボローム分析の課題その7 Metabolite featureの強度値の算出方法

LC-MSメタボロミクスでは、Metabolite featureの強度値としてピーク面積が一般に利用されています。ピークを波形処理して開始点および終了点を認識し、面積を計算する作業をフルオートで実施する必要があります。しかし、特にシグナルが近接する、弱い、形状が悪い場合などに面積計算のやり方次第で、値がおおきくばらつく場合があります。

ピーク波形処理を確認しましょう」で、博士が、「線の引き方でこんなに面積がちがうぞ!」とおっしゃっておられますが、ま、そういうことです。


問題は、ピーク面積を計算する際の線の引き方に「正解」がない、点にあります。また、さまざまな波形処理アルゴリズムが実装されているが、それぞれに癖があり、完璧なものは存在していません。さらに、波形処理の結果が「怪しい(要確認)」Metabolite featureはピーク面積計算結果からだけでは、判定できません。そこで、通常のターゲット分析では、ピーク波形処理結果を目で(人間のです。念のため)確認し、手作業での修正が行われています。しかし、個々人のことなる基準が反映されるため再現性が低いです(俺メタボロミクス)。また、メタボローム分析の実際において、検出した全Metabolite featureの確認作業は現実的ではないでしょう(そんな仕事。。。)。したがって堅牢なピーク波形処理法を確立し、品質管理(QC)法を標準化しない限り、自信をもってメタボロームデータの解析を進めることができません。
たとえば、以前行なった、メタボロームGWAS解析で、適当に処理したデータで解析したところ、検出されたQTLはピーク誤認識の結果生じた擬陽性でした。データ処理結果を批判的に検討し直す必要がありました。

解決案は以下の5つくらいでしょうか。
1.ピーク高を使う:2006年に作成したノンターゲット分析法(Matsuda et al. Plant J (2009)57, 555-577)では、データ処理にMetalignを用い、Metabolite featureの強度値の指標としてピーク高をもちいました。ピーク高はピーク面積に比べ精度が低いが、ピーク波形処理時に起きる「大失敗」が起こりにくいのです。
2.波形処理が怪しいMetabolite featureの検出1:ピーク面積計算結果から、波形処理が怪しいMetabolite featureを抽出できればよいです。1つのサンプルを複数回分析し、あるMetabolite featureの面積値や保持時間が大きくばらつく場合、ピーク波形処理に問題がある可能性が高いですよね。しかし分析数が倍増するため大規模スタディでは現実的ではないでしょう。
3.波形処理が怪しいMetabolite featureの検出2:メタボロームデータを用いた解析では、多数のメタボロームデータから生成したデータマトリクスに含まれる、Metabolite featureから、品質の悪いものを抽出できればよいとおもいます。波形処理結果をスコア化し、理想的な状態からの乖離を検出できればQCの指標として使えそうです。MRMPROBS(Anal Chem. 2013 85(10):5191-9.)はそのような試みの一つです。
4.確認イオンの導入:これまでの経験上、波形処理の課題の多くは確認イオンを導入すると改善できる場合が多いです。ノンターゲット解析ですべてのMetabolite featureに確認イオンを定義できるかはわかりませんが、インソースCIDで生じたフラグメントイオン、多価イオン、あるいはMSEで生じるフラグメントイオンなどを用いることが可能かもしれません。
5.複数の波形処理法を用いる:単独の波形処理法で完璧を目指すところに無理があるんじゃないでしょうか?そこで原理の異なる波形処理法、同一波形処理法だが内部パラメーターが違うものなどを、たとえば100種用意する。1つのMetabolite featureを100種の波形処理法で処理し、ピーク面積値を100個得る。えられた100個の面積値のメジアンはよいピーク面積の推定値となり得るだろう。また、ピーク面積値が100個波形処理法間で大きくばらつくMetabolite featureは、波形処理結果の品質が低い可能性が高い。このように、必要とされているのは、堅牢なピーク面積の決定法と、ピーク面積処理結果のQAです。以前紹介した zigzag index のようなアイデアをどんどん進めていく必要があります。

2015年5月10日日曜日

ノンターゲットメタボローム分析の課題その6 Metabolite Featureのリストアップ


LC-MSを用いたノンターゲット型のメタボローム分析では、生データファイルのセットの中に存在する、Metabolite Featureをすべてリストアップする作業をおこないます。複数のデータファイル間で同一のが検出されているなら、それを同一のMetabolite Featureとして認識できなくてはダメですよね。がしかし、これはかなりの難題で、いろいろなタイプの誤りが生じる可能性があります。
というのも、LC-MS分析時のコントロールが甘いと、保持時間を正確に補正しきれなくなることがあります。そうすると、本来は同一のMetabolite Featureとして認識されなくてはならないのに、保持時間がサンプル間で大きくばらついてしまったせいで、2つのMetabolite Featureとして間違えて認識してしまうことがあります。また、2つのMetabolite Featureが近接しているような場合、保持時間がずれると隣のMetabolite Featureとごっちゃになってしまうこともあります。こういう誤りを避けるためにも保持時間の再現性が大事なことがわかります。

さらに、検出したMetabolite Featureの多くは、生体に由来しないアーティファクトを誤認識したものであるといわれています。これを避けるには、QCサンプルの希釈系列のメタボロームデータを取得し、強度値が正しく増減したもののみを選ぶという手が使われています。さらに、ノイズを誤ってMetabolite Featureと誤認識してしまうことがありますが、その判別には、pooled QCサンプルの繰り返し測定結果を用いて、RSDが20%以上あるもの、QCの分析で>50%の欠損値があるMetabolite Featureを除去する (Nature Protocols 6, 1060-1083 (2011))などが行なわれています。がしかし、これで問題のあるピークを、完璧かつ自動で除去しきれるかというと、難しいでしょうね。

また1つの代謝物から通常複数のMetabolite Featureが生成します。これを見つけて、不要なものを除去する作業をdeconvolutionと呼びますが、これまたかなりの難題であります。除去するべきMetabolite Featureが除去できない、逆に除去してはいけないMetabolite Featureが除去されてしまったなどの誤りが多数生じてしまうんですよね。クロマトグラムの処理はおしゃれなアイデアがクロマトの現実の前に粉砕されていく黒歴史にことかきません。自動的に生成したMetabolite Featureのリストには、アーティファクトやredundantなMetabolite Featureが多く含まれいる(経験的には70-80%程度)が、これらを完璧に除去し整頓する技術の確立はかなり時間がかかる。と考えるといいかなぁと思います。

そこで、尿を測定した2つのスタディを行い、そのデータをあとから①と②を統合して解析したくなったとしましょう。たとえば、スタディ①で取得した尿のメタボロームデータセットからMetabolite Featureの新たなリストを生成したとします。各Metabolite Featureには、STUDY_1_ID0055のようなIDを付与しておきましょう。同様に、スタディ②の尿のメタボロームデータセットからMetabolite Featureのリストを生成し、各Metabolite FeatureにSTUDY_2_ID0151のようなIDを付与したとします。ここまでは技術的に今でも可能です。次にスタディ①と②を統合して解析したくなったとします。原理的にはSTUDY_1_ID0055とSTUDY_2_ID0151の(保持時間x、質量電荷比y)の一致を基準にMetabolite Featureを統合可能かなぁと期待してしまいますが、これまで議論してきたように、保持時間情報には誤差が多く含まれ、さらに擬陽性、擬陰性のピークもふくまれている。このような小汚いデータでスタディ①と②のMetabolite Featureリストを誤りなく完璧に統合するのは容易ではありません。
じゃあどうするかというと、スタディ①と②のメタボロームデータセットをまとめて新規にMetabolite Featureリストを生成することになります。処理後のデータを統合できないので、データをまとめて処理し直そうというアイデアですね。これは、データ数が数100程度の時には、まだ実行可能ですが、数千を超える場合は、むちゃくちゃ時間のかかる作業になるでしょう。ちなみに800データくらいの処理をMetalign で行なったときは、ユニットマスに変換して高速化しておよそ10日程度かかりました。この方法の欠点は、同一化合物のMetabolite Featureを指し示すIDが多数できてしまうことです。たとえば、STUDY_1_ID0055のMFが新たに生成した統合データのMetabolite Featureのどれに相当するのか、完璧に対応するのは難しくさらに混乱を招きやすい欠点があります。このように、自動生成したMetabolite Featureリストをもとにノンターゲット分析を大規模化していくのには限界があるようにおもえます。

この問題を解決するには、データの処理法をターゲット型に変更するのが、現実的なように思えます。以前述べたように、ノンターゲット型のメタボローム分析のデータ処理のうち、Metabolite Featureリストの作成部分と、定量部分を分離しよう。そしてMetabolite Featureリストの作成部分の成果を共有しよう。というアイデアです。たとえば、尿のメタボロームデータから検出されるMetabolite Featureの完璧なリストを手作業で作成し、そのマルチターゲット分析を行えばよい。本気でやるとこんな感じになるでしょうか。


  1. 複数の研究室で尿メタボロームコンソーシアムを作る。
  2. このコンソーシアムのメンバーは、尿から検出された新規Metabolite Featureが、ノイズでもアーティファクトでもないことを示し、コンセンサスMetabolite Featureリストへの追加を提案する。また、頻回に観察されるノイズやアーティファクトのKnown-unknown metabolite FeatureもコンセンサスMetabolite Featureリストへの追加する。
  3. コンソーシアムで話し合い、承認が得られたらIDを付与してコンセンサスMetabolite Featureリストへ追加する。
  4. コンセンサスMetabolite Featureリストをもちいて、定量パートを実施する。生成したデータマトリクスにふくまれるMetabolite FeatureのIDには、互換性があるのでスタディ間の比較も容易になる。
また、各研究室では、
  1. 各スタディ毎に新規にMetabolite Featureリストを生成する。検出したMetabolite Featureのうち代謝物由来のシグナルで、コンセンサスMetabolite Featureリストにないものを探索する。
  2. コンセンサスMetabolite Featureリストに新規Metabolite Featureを追加し、研究室内ローカルコンセンサスMetabolite Featureリストを作成する。
  3. 新たに追加したMetabolite Featureは次回のコンソーシアムで追加を提案する。
のような流れでデータ解析を行えばいいと思います。これはあくまでも本気で大規模解析をするためのインフラなんですが、そろそろメタボローム分析が本気を出す時期、でもあるとおもいます。






2015年5月8日金曜日

清水研雑誌会5/8

今日の雑誌会の1人目はM1前田君で、Crown et al. Integrated 13C-metabolic flux analysis of 14 parallel labeling experiments in Escherichia coli.Metab Eng. 2015 28:151-8.です。細胞内の中枢代謝経路の流れ(代謝フラックス)を測定する手法の一つに13C代謝フラックス解析があります。清水研では、13C代謝フラックス解析の技術開発を精力的に進めています。世界で13C代謝フラックス解析法をリードする研究者の1人がこの論文の著者であるUniversity of DelawareのMaciek R. Antoniewiczです。彼は13C代謝フラックス解析法を一気にモダンに進化させた人で、その成果を我々が開発してる解析ソフトウェアにも取り入れています。
13C代謝フラックス解析では、13Cラベルグルコースを炭素源として微生物を培養し、細胞内代謝物のラベルパターンの計測値から細胞内代謝フラックス分布を推定します(詳細は後日本ブログでも解説する予定です)。13Cラベルグルコースとして[1-13C]グルコースとか[U-13C]グルコースと[1-13C]グルコースの混合物などを用います。他にも[1,2-13C]グルコースとか、選択肢は多いです。しかし、使用する13Cラベルグルコースによって、代謝フラックスの推定精度が反応毎に異なることもわかっていたのですが、じゃあどれを選ぶのがいいのかはよくわかっていません。本論文では、14通りの13Cラベルグルコースを用いて、同一条件での13C代謝フラックス解析を行い、結果を比較しています。その結果はオールマイティーなものはない。とのことです。そこで、14通りのデータを全部まとめて解析すると(パラレルラベリング)、一番精度があがることを示しています。さすがに14通りのパラレルラベリングは大変ですが、2-3通りで実施するのは現実的ですよね。
13C代謝フラックス解析では、実験を始める前に13Cラベルグルコースの選択など予備検討が大事です。そのためのソフトウェアを前田インティライミ君がばりばり作って解析しています。その成果を次回の質量分析討論会で公表予定ですので乞うご期待!です。
2人目はM1増田さんでGuzman et al.Model-driven discovery of underground metabolic functions in Escherichia coli. Proc Natl Acad Sci U S A. 2015 Jan 20;112(3):929-34.です。代謝反応は酵素が触媒します。酵素は利用する基質を厳密に認識したり、あいまいに認識していたりします。代謝シミュレーションに用いる代謝モデルは既知の基質/酵素関係の情報を元に作成されていますが、基質をあいまいに認識する酵素が、既知の基質”以外”を利用するならば、代謝シミュレーションの予測結果が現実には合わないことになります。
この論文では、代謝シミュレーションの結果が実験データと合わない場合に注目し、うまく実験を行なうことで、基質の認識があいまいな酵素を探すことに成功しています。モデルを用いた計算機シミュレーションと実際に実験を組み合わせたかしこい研究です。ふたりともとても発表が上手でした。

2015年5月6日水曜日

ノンターゲットメタボローム分析の課題その5 保持時間の補正

 LC-MSメタボロームデータをがんばって取得しても、データ間で保持時間が変動します。ずれるんです。この変化量が大きいと、保持時間が近接するMetabolite Featureを誤認する可能性があるので、そこで、保持時間の補正(アライメント)をおこなって、ぴったり保持時間を一致させるという作業を行ないます。保持時間の補正について以前紹介したように、実用的なのはクロマトグラム生データを、テンプレートのメタボロームデータにぴったり合うように補正する方法です。Dynamic time warping, correlation optimized warping, parametric warping などの補正法がすでにあります。ここでアツく主張しておきたいのは、ほとんど補正しなくてもいいデータの補正は隅々までうまくいきますが、補正をしないとダメなデータの補正はだいたい70%くらいしかうまくいかない。ということです。補正をしなくてはならないが、補正に頼ってはいけない。のであります。
また、もし、2つのスタディーで結果を直接比較したいとき、保持時間の補正に用いるテンプレートも同じじゃないといけない。ですよね。つまり過去に検出したMetabolite Featureの保持時間xの記録と照合するには、常に同一のテンプレートを用いてアライメントを行う必要がある、ということは、保持時間アライメント用のテンプレートデータファイルをみんなで共有すれはOKってことなんでしょうか?

2015年5月3日日曜日

ノンターゲットメタボローム分析の課題その4 LC-MSを用いたデータの取得


LC-MSで取得したメタボロームデータ中の、Metabolite Featureは(保持時間x、質量電荷比y)座標上の位置として指し示すことができます。2つのメタボロームデータ間で比較すると、質量電荷比yはいつもほぼ同じ位置になりますが、それにくらべると、保持時間xはLCの設定から影響を受けやすいです。配管等のセットアップ、移動相の組成、カラム、温度、グラジエントカーブなどの影響を受けてしまうからです。したがって、複数のメタボロームデータの比較がしたいのであれば、カラム、分析メソッドを標準化する必要があります。あと、できればデッドボリューム、グラジエント遅れなどの一致させたいので、できれば同じメーカーの同じ機種を同じセットアップで使いたいです。それから、後述するように、イオン化の雰囲気、効率も一定でないと、強度値を比較できません。できれば質量分析装置も同じメーカーの同じ機種を同じセットアップがいいですよね。
保持時間がずれた状態、イオン化の雰囲気が変化した状態で取得したデータは、後のデータ解析において支障をきたします。また、サンプルの寿命を考えると、LC-MSを用いた分析は、数ヶ月後のやり直す。ということが難しいので、どうしても一発勝負にならざるを得ません。そうなると、きちんとデータがとれたことを確認しながら進めていく必要があるでしょう。分析開始前と終了後に分析メソッドが正常に動作していることを確認する方法を作る必要があります。QCサンプルを分析しKnown-unknownおよびKnown-knownなMetabolite Feature 20個程度について、保持時間x、質量電荷比y、強度値補正用内部標準物質(後述)のシグナルとの強度比、ピークの半値幅が許容値以内にある。とか、個々のデータをその場でPLSモデルに投げて、外れ値にならないなどなどの基準を作成する必要があります。さらに、この確認法も標準化しないと、他所のデータって使いにくいですよね。
そうなると、たとえはある研究所で、LC-MS装置を新規導入したとき、その装置から出たデータは今までのものと比較可能なのか?また、別の研究所で、メタボローム分析を立ち上げたとき、もとの研究所と比較可能なデータが出るのか?を確かめる必要があります。分析法全体のバリデーションを行う必要があるんですけど、ノンターゲット分析のバリデーション法と、バリデーションの範囲ってどう決めればいいんでしょうか?おそらく、室間再現性をとるためのバリデーションなので、拠点研究室と新規研究室で同一のサンプルを同一メソッドで分析し、同一のデータ処理を行って、同じ結果が出るか確認するクロスバリデーションをすることになると思います。近年メタボロミクスのバリデーション法も議論が始まっているので (J. Chromatogr. A (2014) 1353, 99-105)議論の進展に注目が必要です。分析サンプルおよびLC-MS分析で得られたデータファイル、および必要なメタ情報がLIMSで管理されていることが大前提です。メタ情報の標準化も必要になるでしょう。ここの部分だけはメタボローム業界がちょっとだけ仕事をしているので、うまく使えるといいですね。

2015年5月1日金曜日

Perl 正規表現雑伎

最近正規表現が気になっています。かなり邪道ですが、正規表現で

1:2:2:3:2:4:6:5:6:4:

というような数列が和が10となる部分列をもつか判定したいのです(数字はとりあえず1桁限定)
いわゆる標準正規表現ではかなり難しいようですが、
正規表現のPerl拡張、動的正規表現

(?{code}) #codeを実行
(??{code})#codeを実行し正規表現として評価

をつかうと下記のような正規表現で、#1:2:2:3:2:を見つけることができています。これはいろいろ使えそうなんですが、どなたかぜひ、もっとエレガントな書きかたの伝授をよろしくお願いします。

my $text = "1:2:2:3:2:4:6:5:6:4:";
$text =~ m/
  (?{local $i = 10}) #10を設定
  (
    (
      (
        (??{join("|",(0..$i))}) #一回目は"(0|1|2|3|4|5|6|7|8|9|10)"にマッチ。
       )#マッチした文字をキャプチャ
       :
       (?{$i-=$+}) #$+にキャプチャした数字分$iを減算
     )+  #マッチする間繰り返す。
   )
   (?(?{$i == 0})|z) #$i == 0なら終了 
/x;
print $1."\n"; 

2015年4月24日金曜日

清水研雑誌会 4/24

今日の雑誌会はD1の日浅さんでXiong et al. Integrated transcriptomic and proteomic analysis of the global response of Synechococcus sp. PCC7002 to high light stress.Mol Cell Proteomics. 2015 14(4):1038-53でした

光合成をする微生物に二酸化炭素から直接バイオ燃料やバイオプラスチックを作らせることができればとても有用です。どんどん光合成をしてCO2固定してもらうには、強い光をあててやると良いんですが、あまり光が強すぎると光合成が逆に阻害されてしまうという問題点もあります。Synechococcus sp. PCC7002という光合成微生物はもともと強光条件にすこし耐性があるといういい特性をもっていますが、強光耐性メカニズムがわかればもっとも強くする手法を見つけることができません。こういうとき、通常と強光条件での全遺伝子の発現量がわかれば、強光条件でのみ強く発現している遺伝子は、耐性に関係しているかもしれません。そこで本研究ではRNAseqという最新の手法で遺伝子発現量の比較を行なっています。しかし、遺伝子の発現量アップ=>翻訳産物のタンパク質アップとは必ずしもならない。といわれています(はっきりしたことはよくわかていません)。そこで、TMTというタグを使ったプロテオーム解析で、タンパク質発現量の網羅的な比較も行なっています。わかったことは、強光条件で多数の遺伝子とタンパク質の発現量が増減するが、その間に明確な相関がない。とか、アンテナタンパクが減るとか、光化学系I, IIのタンパク質もへるとか、逆にRuBisCOの発現量は増えるとか、DNA修復系があがるとか、さまざまななことがわかりましたす。また、遺伝子とタンパク質の発現量が同時に向上した遺伝子群のなかには、その遺伝子を欠損させると強光耐性が大きく低下するものがあることもみつかりました。網羅的な解析をすると、なんでもわかるわけではありませんが、なんとなく全体の雰囲気がわかる点が大きいです。さらに、そこからさまざまな仮説が生成できて、次の実験につながります。また、興味深い機能を持った新規遺伝子の発見にもつながる投げ縄ツールとしても便利です。研究開始時のとっかかりをつかむためのツールといえるでしょう。もちろん新規遺伝子の機能を予測するだけでは研究にならないので、遺伝学的、生化学的に実験して検証する必要はもちろんあります。今回の論文では欠損変異株で遺伝学的な機能解析をやっている点がえらいですね。

二人目はM1の野村君で、Zhang et al. A fast sensor for in vivo quantification of cytosolic phosphate in Saccharomyces cerevisiae.Biotechnol Bioeng. 2015 May;112(5):1033-46

です。酵母細胞内のリン酸濃度をはかる新技術です。マルトースを資化できない酵母株に、

  • Maltose phosphrylase: glucose + G1P = maltose + Pi, Keq1 = 4.5
  • beta-phosphoglucomutase: G6P = G1P, Keq2 = 0.053

の2反応を触媒する酵素を強発現し、これらの反応を化学平衡と見なせるようにします。
そうすると、glucose、G6P、maltoseの細胞内濃度から次式で
Pi = [glucose][G6P]/[maltose] * Keq1 * Keq2
リン酸濃度が測定できたようです。という報告です。さらに、glucose、G6P、maltoseが細胞質にしかないと仮定すると、細胞質中のPi濃度がはかれたことになります。本当に平衡になっているの?細胞質中のglucose、G6P、maltose濃度をどうやってしらべるの?などのつっこみどころはありますが、すごい萌え萌えの手法です。ふたりともチャレンジングな論文を上手に説明できていました。

ノンターゲットメタボローム分析の課題その3

ノンターゲットメタボローム分析のデータ取得から、データ処理、データマトリクス生成のプロセスをもう少し細かく細分すると

  1. LC-MSを用いたデータの取得
  2. 保持時間の補正
  3. Metabolite Featureのリストアップ
  4. Metabolite Featureの強度値の算出
  5. 欠損値の処理
  6. 強度値の補正
  7. Metabolite featureへの構造関連情報の付与

となります(ソフトウェアによって考え方が異なるので、これ以外にもありえます)。既存のデータ処理ソフトウェア (XCMS, Metalign, MZMine, ProgenesisQI)1スタディ内で取得した1セットのLC-MSメタボロームデータを上記手順で解析し、データマトリクスを生成します。ノンターゲット分析でつかわれる、Metabolite Feature、Known-known, Known-unknown metabolite featuresという用語について軽く触れ、上記データ処理法を再構成してみます。

Metabolite Feature

LC-MSメタボロームデータ中に観察される、代謝物由来のシグナルを Metabolite Feature (ion feature, peak の場合もあり)などと呼びます。Metabolite Feature とは、質量電荷比 m/z = yの選択イオンクロマトグラム上で保持時間 x min に観察されるピークのことです(インフォマティストにはpeakという言葉に違和感があるらしい)。したがって、ある代謝物由来のMetabolite Feature は、LC-MS データのxy)座標上の位置として指し示すことができます。また、Metabolite Feature MS/MS, MSスペクトルをMSと表記すると、あるMetabolite Feature の物理化学特性は[x, y, MS]として定義できるでしょう。注意すべきは、1つの代謝物から、モノアイソトピックイオン、同位体イオン、フラグメントイオン、多価イオン等が生成する点です。つまり、1つの代謝物の代表的な Metabolite Feature 以外を除去する必要があります。

Known-known, Known-unknown metabolite features

観察された Metabolite Feature に対して構造情報を付与します。たとえば、尿サンプルでいつも観察される既知 (Known) の Metabolite Feature が、クレアチンと同定されて既知 (Known) 化合物であったとき、この Metabolite Feature は Known-known である。とよびます。一方、尿サンプルからよく観察される既知 (Known)Metabolite Featureが、いまだ未同定 (Unknown) であるとき、Known-unknownと呼びます。

データ処理の再構成

上記の(1)-(7)のデータ処理項目の内、
(1) LC-MSを用いたデータの取得、(2) 保持時間の補正
を分析パートとすると、
(3) Metabolite Feature のリストアップ
はデータセット中に存在する、Metabolite Featureをリストアップする検出パートの作業であるといえます。この時点で見つかったMetabolite Feature は、Known-unknownになるといえます(諸説ある)。ついで、定性パートの
(7) Metabolite featureへの構造関連情報の付与
を経過すると、Metabolite Featureリストの一部のMetabolite Featureが化合物同定され、Known-known になります。
定量パートでは、Known-unknown と Known-known からなるリスト中の個々の Metabolite Feature について、
(4) Metabolite Feature の強度値の算出
(5) 欠損値の処理
(6) 強度値の補正
を行っていきます。

分析、検出、定性、定量パートは必ずしも一括で行う必要がない点が要注意です。たとえば、標準化合物の分析により作成した、Known-known な Metabolite Feature のリストを用いて、分析パートの処理の後、定量パートを実施すれば、いわゆるターゲット分析が実施できます(CE-TOF-MSでよく行われる)。また、Known-knownのリストに、過去に尿サンプルから検出された Known-unknown の Metabolite Feature を追加し、定量パートを実施すれば未知代謝物も含めたターゲット分析も実施できちゃいます。
さらに、同じ分析メソッドを用いている人たちの間で、類似のサンプルを分析すれば、同じMetabolite Feature[x, y, MSが観察されるので、 たとえば、尿から検出される Known-unknown の Metabolite Featureのリストをシェアできます。 Known-unknown な Metabolite FeatureにそれぞれIDを付与すると、機能未知遺伝子に付与された遺伝子コードと同様、構造未知であるID9040のMetabolite Featureが増加した。と記載できるようになります。GC-MSではMass spectral tag (MST)という同様の試みがすでにおこなわれています。また、定性パートでも、どこかの誰かが、Known-unknown の構造を決定して、Known-known にしてくれると、同じ分析メソッドを用いる別の人の分析でもそのMetabolite Feature はKnown-known として取り扱えるはずです。ID9040がじつは、アラニンだったと後からわかったとき、ID9040=アラニンという情報を共有することで、アノテーション情報を豊富にできます。
ノンターゲットメタボローム分析を考えるときにはどうやら、
  • 新規Metabolite Featureをさがす検出

と、
  • Known-unknown  Metabolite Featureのシグナル強度を決める定量
は分けて考えるのがよさそうです。
それから、
  • 尿、血清、血漿のように、よく似たサンプルを多数分析する場合には、複数の研究室で同一(互換性のある)の分析法を採用する。
のがよさそうです。ひとつの分析法に、できる限り多くのKnown-unknown な Metabolite Feature とアノテーション情報を積むことができれば、どんどん分析法が「かしこく」なり、分析データから得られる生物学的な知見を増やすことができます。目的を達成するための手段があるならするしかありませんが、問題は、それ、ができるのか?なのも明らかです。





2015年4月22日水曜日

ノンターゲットメタボローム分析の課題その2

LC-MSを用いた通常のいわゆるターゲット分析では、事前に測定対象の検出位置(保持時間、質量電荷比)を決め、検量線を作成してシグナルのレスポンスと含量との関連をつけます。ターゲット分析のデータ処理では、既知の検出位置でのシグナルの強度値を抜き出して、その値から対象化合物の試料中含量を算出することです。ターゲットを特定している限り、対象化合物数や、サンプル数がどれだけ増加しても同じアプローチでデータを処理できるんですが、ターゲット以外の成分の予期せぬ変化を見つけ出すことはできません。
 一方、ノンターゲット型のメタボローム分析では得られる情報を最大化するため、分析ターゲットをあらかじめ特定せず、測定データ中に含まれるすべてのシグナルを解析対象とします。分析データ中に含まれるすべてのMetabolite Feature(ピーク)を網羅的に検出し、それらの強度を数値化してから、サンプル間で共通して存在するシグナルを認識して、データを行列化し、各サンプル中でそれぞれのシグナルが、どれくらいの強度で検出されるかを記録した表(データマトリクス)を出力します。その上で、あらかじめ標準物質をもちいて取得したスペクトラムデータと照合して、各シグナルに代謝物情報を付与していきます(アノテーション)。このようなデータ処理を行うための専用ソフトウェアが必要になりますが、すでに、データ処理ソフトウェアが複数開発、市販され (XCMS, Metalign, MZMine, ProgenesisQI)、それらを用いた数10から数100サンプル規模のスタディが数多く実施されてきました。

しかし、まだまだ技術的な課題が多く残されています。
  • 同一データを4種の市販ソフトで解析したとき共通して検出できたMetabolite Featureは全体の7%だった(Rapid Commun Mass Spectom (2015), 29. 119)。
  • データのクオリティーを評価する方法がない。
  • 化合物の同定がうまくできない。
  • 複数のスタディの統合が難しい。

これまで、これらの問題に関する最近の論文を紹介してきました。今後、より大規模なノンターゲットメタボローム分析を実施し、研究室間でのデータ共有していくには、何が必要なのか、どうすればいいのか考えていきます。

2015年4月20日月曜日

ノンターゲットメタボローム分析の課題その1

LC-MSを用いたノンターゲットあるいはアンターゲット(non-targeted, un-targeted)型のメタボローム分析はデータ処理に対する考え方が、通常のターゲット型定量分析と大きく異なります。これまでの小規模なノンターゲット分析から、大規模化するための検討事項、および研究室間でのデータ共有むけて標準化すべき課題の洗い出しをおこなってみましょう。これから下記の点について議論していきます。
  • LC-MS分析メソッド
  • LC-MS動作の基準およびその確認法
  • 分析法全体のバリデーション法
  • 保持時間のアライメント用のテンプレートデータファイルの共有、標準化
  • コンセンサスMetabolite Featureリスト (Known-unknowのリスト)
  • コンセンサスMetabolite Featureリストを管理するコンソーシアム
  • 堅牢なピーク面積の決定法
  • ピーク面積処理結果のQuality assessment
  • globalQCより上位のMasterQCサンプル
  • global QCを設定する際の考え方
  • QCサンプルを挟む頻度などのランオーダー
  • QCを用いた強度値補正法
  • 検出器感度補正用内部標準物質の種類および濃度
  • 化合物オントロジーシステム
  • 化合物を「同定した」とみなす基準
  • ヒト代謝物同定jamboree開催

2015年4月17日金曜日

清水研雑誌会4/17


1人目はM1の森田君で Borodina et al. Establishing a synthetic pathway for high-level production of 3-hydroxypropionic acid in Saccharomyces cerevisiae via beta-alanine. Metab Eng. 2015 Mar 10;29:86-96. Metab Eng. 2015 Jan;27:57-64. doi: 10.1016/j.ymben.2014.10.003.です。3-ヒドロキシプロピオン酸 (3HP) はポリマー原料のアクリル酸に変換可能な有機酸です。これを微生物に生産させて培地中の3HPが増加すると、培地のpHが下がってしまい、微生物の元気がなくなってしまうという問題がありました。そこで、もともと低pHに強い出芽酵母に3HP生産能力を付与した、という論文です。まず酵母細胞内に構築する3HPの合成経路の吟味をしています。3HP合成経路は4つくらいあるのですが、フラックスバランス解析による代謝シミュレーションを行ない、通気条件などの比較検討から、beta-alanine経路が最も適していると結論しています。つぎに、実際に他生物種の酵素遺伝子を酵母に組み込んで、3HP合成経路を構築します。問題はどの酵素遺伝子を選ぶか?その酵素が酵母でも機能するのか?などの課題があります。タンパク質のin silico モデリングをつかって酵素を選んでます。あとは、さまざまな生物種由来の酵素遺伝子株を組み込んだ酵母株をたくさん作成して、発酵試験をでいいものを選び、最後はFed-batchでtiter13.7 g /Lを力業でたたき出すという流れでした。酵母の代謝工学の教科書みたいな仕事ですね。森田君の力業が炸裂するのが楽しみです。

2人目はD1の徳山君で Chiam et al. Rational design of a synthetic Entner-Doudoroff pathway for improved and controllable NADPH regeneration.Metab Eng. 2015 Mar 10;29:86-96. doi: 10.1016/j.ymben.2015.03.001.です。長鎖DNA断片を自在に合成できる時代になりました。おおよそどんな配列でも(お金がある限り)合成できます。本研究では大腸菌にZymomonas mobilis由来のEntner-Doudoroff経路を機能させることを目指し、zwf, pgi, edd, eda & pgi 遺伝子の配列を、コドン最適化、リボソーム停止配列の除去、5'UTR, 3'UTR配列の最適化を行なった EDオペロン (ED1.0) を設計、合成しています。もうゲノムDNAから遺伝子をPCRでクローニングしたりしません。次に、各遺伝子の翻訳効率をファインチューニングするために、翻訳開始点のRibosomal binding site (RBS)の配列をRBSライブラリものとランダムに取り替えた改変EDオペロンを387種作成し (MAGE法というかっこいい名前がついてます)、その効果をNADPH依存蛍光タンパクを用いてハイスループットに評価しています。おしゃれです。このオペロンをイソプレノイドNeurosporene生産株に組み込んで生産量がざっと2倍 (2 mg/g DCW => 4 mg/g DCW)になりました。この研究がすごいのはED1.0の設計までは人間技なんですが、残りは全部システム化されている(=自動化できる)点です。最初のオペロン設計、構築部分も原理的に自動化可能だとおもうので、zwf, pgi, edd, eda & pgi 遺伝子をオペロン化していいやつを選んでね、と自動化システムに指令すればあとはマシーンがやってくれる。かも、という時代のその先をがんばって切り開いていきましょう。B4にもわかりやすい発表でした。

2015年4月16日木曜日

ピーク?ピークじゃない?


LC-MSを用いたノンターゲットメタボローム分析では、いきなりサンプルをLC-MSで分析し、出現したピークをすべて根こそぎ検出することで、予期せぬ代謝成分の含量変化を検出することを目指します。LCをもちいた定量分析にご経験をお持ちのかたはそこで、ん?と思われたはずです。そんなことできるんですかい?と。LCのクロマトグラムから目的のピークをうまく検出してほしいのだけど、クロマト処理ソフトのパラメーターを感度を下げると目的のピークが検出されず、感度を上げると今度はとなりの夾雑物ピークが検出される。という経験を多くの分析屋がお持ちのことだと思います。ましてや高分解能の質量分析装置がはき出すデータからどうやってピークをうまく見つけ出すのか、難しそうだなぁうまくいくのかなぁと疑問におもわれるのもあながち間違いではありません。じつは間違いだらけなのです。
ピークピッキングのまちがいには2種類あります。1つ目はピークじゃないノイズなどをピークだと誤認識する場合です。これをfalse positiveと呼びます。2つめは代謝物由来のピークを認識しそこねた場合です。これをfalse negativeと呼びます。ピークの認識を鋭敏にした場合、false negativeは減りますが、false positiveは増えてしまうでしょう。そのまた逆も可なり。といえます。では、false positiveとfalse negativeのどちらを避けるべきでしょうか?予期せぬ変化を見逃したくないというノンターゲット分析法の目的から言うと、false negativeは不味いですよね。というわけで、ノンターゲット分析用のピークピッキングソフトウェアが出力するマトリクスには、非常に多くのfalse positiveが含まれています。印象としては6-8割くらいがfalse positiveだとおもっていいようです。
それじゃああんまりなので何とかならないかといろいろ各ソフトウェアが工夫しています。多くの場合、同位体イオンの有無や、ピーク形状でのフィルタリングなどが行なわれてきましたが、ほんとに有効なのかについてのベンチマークはありませんでした。
Zhang et al. Review of Peak Detection Algorithms in Liquid-Chromatography-Mass Spectrometry (2009) Curr Genomics. 2009 Sep; 10(6): 388-401.はこの問題をとりあつかった渋いレビューです。MZmine, msImpactなどが採用しているピークピッキングアルゴリズムを説明後、プロテオーム分析のシミュレーションデータを解析して、えられたROCカーブから

  • ピーク検出の閾値とする指標として、同位体イオンの有無やS/N比よりピーク強度がいい
  • ピーク形状でのフィルタリングはfalse negativeを増やしてしまう。

というデータを示しています。もう少し、いろんなデータをもちいた検証が必要なんですが、スマートな理屈はクロマトの現実の前に敗北する。という歴史がまた繰り替えられているようですね。
ベンチマーク用データセットを用いてピークピッキングソフトウェアの各機能の性能評価行い、客観的な評価を積み上げていくことが今後もとくに重要だと思われます。

2015年4月14日火曜日

保持時間の補正法

LC-MSを用いたノンターゲット型のメタボローム分析では、複数のメタボローム分析生データの間で、同じ保持時間、同じ質量電荷比 (m/z) に検出された代謝物由来のシグナル(ピーク)を「同じ代謝物のピーク」と認識します。ですので、あるピークの保持時間、質量電荷比が常に同じでないと困ったことになります。質量電荷比 (m/z) はほとんど一定に保つことは可能ですが、ピークの保持時間はLCの条件およびコンディションに依存しているため、どうしても前後に変動してしまいます。

このままだと、ピークの認識ミスにつながるので(同じ代謝物を別のものだと勘違いしたり、異なる代謝物を同じものだと勘違いしたりします)、保持時間を補正してぴったりそろうようにします。
保持時間の補正法には大きく分けて2種類の考え方があります。1つ目は、
・各メタボローム分析生データ毎にピークピッキングを行う。
・ある基準となるデータのピークリストにもっともぴったり重なるように、各データのピークリストの保持時間を補正する。
というものです。Lange et al.Critical assessment of alignment procedures for LC-MS proteomics and metabolomics measurements. BMC Bioinformatics (2008), 9:375 はこの方法で補正を行うソフトウェア、msInspect, MZmine, XCMSなどのパフォーマンスを比べたものです。著者らはソフトウェア間のパフォーマンスの差より、パラメーターのチューニングが大事だと結論しています。どういうことかなーと論文に示された結果をみても、この方法、どのソフトでもあんまりうまくいっていないみたいなんですよね。なので、パラメーターのチューニングが大事だという結論になるみたいです。
そこで、2つ目の方法です。現在利用可能なピークピッキングソフトウェアはおおよそこちらで保持時間補正を行っております。
・ある基準メタボローム分析生データにもっともぴったり重なるように、各メタボローム分析生データのクロマトグラムを前後ずらして補正する。
・補正後のメタボローム分析生データ毎にピークピッキングを行う。
ものです。こちらの方法についての性能比較はありませんが、Vu et al.Getting Your Peaks in Line: A Review of Alignment Methods for NMR Spectral(2013) Data Metabolites 2013, 3, 259-276 はNMRのデータ処理を題材に生データの補正法をレビューしています。補正法だけで20種類くらいあるのですが、LC-MSデータの補正でよく見るのはCorrelation Optimized Warping (COW) です。私も2004年頃にLC-PDAやLC-MSのメタボロームデータの保持時間補正にCOWを活用しており、下記のような補正をパワフルに行ってくれます



では補正されるんだから保持時間のことは気にしなくてもいいのか。といえばそれは違います。これまでの経験則から申し上げますと、補正はあくまでも補正にすぎず、完璧には補正はできません。ピークの誤認識を減らすには、データ取得時の分析法を工夫し、そもそも補正をしなくてもうまくいきそうなくらい保持時間のそろったデータをとることが何よりも大事です。その上で補正をかけるとかなりうまくいくようです。

1つ目に紹介した、ピークリスト作成後の保持時間補正があまりうまくいかない。とは、異なるスタディから得られた2つのデータマトリクス(ピークリスト)の統合がうまくいかないということを意味しています。近年、ノンターゲットのメタボロームデータを1年、2年の単位でとりためて、最終的に統合して解析したいんです(臨床検体サンプルを10-20サンプルずつ適時分析して、最後にデータを統合したい)というお話をお聞きしますが、数十サンプルの分析=>データマトリクス生成=>保持時間補正によるデータマトリクスの統合という流れは技術的に難しいかもしれません。そうなりますと、全サンプルをまとめて保持時間の補正=>全部をまとめたデータマトリクスの一挙生成というワークフローになります。全サンプルをまとめた保持時間の補正を成功させるには、データの保持時間がそろっていることが上述のように大事です。つまり、長期間にわたるLC-MSの分析について、保持時間を一定に保つべく分析屋がウデを大いにふるう余地があります。保持時間がずれない分析をする心構えはまた後日議論します。

2015年4月12日日曜日

欠損値の補間方法

ノンターゲットメタボロームデータから、ピークピッキングソフトウェアを用いて作成したデータマトリクスには、結構空欄があります。これを欠損値(missing value)と言います。およそ20%が欠損値だともいわれています。


欠損値のあるマトリクスの例。白いところが欠損値


空欄が生じる原因は(i)ピークの強度が低く検出できなかった。(ii)ピークピッキングに失敗した。などがありえます。できてしまうものはしょうがないのでこのままデータの解析に進むことになりますが、一つ不具合が生じます。多くの多変量解析では欠損値を許容しないため何か数字を入れる必要があるのです。ではどんなシグナル強度値で補間 (impute) するのが正しいのでしょうか?これまで、

  1. 適当に小さめの値(0.01とか)を入れる
  2. その代謝物シグナルの強度値をサンプル間で比較したときの最小値の1/2
  3. その代謝物シグナルの強度値をサンプル間で比較したときの同じく平均値
  4. サンプル毎に計算したノイズレベル

などが欠損値の補完に用いられてきました。しかし、どれも全く根拠がありませんでした。だれもがほんとにこれでいいの??とおもいつつもケチをつけてもしょうがないということで、知らんぷりを決め込んでいた節があります。Metalignがいいのは、4の方法で、欠損値を補完しておいてくれるため、悩みが1つ減る点にありました。最近優秀なバイオインフォマティストがメタボローム分析に興味を持ってくれはじめたらしく、欠損値の補間方法について検討した論文が相次いで報告されています。

Hrydziuszko et al. Missing values in mass spectrometry based metabolomics: an undervalued step in the data processing pipeline Metabolomics (2012) 8:S161-S174

によると、欠損値は低強度の代謝物シグナルで頻発する傾向があり、ランダムに分散しているわけではないようです。また、3の平均値よりは、1.2.4などの小さめの値のほうが、多変量解析の結果に与えるゆがみはまだ少ないようでした。いままで4を用いてきた身としてはほっとさせられる結果です。しかしもっともリースナブルな補間結果をもたらしたのは、weighted k-nearest neighbour algorithm (kNN) です。サンプル間でよく似た変動をする他の代謝物シグナルを5つくらい探しだし、欠損値をその線形和で回帰して予測する手法です。似たもの同士では欠損値もにているはずだ。と考えるわけです。

Gromski et al. Influence of Missing Values Substitutes on Multivariate Analysis of Metabolomics Data. Metabolites (2014), 4:433-452

では、さらに詳細に検討を加え、random forest (RF) imputationがkNNよりもよいと結論しています。これらの報告は、メタボローム分析における欠損値の取り扱いに明確な指針を示したという意味で、すごくインパクトがあります。また、random forestって回帰や判別を行うための最新のノンパラメトリック法の一つなんですが、超モダンな統計解析技術がばりばりとメタボローム分析に応用され始めているのをみるとわくわくしてしまいますね。


2015年4月10日金曜日

ノンターゲット分析用ピークピッキングソフトウェア性能比較

ノンターゲットメタボローム分析では、ピークピッキング、データの整列化を行うための特殊なソフトウェアが必要になります。
Coble et al.Comparative evaluation of preprocessing freeware on chromatography/mass spectrometry data for signature discovery.J Chromatogr A. 2014;1358:155-64. は、Metalign, MZmine, SpectConnect, XCMSという、4種のフリーで使えるピークピッキングソフトウェアの性能を比較し、検出できたピークの割合がGC-MSのデータで、Metalign 83%, MZmine 60%, SpectConnect 47%, XCMS 41%、LC-MSのデータでMetalign 80%, MZmine 35%, XCMS 45%と、Metalignが圧勝だったことを報告しています。8年近くもやもやしていた点がすっきりしてうれしい限りです。一方、ソフトウェアの顔ぶれに8年間あまり変化がなかったようなので、この分野がやや停滞していたのかなと思うとちょっと残念な気もします。また、結果の解析から単独のソフトウェアでは見落としがあり得ある。と議論しています。バイオマーカーの探索を行う場合は、同じデータセットを複数のソフトウェアを用いて解析することが重要なようです。

さらに Niu et al. の Comparative evaluation of eight software programs for alignment of gas chromatography-mass spectrometry chromatograms in metabolomics experiments. J Chromatogr A. 2014;1374:199-206. では、GC-MSのデータを用いて、SpectConnect, MetaboliteDetector 2.01a, MetAlign 041012, MZmine 2.0, TagFinder 04, XCMS Online 1.21.01, MeltDB, GAVINの8種のソフトウェアを比較して、MetaboliteDetector 2.01aとMetAlign 041012が一番良かったと結論しています。やはりMetAlignは見込んだ通り、かなり根性があるみたいですね。

※MetaboliteDetectorは本家がリンク切れです。開発止まっちゃったんでしょうか?

ちなみに同様の比較を商用ソフトでおこなったRaflei et al. Comparison of peak-picking workflows for untargeted liquid chromatography/high-resolution mass spectrometry metabolomics data analysis. Rapid Commun Mass Spectrom 2015;29(1):119-27では、同一のデータセットを4種のソフト Peakview, Markerview, MetabolitePilot, XCMS Onlineで処理したところ、4つすべてで共通して検出できたのは全体のたった7%だったという衝撃の結果を報告しています。この結果から、一つのソフトウェアでのみ検出されたピークはFalse positiveである可能性が高いので、複数のソフトウェアで共通して検出されるピークを信用するべきである。とCoble et al.とはことなる結論に達しております。
ノンターゲット分析のニーズが年々高まり、ユーザーが増えてきたおかげで、ピークピッキングソフトウェアの比較検討もおこなわれるようになってきたんだと思われます。ただ、結論が混乱しているように、ピークピッキングソフトウェアには、まだまだ改良の余地が多く残されています。何かもう一つブレークスルーが足りないんですよね。しかし、最近になってProgenesis QIのようなかなり本気の市販ソフトも現れるなと、ピークピッキングソフトウェア群雄割拠の時代が近づいているようです。今後の動向と進展に期待大です。
だれかProgenesis QIとMetAlignの比較をしてくれないかな。。

2015年4月8日水曜日

ターゲット分析とノンターゲット分析

質量分析装置を用いたメタボローム分析には大きく分けて2つの考え方があります。
ターゲット分析 (targeted analysis) では、まずはじめに分析する対象化合物を決めます。標準化合物などを用いてクロマトグラム上で対象化合物が溶出する時間と質量電荷比 m/z を確認します。実サンプルを分析し、対象化合物のピーク強度を測定します。たくさんの化合物を計測したいときは、分析対象化合物の数を増やせばいいです。上限はありません。本法のいいところは、従来の分析を考え方が全く同じなため、既存のソフトウェアを用いてピークピッキングなどのデータ処理ができる点にあります。一方、本法ではターゲット化合物以外の予期せぬ変化を見逃してしまいます。

ノンターゲットまたはアンターゲット分析 (nontargeted or untargeted analysis) では、事前に測定対象を決めません。いきなり実サンプルを分析します。たくさんのピークが検出されますので、そのすべての強度値を調べます(ピークピッキング)。サンプル間で各ピークのシグナル強度を比較できるようデータを整列化して、データマトリクスを出力します。これでは、各ピークがどの代謝物に由来するかわかりませんので後から、データベース検索を行ってピーク同定を行います。本法のいいところは、サンプル内の代謝物組成の予期せぬ変化を見つけることができる点です。一方、従来の分析法を考え方が逆なため、ピークピッキング、データの整列化を行うための特殊なソフトウェアが必要な点があげられます。

私が2004年ころにノンターゲット分析に着手した頃はピークピッキング、データの整列化を行うためのソフトウェアがほとんどありませんでした。唯一利用できたMSFACTsではうまく処理できず、しかたなく自力でPerl scriptを書いたりしました。まずLCMS (島津LCMS2010)のデータをNetCDF形式に変換した後、バイナリファイルをテキストに変換します。さらにテキストファイルを整数質量値*スキャン番号のマス目に強度値が入ったテーブル形式に変換し、COWToolsというクロマトグラムアライメントソフトウェアで保持時間の補正を行い、補正後のデータを用いてピークピッキング、データの整列化をおこなうスクリプトを書きました。必要はなんとやらというもので、論文に使える仕事ができたのでありますが、素人プログラムの限界も明らかでした。
そこで、2006年からQ-TOFのデータを用いて本格的にノンターゲット分析を実施するに当たり、その頃登場していたフリーのソフトウェアXCMS, Metalign, MZmineを一通り試用しました。そのときの印象として、XCMSはピークの取りこぼしが多い、MZmineは同位体イオンの考慮などのおしゃれ機能があるが、そのせいで取りこぼしが多い、MetalignはFalse positiveも相当多いが、取りこぼしが少ない根性のあるpeak pickerである。というものでした。正解がうまく検出されないよりは、ゴミピークの中に正解が埋もれている方がまだましである。と考え、以降の植物二次代謝産物のノンターゲットメタボローム分析はMetalignを一貫してもちいてきました。が、本当にこの判断が正しかったのかまったく自信はなかったのです。

つづく

2015年4月6日月曜日

ピーク形状の品質評価法

細胞内にふくまれる代謝物の定量には、液体クロマトグラフィー―質量分析装置 (LC-MS)などを用います。LC-MSを使うと、代謝物はクロマトグラム上のピークとして検出されます。ピークの面積と代謝物濃度が比例します。そこで、メタボローム分析では、多数のピークを自動的に検出して面積値のリストを出力してくれる便利なプログラムが大活躍します。が、小さいピークになるとノイズの影響を強く受けてしまい、がたがたしたジグザグのヘンな形のピークになってしまうことがあります。そういうピークの面積値はあまり信用ができません。しかし、プログラムが書き出した面積値のリストを見てもどのピークの形がジグザグなのかはわかりません。なので、どうしても確認したいときは、人間の目で確認する必要がありました。
Zhang et al. Quality evaluation of extracted ion chromatograms and chromatographic peaks in liquid chromatography/mass spectrometry-based metabolomics data. BMC Bioinformatics 2014, 15(Suppl 11):S5 はピーク形状を評価する新しい指標、その名も zigzag index を提案した論文です。きわめて簡単な方法(クロマトグラム上の隣接するポイントの距離を計算する)で計算したzigzag indexが、ガウス分布への適合度やS/N比などの従来法にくらべてピーク形状の品質評価指標として圧倒的に優れていることを示しています。
クロマトグラムの解析技術とは、スマートな理論が現実に敗北し続けた死屍累々の歴史でもあるわけですが、この zigzag index がいいところは、

  • そもそものきっかけが実務家の魂の叫びとも言うべきニーズから始まっている。
  • スマートな理屈抜きでかつ簡潔

な点です。かなり使えそうな印象です。実際のメタボロームデータを用いた検証がもう少し必要ですが、こういう技術がどんどん発展していくとうれしいですね。


2015年1月25日日曜日

GFP発現酵母株を作るかなり簡単な方法

出芽酵母に蛍光タンパク(GFP)を発現させたかったのです。そこでもっとも簡便な方法はなにかなといろいろ調べてみたところ、岡山大学の守屋先生のホームページで「Gap-Repair Cloning」法を発見したので試してみました。Gap-Repair Cloning法とは出芽酵母が「組み換え修復機構(一般には相同組み換え)」活性を持つ事を利用して、25bp以上の相同領域を持たせたDNA断片をそのまま酵母に導入し、酵母細胞内で断片を結合させてプラスミドを構築する手法です。今回行ったのは

1.pGK426(2ミクロン型の複成開始点およびURA3マーカーを持つプラスミドベクター、神戸大学の石井先生作成)をSalI, EcoRIで切断し、念のため電気泳動後に精製したもの。1.5時間もあれば作成可能。
2.pUA66 (GFP遺伝子をコードしている)を鋳型としてGFP遺伝子のORF部分をPCRで増幅したPCR反応液。その際、PGK1プロモーターの3'末端領域およびPGK1ターミネーターの5'末端領域の50bpがそれぞれ、GFP遺伝子の上流と下流に付与されるようにプライマーを設計した。今回は念のため50bpの重複領域を設定したが25bpくらいまで減らせる(=コスト削減)らしい。4時間もあれば作成可能。
3.その日のうちに(1)と(2)をそのまま酵母YPH499株に酢酸リチウム法で形質転換、選抜培地にまく。
4.3日後には大量のコロニーが得られた。
5.5コロニーを選んでコロニーPCRを行ったところPGK1プロモーターとPGK1ターミネーターの間にGFP遺伝子が挿入された事を示すバンドが5株とも観察された。

6.コロニーをかき取って顕微鏡で観察したところ、GFPの蛍光が見られた。

白黒写真でもうしわけありません。

大腸菌を一切使わず、シーケンスのチェックもヌキではありますが作り始めて3日後にはできました。またすごく形質転換効率が高くておどろきました。
Gap-Repair Cloning法の利点と欠点は守屋先生のページにて議論されております。出芽酵母のこういう便利な特性を活用するとあっとおどろく事ができるかもしれませんね。