2017年7月28日金曜日

貴重なマススペクトル

現在MassBank等で収集されているマススペクトルデータには、化合物群に偏りがあります。
植物二次代謝物では、フラボノイド、桂皮酸エステル類のデータが充実しています。標準化合物の入手が容易なため、フラグメンテーションのメカニズムも詳細が明らかになっており、「高品質なデータ」を選んで帰属したり、選抜したりする必要がもはやありません。
一方、それ以外の多くの化合物グループは、標準化合物の入手が困難なため、マススペクトルデータが極端に少なく、文献記載のデータがまれにあるという状況です。このような「レア物件」はこれまでの議論でいう「高品質なデータ」に該当しないことがほとんどですが、「化合物同定を進める」ための貴重な情報源になっています。
このため、「代謝物の同定を目的」として「高品質なデータ」を選抜する必要性は現時点でほとんどありません。分析屋が労を割くべきは、「データの信頼性を評価する方法の開発」と、「高品質なレア物件データをどのように収集していくか」にあります。

2017年7月25日火曜日

人工的なマススペクトル

発見型プロテオミクスの成功に貢献した技術基盤の一つが、ペプチドのフラグメンテーションルールに基づく、人工的なライブラリの作成法にあることは間違いありません。したがって、人工的なライブラリの作成技術が今後のマススペクトルデータを用いた代謝物構造推定に重要な役割を果たすとおもわれます。ただし、ペプチドのフラグメンテーションルールのような、簡単なルールですむ化合物がリピド以外にあるのかはわかっていません。リピドが成功した理由は、アグリコンに相当する主骨格部分(=フラグメンテーションが複雑)がない点にあります。

プロテオミクスから学ぶべきはもう一つのポイントは、同定結果の品質管理法です。初期プロテオミクスでは、緩めの閾値で同定数を競うナンバーゲームとなり、後に、そのほとんどが誤同定だったことが明らかになっています。逆配列のデコイ(偽)データベースを利用した誤同定率の推定法が開発され、発見型プロテオミクスのもっとも重要な技術基盤の一つとなっています。いまのところ、代謝物のマススペクトルのデコイデータベースの作成法や、マススペクトルの類似性のp値の計算法など、品質管理が可能な検索方法には大きな進展がありません。このような研究開発の基盤として、MassBankデータセットが果たす役割は大きいと思います。
したがって、人工的なライブラリを作成は、同定結果の品質管理法をどうするのかという問題とセットになっており、むしろ後者のほうが重要であると考えます。

他にも人工的なライブラリを作成する場合

  • 化合物IDも一般名もない化合物の人工マススペクトルデータにヒットしたとして、その化合物を何と呼べばいいのか? 
  • 異なる構造の化合物から、同じ人工スペクトルが生成しうる。そんなデータにヒットしたとして、その化合物を何と呼べばいいのか? 

などの論点があります。楽しい話題ですが、またの機会を待ちたいと思います。

2017年7月22日土曜日

品質の良いマススペクトルとはなにか?

マススペクトルの議論では下記2点を分けて考えたほうが生産的です。
(1) 物理化学特性データとしてのマススペクトル
(2) 構造情報としてのマススペクトル

品質については、実験科学である以上、再現性という観点(のみ)が重要です。

物理化学特性データとしてのマススペクトル

物理化学特性データとしてのマススペクトルとは、融点やIRスペクトルと同じく、化合物の特性を示すデータです。化合物の調製、単離からマススペクトルの取得に至る方法が、論文に記載されることで再現性が担保されています。この方法で天然から単離した、合成して単離したこの化合物サンプルから、正しく校正された装置でマススペクトルを取得したら、こういうマススペクトルが得られた。という事実に価値があります。同じ手順を踏んで、化合物を調製し、同一の条件でマススペクトルを取得したら(不純物由来の夾雑シグナル等が含まれる可能性があったとしても)同一のデータが得られるはず。という再現性が、マススペクトルの一致を根拠とした化合物同定を可能とします。

したがって、再現性の良いマススペクトルであるかどうかを判定するには、
①正しく校正された装置、条件で取得されたことを担保する情報が必要
これをデータそのものから読み取るには、
※ピークの形状が良い(profileの対称性が良く、重心が真ん中)。
※容易に帰属可能なシグナル(いわゆる分子イオン[M+H]+, M+等)のm/z値が理論値と一致していること(どのくらい一致していたらいいかは後に議論します)。
が根拠になりえます。

②再現性と不純物
1回だけ取得したマススペクトルのシグナルに、不純物由来の夾雑シグナルやノイズが含まれるか判定する方法はありません。異なる由来の同一化合物から取得した複数のマススペクトルで共通して再現性良く観測されるシグナルが、その化合物由来である。と考えるのが妥当でしょう。
したがって、再現性の良いスペクトラムが1つだけある、という状況は考えにくいです。
異なる由来の同一化合物から(できれば異なる研究室や装置で)同一条件で取得した複数のマススペクトルが冗長に存在し、その上で、再現性の高いシグナルが多く含まれる信頼性の高いマススペクトルが判明する。という理路をたどっています。
さらに、厳密にいうと、再現性の高いシグナルが本当に化合物由来かどうかはわかりません。次に取得したデータでは再現せず、夾雑物由来のシグナルであることが判明する可能性があります。となると、再現性の良いスペクトラムというのは、現時点の仮説であって、以降の検証のためにも、冗長なマススペクトルの存在が重要です。
もっというと、冗長なマススペクトルの中に、ノイズや、夾雑物がふくまれるものが含まれていても問題ありません(冗長だからエラー校正ができる)。低品質なデータにもそれなりに使い道があるという点を強調したいと思います。

まとめ
化学者にとって、重要な物理化学特性データとしてのマススペクトルとは、信用できるデータのことです。

  • きちんと校正された装置で取得したかどうかあとから検証可能になっていること
  • 再現性をあとから検証するために、事実としてのスペクトルを多数集積されていること。

が大事であると思います。現在のMassBankがいいのは、一部データが冗長に収集されているため、上記のような検証が可能な点です。玉石混交であってもいろいろあることに事実として価値があります。
データの信用とは、理屈に合う合わないではなく、再現するかしないかのみにあります。どんなに理論に合わなくても、再現して観測されるシグナルがあれば、理論を修正するべきです。
事実としてのスペクトルのうち、現時点で最も信頼性が高いと考えられるものを指定することができます。しかし、将来的には間違いである可能性は排除できません。一方、「高品質」である。という主張は上記手続きとは関係がないため、化学者としてあまり関心がありません。

構造情報としてのマススペクトル

m/z値=>組成式を推定=>フラグメント構造に帰属する、という作業を実施する際に、精密質量電荷比データがあると、組成式の推定が容易(候補が減る)となります。MassBankにはOjimatrixという、組成式帰属情報が収集されており、宝物のようなデータとなっております。帰属結果からは部分構造に関する情報が読み取れる場合があります。ただしOjimatrixでもすべてのフラグメントイオンが帰属できたわけではなく、本当に正しいのかについては検証が常に行われ続けるべきであると思います。
m/z値から組成式を推定する際、m/z値と理論値とのずれをどこまで許容するか、という閾値を設定する必要があります。妥当な閾値は、精密質量電荷比の実測値のばらつきの標準偏差 S の2.5-3倍です(2倍では5%のシグナルでミスが生じると期待されます。)。したがって、構造情報として有用なマススペクトルの必須条件の1つは

  • 質量電荷比の実測値のばらつきの標準偏差が正確に既知であること

となります。現時点でこれを満たしているデータはMassBankにも1つもありません。
そのうえで

  • 閾値が1 - 5 ppm以内

であれば、プロダクトイオン、およびニュートラルロスの組成式を一意に推定できる可能性が増えます。ただこれは情報量が多く、便利なのであって、情報の質や信頼性とは関係がない点には注意が必要でしょう。ユニットマスのマススペクトルからでも有益な構造情報をえることは可能です。m/z値から組成式を推定が推定できると、誤差を含む数値データからおさらばして、記号化できます。
さらに、

  • フラグメントイオンが化学構造とユニークに関連づけることができるのに充分な数だけ観察されている≒できるだけ多くのプロダクトイオンが観察される

のも情報量が多く便利ではありますが、情報の質や信頼性とは関係がなく、分けて議論すべきだという点に注意を払うべきです。
できるだけ多くのプロダクトイオン情報を収集するという観点からは、コリジョン電圧を走査するRampモードでデータを取得する、とか、複数のスペクトルを合成するとか、MSnのイオンツリーとか、正規表現といった、いろいろな抽象化のアイデアが出てきます。物理化学特性データとしての事実としてのスペクトルではもはやありませんので、抽象化した「構造情報としてのスペクトル」として別に考えるべきでしょう。
たとえば、cDNA解析では同一mRNA由来のcDNAの冗長なリードから、mRNA全長配列の再構成がおこなわれました。サンガー法のエレクトロフェログラム(数値データ)から、ショートリードの配列(ATGC..)に記号化され、配列情報を再構成した仮想的、抽象的な全長配列が再構成されます。さらに配列情報の取り扱い方法が確立しており、信頼性評価が可能です。

これと同様に、複数の「物理化学特性データとしてのマススペクトル」から、組成式に記号化し、さらに再構成して抽象化した「構造情報としてのマススペクトル」を作成しようとしている。と考えることができます。
この場合は、「構造情報としてのマススペクトル」に含まれるフラグメントイオンの情報の信頼性は、できるだけ多くの「物理化学特性データとしてのマススペクトル」で再現性良く観測されること、に依存します。これを実現するには、「物理化学特性データとしてのマススペクトル」は冗長であることがとにかく重要です。
また、「構造情報としてのマススペクトル」の信頼性の評価法が必要です。この部分は現在研究段階にあり、研究を進めるには「物理化学特性データとしてのマススペクトル」がじゃぶじゃぶある。という状況を作るべきです。
現在のマススペクトルに関する誤謬の一つは、「物理化学特性データとしてのマススペクトル」の決定版が1つだけあり、そこからすべてが読み取れるというものです。GC-MSがそれにやや近いため生まれた誤謬であると思います。

他にも構造情報としてのスペクトルでは、

  • 帰属済みのシグナルのm/zは組成式で記述すべき
  • 構造情報としてのマススペクトルをどのように記述すればいいのか
  • スペクトルの分解能とでもいえる品質評価法がありえるのではないか

などの論点があります。またの機会に。

まとめ
構造情報としてのマススペクトルという観点から、広く公開されている情報は、MassBankのOjimatrixデータのみであるといえます。Ojimatrixデータの充実、信頼性の向上が、化合物同定のための品質向上につながります。一方、貴重なOjimatrixデータのうち、低品質なものを落とすとことにどれだけ意味があるのか不明ですが、もったいないというのが率直な感想です。
現状のOjimatrixデータは「物性情報としてのマススペクトル」を一部記号化した、注釈として位置づけられています。そこから抽象化の進んだ「構造情報としてのマススペクトル」はMassBankにはまた存在していません。存在しないものについて高品質であるかどうかは議論できません。また、信頼性=再現性=冗長性なので、現時点でできるとことは、データを収集、充実、整理していくこと以外にありません。

2017年7月16日日曜日

第158回 質量分析関西談話会

第158回 質量分析関西談話会 を下記の概要で実施します。

今回のテーマは

質量分析機器メーカーの技術を学ぶ (III)&「かんたんMSの作り方」

をテーマに実施いたします。さらに今回は特別企画として、大阪大学の青木順先生よりMS自作派待望のご講演をいただけることになりました。 全国3000万の表面分析マニア、マス自作派、藤戸派の皆さんはもちろん多くの皆さんでお誘いあわせの上、ご参加のほどどうぞよろしくお願いします。


*************************


第158回 質量分析関西談話会

日時:
2017年9月2日(土) 13時30分~17時55分(受付開始13時15分)
会場:
島津製作所関西支社マルチホール (会場定員60名)
大阪市北区芝田1-1-4
大阪梅田 阪急ターミナルビル14階
(JR大阪駅ホーム北側に隣接するビルです。阪急17番街のエレベータで14階までお越しください。)
電話06-6373-6522
交通アクセス:http://www.shimadzu.co.jp/aboutus/company/access/kansai.html
主題:
質量分析機器メーカーの技術を学ぶ (III)&「かんたんMSの作り方」
 大変好評を頂きました「質量分析機器メーカーの技術を学ぶ (I)(II)」に引き続き、今回は「質量分析機器メーカーの技術を学ぶ (III)」として、アルバック・ファイ株式会社、株式会社島津製作所様より、各メーカーの得意とする表面分析及び超臨界流体クロマトグラフィーについて原理から分かりやすくお話しいただきます。また、各技術を活用しておられるユーザー様からアプリケーション例をご紹介いただきます。さらに今回は特別企画として、大阪大学の青木順先生よりMS自作派待望のご講演をいただけることになりました。各講演の後半には製品や技術に対します質疑応答時間を十分に取っていますので、ぜひこの機会に日頃から抱いておられる疑問等をお持ちいただき、当会を十分に活用していただければと思います。
 多くの皆様のご参加をお待ちしております。
講演プログラム:
藤戸 由佳(株式会社島津製作所):「超臨界流体クロマトグラフと質量分析計の接続」
眞田 則明(アルバック・ファイ株式会社):「表面微小部分析を実現するイメージング質量分析法:TOF-SIMS」
特別企画
青木 順(大阪大学):「かんたんMSの作り方」
※ユーザー様からのアプリケーション例のご紹介も予定しています。詳細が決まり次第プログラムをアップデートいたします。

参加費:
無料
講演終了後、簡単な懇親会を予定しております。懇親会に参加される方は当日会場にてお志を集めさせていただきます。
参加申込み:
参加希望の方は、(1)氏名、(2)所属、(3)メールアドレス、(4)日本質量分析学会
会員/非会員の別を添えて、下記メールアドレスにお申し込みください。
kansai17_%_mssj.jp (送信の際は、_%_を@に変えてください)
関西談話会世話人代表 松田史生(大阪大学)
世話人:
川畑 慎一郎(島津製作所)、黒野 定 (和光純薬工業))、松田史生 (世話人代表、大阪大学)

Skylineの使い方その3 MRM系列の設定

MRM系列の設定

Skylineの「ターゲット」の各タンパク、ペプチドの横に+マークがあります。ここをクリックするを中身を見ることができます。ペプチドの下の階層が、プリカーサーイオンの階層です。428.2504++ というのが、非標識の2価のプリカーサーイオンという意味です。さらにその下の階層が、プロダクトイオンの階層です。D[y7]784.4563+と書いてあると、1価のy7のプロダクトイオンで、m/zは784.4563なんだなとわかります。

※2価のy系列が全体の85%、3価のy系列が10%、2,3価のb系列が残り5%くらいという印象です。3価とか、b系列が無視できないのが悩ましいところですね。



これらの設定ポイント1は「設定」=>「ペプチド設定」の「修飾」タブです。
構造修飾:還元アルキル化を行い、Cysを許容する場合はCarbamidomethyl(C)は必ずチェックします。
同位体標識:ここは利用する場合に該当するものを選びましょう。
あとはデフォルトでいいと思います。


設定ポイント2は「設定」=>「トランジション設定」です。このうち「予測」タブはこんな感じです。コリジョン関係の設定は島津の場合「衝突エネルギー化」だけでいいです。

「フィルタ」タブでは、採用するプリカーサーの電荷、プロダクトのイオンの電荷、イオンタイプが選べます。2価のyと3価のbだけを選ぶというような技は使えないようです。
「プロダクトイオン」はややこしいのですが、プロダクトイオンとして選ばれる下限と上限を設定しようとしていると考えるとわかりやすいです。このへんはいろいろいじってみてください。特別イオンはiTRAQ試薬とか使う場合に設定するみたいです。




「装置」タブでは、許容するm/zの範囲を最小、最大m/zでそれぞれ設定できます。それ以外の、動的最小プロダクトm/zが何かを意味しているのか、、、むつかしいですねぇ(笑)。よくわかりません。


メソッドの書き出し


メニューから「ファイル」=>「エクスポート」=>「トランジションリスト」を選ぶとMRMメソッドを各装置が読み込めるフォーマットで書き出せます。下記のようにするとコリジョン電圧を最適化し、全MRMを1つのファイルにまとめて書き出すことができます。共同研究者のみなさまはここまで行ったSkylineファイルと、書き出したファイルの両方をご送付いただけると幸いです。
作成したファイルはLabSolution上でLCメソッドと合体し、データを取得します。









Skylineの使い方その2 FASTAファイルからMRMメソッドの作成


MRMメソッドの作成


ターゲットタンパクを感度よく定量するためのMRMメソッドを作成します。ここでは、高速液体クロマトグラフ―三連四重極質量分析装置(LC-MS)の使用を前提に説明します。例として島津製作所製nanoLCとLCMS8060を使用する場合を説明します。Skylineは、島津製作所製LCMS80x0シリーズに対応済です(後述)。

MRMメソッドを作成するには、ターゲットタンパクのアミノ酸配列から

  1. LC-MSで感度よく検出できるトリプシン消化ペプチドを選抜
  2. 三連四重極質量分析装置(トリプルQ)で感度よく検出できるMRM系列を設定する必要があります。

注:コリジョン電圧等のフラグメンテーションのパラメーターはプリカーサーイオンのm/zに依存して設定します。Skylineが島津製作所製LCMS80x0シリーズに最適な値を自動的に設定してくれます。

ヒトであれば、すでに全タンパクについてMRMメソッドが作成済みですのでそれを使いましょう。一方、マニアックな生物でマニアックなタンパクが定量したい場合はMRMメソッドを自力で作成する必要があります。

例えば大腸菌 E. coli のPgkタンパクを測定するMRMメソッドを作成したいとします。


  1. 大腸菌 E. coli のPgkタンパクを含有している粗タンパク液をゲットする(精製したPgkタンパクとか、Pgkタンパクを過剰発現した大腸菌遺伝子組換え株の粗酵素液とか、Pgkタンパクが発現しているはずの大腸菌野生株の粗酵素液などを作成します)。
  2. トリプシン消化した、ペプチドサンプルを調製する。
  3. Pgkタンパクのアミノ酸配列から、すべての候補ペプチドを生成し、それらの全候補MRM系列を生成し、「MRMメソッド作成用のMRMメソッド」を生成する。
  4. 「MRMメソッド作成用のMRMメソッド」で「ペプチドサンプル」サンプルを分析する。
  5. 高強度で大腸菌のPgkタンパクを定量できるペプチドとMRM系列を選抜する。


という作業を行います。このうち3と5がSkylineの出番です。

FASTA形式のアミノ酸配列をコピペすればいい


まず、大腸菌 E. coli のPgkタンパクのアミノ酸配列のデータをFASTA形式でゲットしましょう。
http://www.uniprot.org/uniprot/P0A799

>sp|P0A799|PGK_ECOLI Phosphoglycerate kinase OS=Escherichia coli (strain K12) GN=pgk PE=1 SV=2
MSVIKMTDLDLAGKRVFIRADLNVPVKDGKVTSDARIRASLPTIELALKQGAKVMVTSHL
GRPTEGEYNEEFSLLPVVNYLKDKLSNPVRLVKDYLDGVDVAEGELVVLENVRFNKGEKK
DDETLSKKYAALCDVFVMDAFGTAHRAQASTHGIGKFADVACAGPLLAAELDALGKALKE
PARPMVAIVGGSKVSTKLTVLDSLSKIADQLIVGGGIANTFIAAQGHDVGKSLYEADLVD
EAKRLLTTCNIPVPSDVRVATEFSETAPATLKSVNDVKADEQILDIGDASAQELAEILKN
AKTILWNGPVGVFEFPNFRKGTEIVANAIADSEAFSIAGGGDTLAAIDLFGIADKISYIS
TGGGAFLEFVEGKVLPAVAMLEERAKK


FASTA形式のアミノ酸配列のデータをコピーし、Skylineの「ターゲット」領域内で「右クリック」=>「貼り付け」すると候補ペプチドのリストが生成します。
各ペプチドはK.MTDLDLAGK.R [5, 13]のように記載さていますが、これは5-13アミノ酸残基のペプチドMTDLDLAGKでN末端側の1つ隣の残基はKで、C末端側の1つ隣の残基はRという意味です。出てくるペプチドのリストは設定によって異なります。
また、右下に現在のタンパク数、ペプチド数、プリカーサー数、MRM系列数が表示されています。



まずはこれを読むべし


定量プロテオーム解析を志す方必携は下記論文です。プロテオーム解析の基本的な考え方、メソッド作成法、サンプル調製法の詳細が事細かに解説されています。プロテオーム解析をうまくやるコツは、まずはここに書いてある通りにやってみること。といっても過言ではありません。Open Access論文にしてくださって感謝であります。
Uchida, Y., Tachikawa, M., Obuchi, W., Hoshi, Y., Tomioka, Y., Ohtsuki, S., and Terasaki, T. (2013). A study protocol for quantitative targeted absolute proteomics (QTAP) by LC-MS/MS: application for inter-strain differences in protein expression levels of transporters, receptors, claudin-5, and marker proteins at the blood-brain barrier in ddY, FVB, and C57BL/6J mice. Fluids Barriers CNS 10, 21.


ペプチド設定


候補ペプチドを選ぶ基準を設定するのが、メニュー「設定」=>「ペプチド設定」です。
タブがたくさんありますが、このうち「消化」「フィルタ」タブが候補の選抜にかかわります。

「消化」タブでは、消化に用いる酵素が選べます。
酵素:通常はTrypsin[KR|P]でOKです。
最大ミス開裂数:許容するmiss cleavageの数を設定します。切れるはずのサイトで切れないmiss cleavageは定量プロテオミクスでは取り扱いが難しいので0にしておきましょう。
バックグラウンドプロテオーム:候補ペプチドが同生物種の他タンパクにも含まれていないかを確認するためのものです。動作がよくわからないので今回は使わずにおいておきます。




「フィルタ」タブでは下記を設定します
最小長:選択するペプチドの長さの最小です。この場合8残基以上のペプチドを利用します。
最大長:選択するペプチドの長さの最大です。この場合8残基以上のペプチドを利用します。
ターゲットプロテオーム解析ではおおよそ8-25残基程度のペプチドを選抜することが普通です。これより短いと特異性が下がり、これより長いとイオン化効率、クロマト上での挙動が悪くなることが増えるようです。一方、ペプチドの候補が少ないときは、この幅を広げて少しでも候補を増やしたりもします。
末端AAを排除:この長さだけ5’および3’末端領域を無視するという設定です。端っこは定量には向かないらしいのですが、いつも0にしています。
潜在的に不規則な終端を排除:よくわからないのでチェックなし
以下を含むペプチドを排除:Cys, Met, Hisなどを含むペプチドは酸化、イオン化効率が低いなどの理由で候補ペプチドに向かないといわれていますが。調べたところ、Cys, Met, Hisなどを含むペプチドもわりと普通にターゲットペプチドで使われているようですので、まずはフィルターをかけずに選抜し、候補が多すぎるときにはフィルターをかけて候補を減らす。というような使い方をしています。
すべての一致ペプチドを自動選抜:チェックと入れています。



このようにしてフィルターをペプチド設定を行うと下記のようになり、「ターゲット」のペプチド数が減っていました。






Skylineの使い方その1Skylineのインストール

Skylineとは定量プロテオーム解析用のメソッド作成、データ解析用ソフトウェアです。ワシントン大学MacCoss Labが開発し、無償で配布されています。Skylineの出来が良すぎるため、他の商用ソフトウェアが駆逐されつつあります。まずは、Skylineを使ってみましょう。Windows版オンリーです。

ダウンロード

“Skyline proteomics”でググってトップヒットする “Start Page: /home/software/Skyline - MacCoss Lab Software”に行きます。

https://skyline.ms/project/home/software/Skyline/begin.view

Download & Installから青いアイコンの、Skyline 19.1(2019.10.05の最新版、適宜アップデートあり。バージョン名の管理方法が最近変更になったようだ)をダウンロードしましょう。各自の環境に合わせて64bit, 32bit版が自動的に選ばれていますが。右端のPagesから好きなのを選べます。
メールアドレス、名前などの登録を行い、画面の指示に従ってダウンロード、インストールを進めていけばOKです。




メールアドレス、名前などの登録を行い画面の指示に従ってダウンロード、インストールを進めていけばOKです。登録しなくてもinstallできます。登録画面の下のほうに以下のような表記があります。

If you would like to continue without registering click here.↓

ここからはいってください。


起動

WindowsのスタートメニューにSkyline=>Skylineから起動できます。最近のバージョンでは起動時に「開始ページ」が表示されるようになり、最近使ったファイルとか、次の作業を選べるようになりました。まよわず「空のドキュメント」を選びましょう。




下記のような画面が出れば起動成功です。




※余談 また、「開始ページ」のチュートリアルタブには日本語のチュートリアルが多数ありますので、なにか疑問のある方はこちらをみましょう。






2017年7月2日日曜日

AIでオープンイノベーションにはビッグデータ自作


最近、「これAIでなんとなんない?オープンイノベーションとかできそうだし。」という真剣なお話をうかがうことがあります。

 AIにどんな質問に答えてほしいの?といえば、もちろん、どんな質問をしたらいいのか教えてくれるAIなんですが、もうすこしかみ砕くと、もうかる事業はなにかとか、運命のヒトにいつ会えるのかとか、Natureに載る研究テーマは何かとかを質問したいわけです。
 巷の議論では、古今東西のなんでも知っているスーパー物知りさんAI「聖徳太子?」「ホームズの相方?」が一人いて、その人に聞けばなんでも教えてくれる。というような構図がなんとなく垣間見られます。

この構図をすすめていくと
1.スーパー物知りさんAI「聖徳太子」を作る技術、データが特定企業に独占されているため、「聖徳太子」に質問する権利が高価である。

2.「聖徳太子」はみなに同じことを教えてくれるため、聖徳太子のお答えから圧倒的にあたらしいイノベーションor知財性が出るような気がしない。

3.そこで、「自分たちしか知らない知識データ」を「聖徳太子」にオプションで付けたくなるが、「聖徳太子」を作る技術を利用する権利も独占なため高価になる。


  • でもGoogleがそのうちタダで検索できる「聖徳太子」を作ってくれるはずなので心配しなくていい。


4.通常は、質問したくなる時というのは、なにか調べ物をしているときで、「何か」について調べているはずです。専門的なことを調べている場合、質問相手は「聖徳太子」である必要はなく、その道の専門家な小さいAIでよいかもしれない。

5.「専門家」に質問したい人は少ないので、AI作成は独自に行う必要があるだろう。

6.もし自分好みの「専門家」を作ることができて、質問にすごいいいお返事をしだした場合、その専門家AIが公開されることはないだろう。


  • 専門家AIを作成する技術はオープンになる可能性があるが、役に立つ専門家AIが表に出ることないかもしれない。
  • あるいは高価な専門家AIに質問する権利を販売する。というようなビジネスモデルがありえるかもしれない。


7.知識ベースのエキスパートシステムの場合、質問が形式化できるだろう。おそらく

  • ○○と××と△△の共通点あるいは黒幕は誰?(AKB48, NMB48, HKT48の共通点は?=>女性アイドルグループ、黒幕は秋元康)
  • ○○と××といえばなに?(NMB48で結婚といえば=>須藤など)

というものになると思われる。基本的にはバスケット解析?Word2Vecですな。

8.自分好みの「マイ専門家AI」が作れるかどうかは、教える知識に依存する。ここでいう知識とは、概念と概念との関係性とその強度を定義したグラフ(知識グラフ=ポンチ絵)のことらしい。で、そのグラフとは、テキストマイニングすればつくれるんじゃない?ということになっている。となると、

  • 自分たちしかもっていない知識や知見があること
  • それをテキストデータとして電子化し、アーカイブ化していること

が重要になる。さらに、

  • 報告書の要約に、「知識グラフ=ポンチ絵」そのものを書かせる。

とテキストマイニングをしなくて済むのだろうか?セマンティックWEB??

9.知識グラフを自動で作るために、テキストマイニングが必要なのであって、知識グラフそのものは手作業でキュレーションしたほうが精度が高くなりだろう。
となると

  • Cellの内容を知識グラフ化したデータを高精度にキュレーションしたもの
  • Wikipediaの知識を文章を知識グラフ化したデータを高精度にキュレーションしたもの

などは、「マイ専門家AI」を作成する際の、基礎コンポーネントになりえるため、高い価値があるかもしれない。

10.いずれにせよ、AIを作る使う技術の共通インフラ化が進み、「マイ専門家AI」を手軽に作れる時代がすぐ来るような気がする。となると、電子化した独自データの質、量で勝負が決するのは間違いない。またそういうデータは門外不出であるとおもわれるので、自力で作成するしかない。

というわけで、「これAIでなんとなんない?オープンイノベーションとかできそうだし。」というお話に対するコメントは


  • AIに質問したいことを形式化しておくべきだ。
  • AIを作る、使う技術は(すぐ)共通インフラ化するだろう。
  • その技術で作ったAIそのものはオープンにはたぶんならないので、自力で作る必要があり、それには、ビッグデータをお金で買うか、自前で集める必要がある。
  • ビッグデータをとる技術もオープンイノベーションの領域になるかも。
  • データは現場で生み出されるので、とにかく工場にあるありとあらゆるものにセンサーを付け、事務所、実験室の書類、ノートも電子化して記録して、取っておくことが今できる一番いいとりくみである。


ということで、ポイントとなるキーワードは「センサー」「記録魔」「ライフログ」となるみたいであります。ビッグデータの自作ですね。







2017年メタボロームシンポジウム若手会

※メタボロームシンポジウム若手会とはメタボロームシンポジウムに合わせて若手有志が実施している勉強会です。今年は松田が幹事のため宣伝させていただきます。

2017年メタボロームシンポジウム若手会開催告知


メタボロームシンポジウム若手会を今年も開催いたします。今年はメタボロームシンポジウム本会の前日午後にセミナー形式で実施します。メタボロミクス入門をテーマにサンプル調製、データ取得、データ解析の実際とコツを現役バリバリの研究者が解説します。また、参加者の皆様からの質問をもとに、基礎から応用にいたる様々な情報交換を行いたいと思います。メタボロミクスに関心のあるアカデミア、企業研究者にメーカーの皆様の参加を歓迎します。会場提供協力:(株)島津製作所

・概要
日時:2017年11月12日(日曜日)13:15~17:00
http://metabolo2017.kenkyuukai.jp/special/?id=23202
場所:島津製作所関西支社マルチホール
大阪市北区芝田1-1-4 大阪梅田 阪急ターミナルビル14階
(JR大阪駅ホーム北側に隣接するビルです。阪急17番街のエレベータで14階までお越しください。)
電話:06-6373-6522
交通アクセス:http://www.shimadzu.co.jp/aboutus/company/access/kansai.htm
参加費:一般2000円、学生無料を予定
定員:会場の都合上,定員50名までとさせて頂きます.
締切:10月20日(金)
※懇親会は同場所にて別途実費を徴収して実施します。
※当日の宿泊は各自手配ください。

・参加申し込み方法
大変お手数ではございますが,下記を,松田史生(fmatsuda (_at_)ist.osaka-u.ac.jp)までご連絡ください.

・ 件名「メタボロームシンポジウム若手会参加登録」
・ 氏名(漢字・ふりがな)
・ 電子メールアドレス
・ 所属機関
・ 役職(学生の場合は学年を記入して下さい)
・ メタボロミクスに関する質問を2つ以上(勉強会ですので☆必ず☆ご記入ください。)


・プログラム(予定)
13:00 受付開始
13:15 自己紹介
13:30 プロトコル解説 サンプル調製 講師:及川彰(山形大、理研)
14:15 プロトコル解説 データ取得 講師:平山 明由(慶応大)
15:00 休憩
15:15 プロトコル解説 データ解析 講師:三枝大輔(東北大)
16:00 企業紹介
16:40 終了

・懇親会(別途実費を徴収)
17:00 追加Q&Aコーナー
サンプル調製、データ取得、データ解析についてイケメン識者に質問しよう。
【識者】池田和貴(理研)、和泉自泰(九州大)、及川彰(山形大、理研)、三枝大輔(東北大)、津川裕司(理研)、平山 明由(慶応大)

20:00 終了予定


・ESI友の会より連絡

皆様,ESI友の会のサイトをご存知でしょうか?
https://sites.google.com/site/esitomonokai/

このサイトに公開されている「プロトコール集」,もしくは「解析部屋」にて,
1.もっと詳しく説明してほしい
2.掲載がないものの,疑問に思っている問題があるので,公開してほしい
などがありましたら,hiroshi.tsugawa(at)riken.jpまで,件名を「ESI友の会管理人様へ」としてご連絡ください.当日の発表内容に加えたいと考えております.お気軽に,お申し付け下さい.

第4回メタボロームシンポジウム若手会幹事
松田史生(大阪大学)