2021年4月25日日曜日

分析者のためのデータ解釈学入門  データの本質をとらえる技術

 分析者のためのデータ解釈学入門  データの本質をとらえる技術(江崎貴裕、シソム株式会社)を読みました。本書が優れている点は、数理モデル(応答変数=f(説明変数)という関数)を作るには、理解志向型(データの背後にある現象のメカニズムを理解する)と応用志向型(予測やデータ生成などデータ活用を行う)という異なる方向性があること(p197)。さらに、分析の目的には、1データの記述・探索、2予測、3因果関係(p231)の3つがあり、それぞれ異なる分析のデザインを要求することが明確に述べられている点であります。

医薬品化合物の構造を説明変数、応答変数を活性として数理モデルを構築する研究を定量的構造活性相関研究(QSAR)といいます。藤田稔夫先生は、「藤田カンファレンス」という勉強会で、QSARの発表に対して、予測だけできてもあかんと、理解志向型のモデリングの重要性をしばしば指摘しておられたことを思い出します。そもそもQSARは、ある化合物の活性を正確に予測すること、目指した応用志向型の技術であります。技術者ではそれでいいのかもしれませんが、研究者は「活性がタンパク質に結合するという現象のメカニズム」を理解を目指しているのであり、それに資する数理モデルを駆使すべきです。本書は明確に「データの記述・探索」のスタンスから書かれています。

一方、近年、深層学習技術が発達して、予測に特化した応用志向型の技術が著しく進展しています。それは素晴らしいのですが、よくないのは、説明/予測をごっちゃにした話も増えていることです。

「100個くらいのデータからAIで予測モデルを構築し、さらに重要な説明変数を絞り込みます。」

とかいう話を聞いたら要注意です。また、この話を読んであまり不思議に思わない人は、本書を読んで勉強しましょう。