2021年12月27日月曜日

生命科学・生物工学のための 間違いから学ぶ実践統計解析

 生命科学・生物工学のための 間違いから学ぶ実践統計解析 R・Pythonによるデータ処理事始め、近代科学社Digital、川瀬 雅也 (著), 松田 史生 (著), 日本生物工学会 (編集)が12/17日に発売されました。ぱちぱち。

本書は川瀬先生と松田の2名で日本生物工学会和文誌に連載した記事をまとめたものであります。オンデマンド出版のため、Amazonで冊子を注文すると1冊づつ印刷されて送られて来るというスペシャルな仕様になっており、本屋店頭では立ち読みできない。そうです。電子版もあります。

出版に当たっての書き手の想いは本の「まえがき」を参照いただくとして、今回は内輪ネタを少々ご紹介です。日本生物工学会和文誌副編集長(当時)の岡澤先生と、生物工学会統計関連のご意見番である川瀬先生の間で、統計解析ができる人材の育成が学会としても重要、日本生物工学会和文誌おける連載企画を練ろう、という話が持ち上がり、統計解析を使って研究していたり、授業もしていた松田にお声がかかって、たしか2015年の年の瀬の新梅田食堂街の居酒屋にて、第一回打ち合わせが行われたのでありました。

「統計解析っていっても本はいっぱいあるし、あれもできます、これもできます。という話が多くてつまんないですよね。。」

「あと、実例が研究とかけ離れているのと、実例をもとに自分のデータで試しても、あちこちで間違えたりして、イマイチ自力で応用できないみたいですね」

「数式が出てくると眠たくなりますよね」

という意見交換の後、

「じゃあ、ネタをバイオテクノロジーに絞って、ありがちな間違いから学ぶ実戦形式にしましょう」

「数式や原理はミニマムでとりあえず動くRやPythonのスクリプトをつけましょう」

「眠たくならないように研究室の先輩後輩の会話形式にしましょう」

「わからない点はX教授に聞くことにしときましょか」

というような流れで案がホイホイとまとまり、2016年4月から隔月連載が始まったのでありました。

統計の土台部分を川瀬先生が書き、松田が脱線させるというスタイルで原稿を作っていきました。研究室の後輩、先輩をAさんと、B君としてジェンダーバランスに配慮したりしましたが、読者のみなさんからは、どうもAさんとB君が、怪しいのではないか、そればっかりが気になって、肝心の統計解析が頭に入らない。というコメントをいただいたときには、最も頑張った部分にご評価を受けて会心でありました。

本書の特徴は、選択と集中をかませて、読者が最後までたどり着くことに注力している点です。たとえば、P22の正規分布表の要約は、有意水準αが0.01と0.05のzの値だけ(2つしかデータがない)が載っております。一方、データを解析する際に一番間違えやすい部分である、サンプルサイズの議論はくどめにじっくり解説しました。

本書の原稿料は川瀬先生、松田にはまったく行かず、すべて日本生物工学会で有意義に使っていただける段取りですので、ここはぜひ、一家に一冊お求めいただけると幸いです。

データサイエンス本3冊一気読み

 

データサイエンスというものがなんなのかよくわかんなくなってきたので3冊まとめて読んでみた。

ゼロからはじめるデータサイエンス 第2版 ―Pythonで学ぶ基本と実践 (2020/5/1), オライリージャパン Joel Grus (著), 菊池 彰 (翻訳)

内容:1冊でPythonの速習から、統計の基礎、確率、仮説検定、Webスクレイピング、機械学習、ナイーブベイズ、重回帰、ニューラルネットワーク、ディープラーニング、クラスタリング、自然言語処理、データベースとSQL、果ては、MapReduceにデータ倫理と、てんこ盛りである。これらのトピックを扱うコードを紹介しながら、コーディングのテクニックを適宜解説している。一方、各トピックは非常に短く、当然、初心者にはよくわからず、中級者には物足りないだろう。原理の説明というより、実装したコードから原理を理解してね。というスタンスなので、数式は少ない。これはいい。データサイエンスを学ぶ本というよりは、データサイエンス活用事例集。として使うのがよさそう。

想定される読者:授業のデータサイエンス演習に使うネタを探している教員。


事例で学ぶ! あたらしいデータサイエンスの教科書(2019/12/17), 翔泳社, 岩崎 学

内容:データサイエンスの手法を網羅する気は全くなく、データサイエンスとは、データから因果関係を抽出するための手法であるという、明確な視点のもと、例題をじっくり解説しながら進んでいく。最後は因果関係を見出すための実験計画にまで踏み込んでいくのも必然であろう。一方、原理の説明を数式でぱっぱっとするため、たぶん、初心者には何もわからない。知っている中級者がみて、ああこの話しているのね。という確認には使えるだろう。あと、コードが少ないので、どういう風にそれを計算するのか、はわからないので独習者にはちとつらいか。講義の教科書向け。

想定される読者:この本を教科書にしている講義の学生。


データサイエンスの無駄遣い (2021/10/28), 翔泳社, 篠田 裕之

内容:中二病ぼっち課題を、超高度な手法で解決していく。データサイエンスっぽいのは、最初の「既読スルー判定ランダムフォレスト」の作成くらいで、あとはチャットボット、漫画を自動作成、プロジェクションマッピング、物理シミュレーションなど、どちらかというとMake系のネタが多い。あと、こういうものを作りたいと思った。作ったものを動かしたらこうなった。というお話部分と、それをどう実装したのか、という解説部分の2本立てになっているが、ネタが多岐に渡るため、実装部分は紙幅の都合上「こうしました」という説明にならざるを得ず、ノウハウや実装上のテクニックにまでたどり着けないのは致し方のないところか。また、作ったツールで問題が解決し、さらに方法論を割と簡単に応用できそうなのも、「既読スルー判定ランダムフォレスト」くらいであり、あとは、夏休みの自由研究ネタ的な趣がすばらしい。

想定される読者:コロナ禍で中学生の子供ができる夏休みの自由研究ネタを探しているお父さん。


3冊読んでますますわからなくなりました。