【統計学が最強の学問である】

統計学の流れを知る。

統計学が最強の学問である。 西内啓著

動機

私は機械学習やAIに興味があります。
これらを本格的に学ぶならば統計学は外せない道です。

統計学の教科書、数式方面も必要ですが、統計学の軽い物も読みたい。
では何を読むか?
そこで選んだのが本書です。

本書は挑戦的なタイトルも相まってか、知的教養書としては珍しいベストセラーだそうです。
初学者はベストセラーと言う単語に弱い。

スポンサーリンク

内容

なぜ統計学が最強なのか?

統計学が最強である理由は

最速で最善の答えをだすことができる

からであるそうです。
本書では疫学を例に挙げて、統計学のいかに有用かが説かれています。

物理学を学んだ身としては、思う所がないわけではありません。
しかし、最速で現象に関連する事象を知るという点に関しては統計学は確かに最強のようです。
なぜなら現象の理由を考えなくてよいから

理論を敷き詰める方法では、理論を構築できるノイズの少ないデータがなければ真実にたどり着けません。
一方で、統計学はランダム化という武器を持ち込み現象の理論をすっ飛ばして答えを得ることができます。
統計学はデータがランダム化さえされて適切に正規化されていれば、非常に優れた手段となります。

ではランダム化できないときはどうすればよいのでしょうか?

統計学をいかに使うか?

ランダム化できないならば、統計学で得られた結果がどれくらい信頼できるかを示せばよいのです。
推定値、誤差、P値などを用いて結果の信頼度を示すことができます。

あるいは、結果に関係しそうな要素を抽出して、重回帰分析や、ロジスティック回帰を適用すれば、なんらかの結論を得ることもできます。

しかしこの手法では、常に要素の抽出のみを考えていればよいわけではありません。
要素同士の組み合わせにより結果が大きく揺らぐ場合は、要素の組み合わせを表現するために交互作用を考える必要があるのです。
例えば、「A高校」 かつ 「男子」ならば成績が悪いという場合は、「高校」と「性別」の交互作用を考えなければなりません。

問題は、この交互作用が要素の増加により急激に増大することです。
ではやはり、ランダム化したデータの取得が困難ならば統計学は無力なのでしょうか?

だからといって細かい厳密さにこだわるあまり判断を保留し続けることが常に賢明とも言えない。

ランダム化したデータが得られないからと言って、
「煙草を吹かし続けても癌にならない」
と言い張ることは難しいのです。

感想

高校生の頃の話。
計画性をもってコツコツと勉強をしていても、たまに教科書の一気読みをしていました。
「この式は何のために導出したのか? 後で塗り替えられる式に意味があるのか?」
そう考えていた部分も、一気読みで流れをつかむとすんなりと頭に入りましたた。

本書にはちょうど同じように、数学の教科書の一気読みに似たものを感じます
統計学とは何なのか? 何を目指して、どう発展して、どんな流儀があるのか?

とくに流儀を知れたのは大きな収穫です。
学び始めは小さな出っ張りに大きく躓くことが多々あります。
先に筋道をつけることは、前進を助けてくれるはずです。

例えば私は本書を読むことで、すでに躓きかけていた機械学習と統計解析の違いをぼんやりながら意識できました。
言われてみれば、機械学習は非線形的な解析のことを言うような気がするかな?と言う程度ですが、大きな前進です。

すすめる?

これから統計学を学ぶ。
統計学のある程度、知識を整理しておきたい。

そんな方にはきっと役に立つはずです。

そうでなくても統計学の話は純粋に読み物として面白いはずです。
現代社会において、統計学と全くの無縁である人はいないのだから。

統計学はなんて面白そうなんだ!!

私はそう思えました。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク