西内啓著『統計学が最強の学問である［実践編］』（2014）

異例のベストセラーの著者が贈る最良の実践入門。『統計学が最強の学問である』では概略の紹介に留めた統計手法の「使い方」を解説する。統計学や数学の歴史的なエピソードも楽しみながら、「平均」や「割合」といった基礎知識から、「重回帰分析」のようなハードルの高い手法までを本質的に理解することができる。

目次
序章　ビジネスと統計学を繋ぐために

01　ビジネスと統計学のギャップなはぜ存在するのか
　　　『統計学が最強の学問である』とはどのような本だったのか／
　　　続編である本書を書いたわけ／なぜ、良い統計学の教科書が見つからないのか？

02　「把握」と「予測」、そして「洞察」の統計学
　　　ビジネスに必要なのは、人間を「洞察」するための統計学／
　　　統計学は目的別に３つに分けられる／「洞察」の統計学はどのように役立つのか／本書の特徴

第１章　統計学の実践は基本の見直しから始まる

　　　　──「平均」と「割合」の本質

03　「洞察」の統計学に必要な３つの知識
　　　「平均値」の本質がわかれば「割合」もわかる／データの存在する「幅」が重要／
　　　「結果」と「原因」を絞り込め！

04　じつは深い「平均値」
　　　「洞察」には中央値よりも平均値を／「代表値」をめぐる数学者たちの奮闘／
　　　平均値を人間に応用した「近代統計学の父」、あるいは「社会学の祖」

05　なぜ、平均値は真実を捉えることができるのか？
　　　「科学の王者」ガウスの貢献／正規分布とは「ふつうの広がり」のこと／
　　　現代統計学を支える「中心極限定理」／統計学を少しかじった人が混乱するところ

06　標準偏差が示す「たいていのデータの範囲」
　　　現状把握に便利な四分位点／データの分散の度合いを表現するから「分散」という／
　　　「分散」を感覚的にわかりやすくしたのが「標準偏差」／
　　　平均値と標準偏差で現状把握ができるわけ／平均値と標準偏差を「洞察」に使ってみる

第２章　統計学が「最強」であるもう１つの理由

　　　　──標準誤差と仮説検定

07　あわて者とぼんやり者の間にある「最強」という考え方
　　　現実には、そんなに簡単に有意差は見つけられない／
　　　「あわて者」の過ち、「ぼんやり者」の過ち／「統計学が最強の学問である」わけ

08　「誤差の範囲」とデータの数の関係
　　　統計学的な意味での「誤差」とは／データのバラつきが大きいほど、平均値のブレは大きくなる／
　　　平均値の標準誤差／平均値と標準偏差を使えば「サンプルサイズ設計」ができる／
　　　割合についての標準誤差

09　不毛な議論に終止符を打つ仮説検定の考え方
　　　あわて者とぼんやり者の議論／統計的仮説検定の考え方／
　　　ｐ値と信頼区間の本質的な意味を理解しよう

10　ｚ検定であわて者を諌めろ
　　　あわて者はクロス集計をどのように誤読するか／「割合の差」の標準誤差も求められる／
　　　「割合」と「平均値」の差の意味を判断するｚ検定／「平均値の差」もｚ検定で考えられる／
　　　医学やビジネスでの仮説検定の使い方

11　少ないデータのためのｔ検定とフィッシャーの正確検定
　　　サラリーマン統計家が編み出したｔ検定／
　　　「ｚ検定よりも、とりあえずｔ検定を選んでおくのが基本」なわけ／
　　　データの数が限られる場合は「フィッシャーの正確検定」で／
　　　ｔ検定について最低限知っておけばよいこと

12　検定の多重性とその処方箋
　　　３グループ以上で比較する場合はどうするのか？／
　　　分散分析やカイ二乗検定がビジネスではあまり使われないわけ／
　　　ｔ検定やカイ二乗検定の単純な繰り返しは考えもの／
　　　処方箋①　ボンフェローニ補正／
　　　処方箋②　基準カテゴリーを１つ決めて、そこからの比較を行なう／
　　　処方箋③　探索的なｐ値と検証的なｐ値を使い分ける

第３章　洞察の王道となる手法群

　　　　──重回帰分析とロジスティック回帰

13　統計学の王道「回帰分析」
　　　説明変数が量的な場合には回帰分析を使う／散布図と回帰直線から「傾向」を明らかにする／
　　　回帰分析は「見えにくい関係性」の分析を可能にした

14　回帰直線はどのように求められるのか？
　　　中学数学でわかる回帰直線と回帰式のしくみ／回帰分析では「傾き」の標準誤差を考える／
　　　回帰分析の誤差の計算でさらに必要なこと

15　複数の説明変数を一気に分析する重回帰分析
　　　関連性の見落とし・見誤りはどのように生じるのか？／サブグループ解析はすぐに限界がくる／
　　　重回帰分析なら、一気に分析できる／回帰分析とｚ検定、ｔ検定の結果が一致するわけ／
　　　カテゴリーが３つ以上に分けられる場合はどうするか？／ダミー変数の考え方を確認する／
　　　現場で圧倒的に使われる重回帰分析

16　ロジスティック回帰とその計算を可能にする対数オッズ
　　　「ロジスティック」の意味／ギャンブルのオッズも医学研究のオッズも、計算方法は同じ／
　　　ケースコントロール調査で使われるオッズ比／割合の「差」ではなく「比」を考えるのがミソ／
　　　フラミンガム研究で生まれた対数オッズの活用とロジスティック回帰／
　　　「０か１か」のアウトカムが対数オッズ比に変換されるわけ

17　回帰モデルのまとめと補足
　　　「一般化線形モデル」の使い分けガイド／
　　　アウトカムが３つ以上のカテゴリーに分かれる場合はどうするか？／
　　　順序性の有無とカテゴリー数がポイントになる／
　　　説明変数とアウトカムの関係性が直線的でなかったら？　──物理学や計量経済学の場合／
　　　説明変数とアウトカムの関係性が直線的でなかったら？　──医学研究やビジネスの場合

18　実用的な回帰モデルの使い方　──インプット編
　　　オーバーフィッティング、あるいは過学習を避けるためのいくつかの方法／
　　　「マルチコの確認はしたんですか？」

19　実用的な回帰モデルの使い方　──アウトプット編
　　　「一番重要な説明変数」をどう見抜くのか？／
　　　「誰にこの施策を打つべきか」を明らかにできる交互作用項の分析／
　　　回帰分析で当たりをつけ、ランダム化比較実験で検証する

第４章　データの背後にある「何か」

　　　　──因子分析とクラスター分析

20　心理学者が開発した因子分析の有用性
　　　「美白」と「肌の明るさ」を個別に扱う必要はあるか？／
　　　ステップワイズ法による変数の選択、あるいは「縮約」で対応できるか？／
　　　因子分析ならストレートに解決できる

21　因子分析とは具体的に何をするのか？
　　　直線を「物差しにする」とはどういうことか？／因子の数は「しっくりくるかどうか」で決める／
　　　直交派と斜交派がいる「回転」というプロセス

22　クラスター分析という基本思想
　　　因子分析が難しいケースとは／クラスター分析は「分類」への科学的なアプローチの成果／
　　　クラスター分析の具体的な計算方法／階層的なクラスター分析から非階層的なクラスター分析へ

23　k-means法によるクラスター分析
　　　「中心」を考えると計算量が劇的に減少する／
　　　ｋ個のクラスターに分けて、分類と計算を繰り返す／
　　　分類したクラスターのネーミングが重要／k-means法の限界／
　　　重回帰分析やロジスティック回帰との併用がお薦め

終章　統計手法のまとめと使用の手順

24　本書のまとめ
　　　各章の内容を振り返る／「統計学の理解が劇的に進む１枚の表」はこう変わる

25　ビジネスで用いる場合の分析の手順
　　　まずは重回帰分析かロジスティック回帰を／分析結果からアイデアを考える３つの方法
　　　最後にランダム化比較実験かＡ／Ｂテストで検証を／
　　　ランダム化に必要な「一定数以上」をどう見積もるか

26　本書では得られない３つの知識
　　　ＳＡＳやＲ、ＳＱＬと統計手法／統計学と数学の正しい関係／
　　　「次の一歩」の統計手法①　アイデア探索の新手法／
　　　「次の一歩」の統計手法②　縮約における新手法／
　　　「次の一歩」の統計手法③　ランダム化比較実験による検証の新手法

数学的補足

補足１　ズレの絶対値と中央値
補足２　ズレの二乗と平均値
補足３　平均値と割合の標準誤差
補足４　分散と不偏分散
補足５　正規分布の数学的性質
補足６　中心極限定理
補足７　チェビシェフの不等式
補足８　平均値と割合の差に対するｚ検定
補足９　（カイ二乗）分布とｔ分布の関係
補足10　フィッシャーの正確検定
補足11　ｚ検定と（カイ二乗）検定
補足12　ボンフェローニ補正
補足13　単回帰分析
補足14　単回帰分析とｔ検定の関係
補足15　重回帰分析
補足16　オッズ比
補足17　検出力とサンプルサイズ設計

謝辞

参考文献

索引