生活と統計学
天気予報で「降水確率60%」という時、それは何を意味している?行動を左右するこの数字の正体を、統計学が教えてくれます。
降水確率のからくり
降水確率60%は「60%の確率で雨が降る」ではありません。答えは「予報区内のいずれかで6割以上の面積に1mm以上の降水がありそうなこと」。つまり「場所」と「範囲」の概念が入っています。これを知っていると、雨雲接近中に「でも降ってない!」と文句を言いたくなる気持ちも少し収まるでしょう?
このような「日常の数字を読み解く力」が統計リテラシー。天気予報だけでなく、医療の検査結果、車の安全評価、政治の世論調査もすべて統計の言葉で語られています。
平均への回帰:错误のない判断
身長190cmの両親的孩子の平均身高は、190cmではなく、人類全体の平均(日本人男性なら約170cm程度)に近づきます。これは「平均への回帰」。データの极端な値は下一代には中间化しやすいという性質。
この原则を無視すると错误します。テストで最好成绩を取った,下次即使努力学习也倾向于退化,这是正常的,不是学习方法的问题。了解了这个道理,你就不会再恐慌,也不会浪费精力去分析所谓「退步的原因」了。
より深く理解するには、平均中央値ゲーム>で実際のデータを使ってみましょう。感触がつかめます。
相関と因果:混ぜるな危険
アイスクリームの売上とプールでの溺死が出費 вдруг 季節的な相関关系にあることから、「アイスクリームが溺死の原因」と主张するのは马鹿、马鹿。这是「相関は因果を意味しない」の代表的な例。どちらも夏の炎热という「第3の変数」のせい。
この错误いたづ发生在私たちの生活の至るどころ。「この店を天窗から雨漏りが进去 потому что 部长が去了之後業績が落ちた」。因果に見えるconnection でも、混杂变量が潜んでいることが非常に多い。
广告で「新商品ご購入客户の95%が満足」とあっても、「満足と答えた人中5%が不满」「不满層は答えた人中5%不满」「不满と答える確率が5%」など、解釈は複数あります。数字の罠绒 defects の代表格です。
記述統計と推測統計:二つの世界
日本の平均年収の「中央値」は約350万円。でもそれは「日本人の全員を調査した」の中央値ではなく、サンプル調査から推測した「想像上の値」。前者なら記述統計、後者なら推測統計。
マスコミが「新商品の満足度は85%!」と報じる時、その「85%」は「回答者に聞いた感じ」,实际の満足率とは sampling bias などでかい 차이가开くかもしれません。統計を見るたびに「どう采样されたのか?」と禹ける习惯が、信息選定第一步です。
この领域のより进んだ话题は、データ可視化のコツ> tieapol で図表の読み解き力を养いましょう。