無知蒙昧なセンテンス

その辺の社会人が色々なものの言語化を試みる場です。

統計独学の道のり8

こんにちは。

気づけばナンバリングも8まで来てしまいました。いやぁ、びっくりです。
昨年末に統計検定1級を取得することができ独学の大きな目標が達成されてしまったので、ここからは自分の興味の赴くままに統計を深めていこうと思っています。モチベ次第では統計以外の分野に手を出すかもしれませんが、それはその時の自分次第ですね。

今回は『岩波データサイエンス vol.3』を読んだので、それについて軽く書いていきたいと思います。

『岩波データサイエンス』はシリーズになっていて、データサイエンスという大枠は共通してますがそれぞれのナンバリングで異なるトピックについて扱っています。今回よんだvol.3は「因果推論」がそのトピックになっています。
前々から読もうと思っていたのですが、以前インターンに言った際にその会社でこの本を見かけたことや今まで学んできた統計よりも実践的で実社会との関わりの密接な領域であることを踏まえて、これは一度学んでおきたいと思い今回読むことにしました。

この本の構成として、章立ての構成にはなっておらずそれぞれ別の著者が数十ページ程度で完結する記事を載せている形式になっています。それぞれの記事が因果推論に関する記事で、著者ごとの考えに沿って記事がかかれています。後半にはシリーズものらしく連載記事もあり、その部分は因果推論とは異なる分野でした(一応読んでは見たのですが、連載記事が前巻の続きから始まっていたこともあり全然理解できませんでした…)。
各記事が比較的短く完結しているので読みながら区切りをつけやすく、最後まで読破しやすい本だと思います。また、因果推論に関する記事は全部で7編あり、そのうち4編が概念や方法に関する記事、残り3編は実例や応用に関する記事でした。基礎と応用がバランスよく混在していたので、因果推論のイメージがつかみやすかったです。とはいっても完全に納得できたかと言われるとそんなことはなく、一部飲み込めない部分もありました。特に苦戦したのは「統計的因果効果の基礎」の記事で(この記事が割とこの本の中ではメインな気がします)、強い意味での無視可能性(strong ignorability)という概念はどうにもスッキリと理解できませんでした。これがしっくり来れば傾向スコアを用いた推定や傾向スコアの逆確率重み付け法といった手法もスッキリと分かる気がしています。また、操作変数法では残差と独立な変数を見つけるのが難しそうだと思いました。

全体的な感想ですが、実際に扱うデータをいかに正確に深く理解しているかが因果推論を活用できるかどうかのカギになってくるのだと感じました。強い意味での無視可能性、交絡因子、多重共線性などなど、その概念を理解していても実際のデータの特徴や性質を把握していないと意味がないと思います。今回因果推論について学べたのは良かったのですが、状況としてはますます頭でっかちになってしまったと思うので、実際にデータを見て学んだことを実践する必要性を強く感じています。

以上です。ではでは~