無知蒙昧なセンテンス

その辺の社会人が色々なものの言語化を試みる場です。

統計独学の道のり9

こんにちは。さみっとです。

 

今回は『高次元の統計学』という本を一応最後まで読んだので、軽く感想など書いていきます。一応と書いたのは、自分にとって内容が難しすぎたからです笑

 

高次元の統計学 (統計学One Point)

高次元の統計学 (統計学One Point)

 

高次元データに対してディープラーニングに頼らずに分析するアプローチがあるなら学んでみたい、という理由で買いました。

内容に入る前に、かなり適当な予想ではありますが難易度を言うと、数学科などで統計学を専門にしている学生が高次元関係の研究を始める時に読むとちょうどいいくらいの難易度かと思います。参考文献はほとんど論文で、2010年代の論文も多いのでこの分野を専門に研究する人の第一歩、といった印象を受けました。なので、専門外から統計に興味を持って勉強している自分からしたらひたすら難しく、内容も本当にざっくりとしたお気持ちしか分からなかったです。いわゆる数式がメインの本に該当すると思います。

 

で、内容ですが、簡単に記すと以下のようになっています

第1章 高次元データ

高次元小標本データの特徴と高次元データを扱ううえでメリットの多い相対表現の説明。

第2章 高次元データの幾何学的表現

高次元データを分析するうえでのキーポイントとなる、高次元データに特有の幾何学的表現の説明(球面集中現象と座標軸集中現象)。

第3章 高次元データに対する主成分分析の問題点

従来の主成分分析の手法を高次元データに適用してしまうと、多くの場合推定量が一致性を示さないことの説明。

第4章 高次元主成分分析

ノイズ掃き出し法とクロスデータ行列法という2つの高次元主成分分析の説明。従来手法に比べて一致性を示す条件が緩く、より色々な高次元データに対して適用できるというメリットがある。

第5章 高次元平均ベクトルの推測

高次元データでの平均ベクトルを統計的に推測する方法の説明。高次元において、標本平均ベクトルが球面に集中するという幾何学的な特徴を利用して、母平均ベクトルの信頼領域を考えたり、通常の推測統計と同様に母平均ベクトルを検定したりする。

第6章 高次元判別分析

高次元小標本データに対しても強力な判別方式であるユークリッド距離に基づく判別分析(DBDA)と幾何学2次判別分析(GQDA)についての解説。また、これらの手法と従来手法である線形判別、2次判別、サポートベクターマシンと比較し、実際に判別を実行して性能を比較している。ここで紹介された2手法について、DBDAは母集団分布によらず安定した性能を示す、GQDAは母集団の平均ベクトルに差がなくても一致性を与えられる、というメリットがあることも説明されてあった。

 

ということで、ざっとまとめましたが、数式ベースで主張が進んでいくので、主張したいこととそのために示す必要のあることをなんとなく理解しながら読んでいきました。式変換は分からない箇所だらけで、そこで躓くと今度は全体の流れを見失ってよくわからなくなり…というのを繰り返していました。後半は式変形の理解をかなり早期の段階で諦め、全体の流れをつかむ意識で読んでいました。

高次元データに対して統計的に意味のある分析をすることの難しさを身をもって知ることができた気がします(数式が難しいだけかもしれませんw)

 

直交行列、ランク、固有値、対角化・固有値分解、特異値分解、チェビシェフの不等式、コーシーの不等式、スラツキーの定理辺りは何の説明もなく用いられるので、この辺の用語は最低限聞いたことはあるくらいでないと読み進めるのはかなり大変だと思います。

また、全体的に高次元統計学の紹介というスタンスで進むので、証明は割と省き気味な印象でした。なので式を追っても「結局ここは省くんかい」みたいな場面も何回かありました(そもそもしっかり式を追い切れたことはほとんどありませんでしたが…)

 

間違いなく今まで読んできた統計関連の本の中で一番難しく、教科書と論文の中間くらいの雰囲気がありました。

次に何を読むかは今のところ未定ですが、いったん統計学関連からは離れるかもしれません。

では。