EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」

更新タイミングは不定期ですが、少し読む時間ができたので。

今回は、データサイエンス講義の第2章について。 

データサイエンス講義

データサイエンス講義

 

 

2.1 ビッグデータ時代の統計的思考

2.1.1 統計的推論

データを解析する理由は、生活の様々なプロセスを理解するため。
データはプロセスを理解する手がかり。
また、最近では、生活からデータ生成されることが増えてきている。

データには、データを生み出すプロセスと収集過程で「不確実性」が存在。


2.1.3 ビッグデータの母集団と標本
目的に応じ、データの必要量が異なる。
(e.g.) ある1人のユーザのUIに性格な情報を表示したい⇒特定ユーザに関する全データが必要。

現在のデータサイエンティストは、様々な種類のデータを扱える必要がある。
(e.g.) テキスト、レコード、画像、位置データ


2.1.4 ビッグデータの大きな仮定
ビッグデータ解析においては、サンプル数N = ALLを仮定。
しかし、対象全てをデータとして取得できているわけではないので、
必ずしも客観的に分析できるかは疑問。


2.1.5 モデル
モデル:特定のレンズ(観点)を通して、現実の性質を表現する試みのこと。
モデルの作り方:モデリングプロセスの一部。まずは、EDA(探索的データ分析)が有効。
いきなり、闇雲に分析手法(回帰分析や決定木etc.)を利用するのはあまり良くない。
確率分布:上記モデルの構成する部品。
モデルのフィッティング:最尤推定等によるパラメータ推定が必要。
ただし、過学習によるオーバーフィッティングに要注意。