データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」
更新タイミングは不定期ですが、少し読む時間ができたので。
今回は、データサイエンス講義の第2章について。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
2.1 ビッグデータ時代の統計的思考
2.1.1 統計的推論
データを解析する理由は、生活の様々なプロセスを理解するため。
データはプロセスを理解する手がかり。
また、最近では、生活からデータ生成されることが増えてきている。
データには、データを生み出すプロセスと収集過程で「不確実性」が存在。
2.1.3 ビッグデータの母集団と標本
目的に応じ、データの必要量が異なる。
(e.g.) ある1人のユーザのUIに性格な情報を表示したい⇒特定ユーザに関する全データが必要。
現在のデータサイエンティストは、様々な種類のデータを扱える必要がある。
(e.g.) テキスト、レコード、画像、位置データ
2.1.4 ビッグデータの大きな仮定
ビッグデータ解析においては、サンプル数N = ALLを仮定。
しかし、対象全てをデータとして取得できているわけではないので、
必ずしも客観的に分析できるかは疑問。
2.1.5 モデル
モデル:特定のレンズ(観点)を通して、現実の性質を表現する試みのこと。
モデルの作り方:モデリングプロセスの一部。まずは、EDA(探索的データ分析)が有効。
いきなり、闇雲に分析手法(回帰分析や決定木etc.)を利用するのはあまり良くない。
確率分布:上記モデルの構成する部品。
モデルのフィッティング:最尤推定等によるパラメータ推定が必要。
ただし、過学習によるオーバーフィッティングに要注意。