データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」

更新タイミングは不定期ですが、少し読む時間ができたので。

今回は、データサイエンス講義の第2章について。

データサイエンス講義

作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
出版社/メーカー: オライリージャパン
発売日: 2014/10/25
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

2.1 ビッグデータ時代の統計的思考

2.1.1 統計的推論

データを解析する理由は、生活の様々なプロセスを理解するため。
データはプロセスを理解する手がかり。
また、最近では、生活からデータ生成されることが増えてきている。

データには、データを生み出すプロセスと収集過程で「不確実性」が存在。

2.1.3 ビッグデータの母集団と標本
目的に応じ、データの必要量が異なる。
(e.g.) ある1人のユーザのUIに性格な情報を表示したい⇒特定ユーザに関する全データが必要。

現在のデータサイエンティストは、様々な種類のデータを扱える必要がある。
(e.g.) テキスト、レコード、画像、位置データ

2.1.4 ビッグデータの大きな仮定
ビッグデータ解析においては、サンプル数N = ALLを仮定。
しかし、対象全てをデータとして取得できているわけではないので、
必ずしも客観的に分析できるかは疑問。

2.1.5 モデル
モデル：特定のレンズ(観点)を通して、現実の性質を表現する試みのこと。
モデルの作り方：モデリングプロセスの一部。まずは、EDA(探索的データ分析)が有効。
いきなり、闇雲に分析手法(回帰分析や決定木etc.)を利用するのはあまり良くない。
確率分布：上記モデルの構成する部品。
モデルのフィッティング：最尤推定等によるパラメータ推定が必要。
ただし、過学習によるオーバーフィッティングに要注意。

EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」