データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」 その2
前回の続き。
※2014/11/2追記:「2.3 データサイエンスのプロセス」の画像を修正。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
2.2 探索的データ分析
John Tukeyが考案。
モデル化や仮説に係る確認的データ分析と対照のもの。
探索的データ分析(EDA)の基本的ツールは、以下。
・プロット
・グラフ
・要約統計量
2.2.1 探索的データ分析の理念
EDA(探索的データ分析)の過程で、以下が可能。
・データ理解、分散比較、データ欠損値・外れ値の確認
・データ/ログの取得プロセスのデバッグ
2.3 データサイエンスのプロセス
一番大きなポイントは、モデル等で算出された結果に基づき意思決定した結果が
現実世界にフィードバックされ、反映されること。
※以下では、Web上に掲載されていたプロセスの紹介。
書籍に掲載されていたプロセス。
(2014/11/2追記:画像が間違っておりましたので、修正)
NECの説明では、分析の要点整理⇒仮説検証のPDCA(その過程で分析モデル生成)という流れ。
Decision Navigator/DS: 情報活用ソリューション・BI | NEC
AtMarkitでは、物事の発見⇒データ準備/モデリング⇒結果の伝達⇒運用という流れ。
Database Expertレポート(1):シゴトで使える「データサイエンティスト」に必要なスキルセットってどんなもの? - @IT
2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
大きな役割としては、以下。
・課題設定と仮説設定
・どのようなデータを収集するか
・そのデータ(生データ)の収集
- 外れ値、異常値、データ重複、欠損値等の確認
・生データの整形
- 分析しやすくするため。
・データ分析と仮説検証
- EDA、モデル構築等。
・結果報告
大抵のデータサイエンティストは、
・緊急性が高く、
・曖昧な課題に対し、
・汚い(整形されていない)データを利用し、
分析を行う。
※Rでのデータ整形方法については、以下に幾つか記載。
http://cse.naro.affrc.go.jp/takezawa/r-tips/r/44.html