EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 2章「統計的推論、探索的データ分析、データサイエンスのプロセス」 その2

前回の続き。

2014/11/2追記:「2.3 データサイエンスのプロセス」の画像を修正。

 

データサイエンス講義

データサイエンス講義

 

2.2 探索的データ分析

John Tukeyが考案。
モデル化や仮説に係る確認的データ分析と対照のもの。

探索的データ分析(EDA)の基本的ツールは、以下。
・プロット
・グラフ
・要約統計量


2.2.1 探索的データ分析の理念
EDA(探索的データ分析)の過程で、以下が可能。
・データ理解、分散比較、データ欠損値・外れ値の確認
・データ/ログの取得プロセスのデバッグ

EDAにより、抽象的な事象を定量的に把握可能。


2.3 データサイエンスのプロセス

一番大きなポイントは、モデル等で算出された結果に基づき意思決定した結果が

現実世界にフィードバックされ、反映されること。

※以下では、Web上に掲載されていたプロセスの紹介。

書籍に掲載されていたプロセス。

(2014/11/2追記:画像が間違っておりましたので、修正)

http://semanticommunity.info/@api/deki/files/27075/Figure2-2.png

NECの説明では、分析の要点整理⇒仮説検証のPDCA(その過程で分析モデル生成)という流れ。

Decision Navigator/DS: 情報活用ソリューション・BI | NEC

AtMarkitでは、物事の発見⇒データ準備/モデリング⇒結果の伝達⇒運用という流れ。

Database Expertレポート(1):シゴトで使える「データサイエンティスト」に必要なスキルセットってどんなもの? - @IT


2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
大きな役割としては、以下。
・課題設定と仮説設定
・どのようなデータを収集するか
・そのデータ(生データ)の収集
 - 外れ値、異常値、データ重複、欠損値等の確認
・生データの整形
 - 分析しやすくするため。
・データ分析と仮説検証
 - EDA、モデル構築等。
・結果報告

大抵のデータサイエンティストは、
・緊急性が高く、
・曖昧な課題に対し、
・汚い(整形されていない)データを利用し、
分析を行う。

※Rでのデータ整形方法については、以下に幾つか記載。

http://cse.naro.affrc.go.jp/takezawa/r-tips/r/44.html

秩序と情報とブロッコリー: R言語のcut関数の使い方

Rデータフレーム自由自在 - SSSSLIDE