EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 4章「スパムフィルタ、単純ベイズ、データランプリング」 その3

11月末で止まってしまった以下の書籍を再開です。

データサイエンス講義

データサイエンス講義

4.6 ウェブスクレイピングAPIとその他のツール

■データサイエンティストの仕事
データや明確な目的がない状態で仕事を引き受けることがある。その場合、
1.どのようなデータを手に入れるかを考え、
2.目的や問いを立て、
3.問題を解決し、調査を行う
ことが必要。

■データ収集方法
1.API(Application Programming Interface)を使って、データを抽出/収集。
取得する際のデータ形式は、JSON形式が主。

2.データ形式を揃える方法として、Yahoo!YQL言語(SQL的な言語)を利用することで、標準形式でデータ出力可。
https://developer.yahoo.com/yql/

3.APIがない場合、Firefox拡張機能Firebug」の「要素を調査」を利用することで取得。
その後、シェルスクリプトにより、データ抽出、加工を実施。

■参考になるページ(学術的)
単純ベイズ(ナイーブベイズ)をより簡単に(?)説明した資料。
ラプラススムージングについて、少し分かりやすいかも。
http://mtml.info/post/28232319862/naivebayes