データサイエンス講義 4章「スパムフィルタ、単純ベイズ、データランプリング」 その3
11月末で止まってしまった以下の書籍を再開です。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
4.6 ウェブスクレイピング:APIとその他のツール
■データサイエンティストの仕事
データや明確な目的がない状態で仕事を引き受けることがある。その場合、
1.どのようなデータを手に入れるかを考え、
2.目的や問いを立て、
3.問題を解決し、調査を行う
ことが必要。
■データ収集方法
1.API(Application Programming Interface)を使って、データを抽出/収集。
取得する際のデータ形式は、JSON形式が主。
2.データ形式を揃える方法として、Yahoo!のYQL言語(SQL的な言語)を利用することで、標準形式でデータ出力可。
https://developer.yahoo.com/yql/
3.APIがない場合、Firefoxの拡張機能「Firebug」の「要素を調査」を利用することで取得。
その後、シェルスクリプトにより、データ抽出、加工を実施。
■参考になるページ(学術的)
単純ベイズ(ナイーブベイズ)をより簡単に(?)説明した資料。
ラプラススムージングについて、少し分かりやすいかも。
http://mtml.info/post/28232319862/naivebayes