EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 5章「ロジスティック回帰」

続けて、備忘録として更新。

データサイエンス講義

データサイエンス講義

タイトルが「ロジスティック回帰」となっているが、あくまでも例としてロジスティック回帰を利用しているにすぎない。
実際に重要なのは、(2値分類において)分類する対象が決まってから実際に分類するために何を決めれば良いのか、ということだと思いました。

5.2 分類器

■そもそも分類とは
データポイントを有限個のラベルに対応させること。
もしくは、与えられたラベルに対応する確率を求めること。

■分類するために決めるべきこと
対象データや現実世界の分類問題、制約が明らかになった段階で
以下の内容を決める必要がある。
1. どの分類器を使うか
2. どの最適化手法を利用するか
3. どの損失関数を最小化するか
4. データからどの特徴を取り出すか
5. どの評価指標を使うか

■分類器選定のために
1. 時間の問題
I. 実行時間(5.2.1章)...分類にどれだけの時間を掛けて良いのか
II. スケーラビリティ(5.2.4章)...学習時間や評価時間にどれだけ時間が掛かるのか
2. 解釈のしやすさ(5.2.3章)...ヒトが解釈しやすい分類器である必要があるか(決定木は解釈しやすい)

5.3章以降は、ロジスティック回帰を用いた具体例を示しているが、ここでは省略。