データサイエンス講義 3章「アルゴリズム」 その4
今回は、k平均法。
※次回、Rでのコードを掲載し、3章を終了予定。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
3.2.2 k平均法
■概要
データをあるまとまり毎にクラスタリングすること。
■教師なし学習
線形回帰やk-nn法では、XとYの関係、及びデータとそのラベリングに基づき、Yの推定やラベル推定を実施(いわゆる教師あり学習)。
k平均法は、そのような正解データは存在しない(教師なし学習)。
■アルゴリズム
1.d次元空間にて、k個の任意の点を重心として選択。ただし、互いに異なる点であること。
※ここでのkは、まとまりをいくつ作成するか。
2.各データに、どの重心が最も近いか割り当て。
3.割り当てたデータ群の平均位置を重心として更新する。
4.割り当ての変更がなくなる、もしくはほとんどなくなるまで、2-3を繰り返す。
■問題点
・収束の問題。2つの解を行き来する状態が発生する可能性有。
・クラスタリング結果の解釈はあくまでも人間。解釈に窮する結果も存在。
■参考になるページ(学術的)
以下のページは、ビジュアル的にアルゴリズムが理解できる。オススメ。
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ
k平均法以外のクラスタリングについて、説明。