データサイエンス講義 3章「アルゴリズム」その4

今回は、k平均法。
※次回、Rでのコードを掲載し、3章を終了予定。

3.2.2 k平均法

■概要
データをあるまとまり毎にクラスタリングすること。

■教師なし学習
線形回帰やk-nn法では、XとYの関係、及びデータとそのラベリングに基づき、Yの推定やラベル推定を実施(いわゆる教師あり学習)。
k平均法は、そのような正解データは存在しない(教師なし学習)。

■アルゴリズム
1.d次元空間にて、k個の任意の点を重心として選択。ただし、互いに異なる点であること。
※ここでのkは、まとまりをいくつ作成するか。

2.各データに、どの重心が最も近いか割り当て。

3.割り当てたデータ群の平均位置を重心として更新する。

4.割り当ての変更がなくなる、もしくはほとんどなくなるまで、2-3を繰り返す。

■問題点
・収束の問題。2つの解を行き来する状態が発生する可能性有。
・クラスタリング結果の解釈はあくまでも人間。解釈に窮する結果も存在。

■参考になるページ(学術的)
以下のページは、ビジュアル的にアルゴリズムが理解できる。オススメ。

k平均法以外のクラスタリングについて、説明。

EPG's BLOG