EPG's BLOG

某金融会社の社内SE。気になったことをちょいちょい書いていきます

データサイエンス講義 3章「アルゴリズム」 その4

今回は、k平均法。
※次回、Rでのコードを掲載し、3章を終了予定。 

データサイエンス講義

データサイエンス講義

 

3.2.2 k平均法

■概要
データをあるまとまり毎にクラスタリングすること。

 

■教師なし学習
線形回帰やk-nn法では、XとYの関係、及びデータとそのラベリングに基づき、Yの推定やラベル推定を実施(いわゆる教師あり学習)。
k平均法は、そのような正解データは存在しない(教師なし学習)。

 

アルゴリズム
1.d次元空間にて、k個の任意の点を重心として選択。ただし、互いに異なる点であること。
※ここでのkは、まとまりをいくつ作成するか。

2.各データに、どの重心が最も近いか割り当て。

3.割り当てたデータ群の平均位置を重心として更新する。

4.割り当ての変更がなくなる、もしくはほとんどなくなるまで、2-3を繰り返す。

 

■問題点
・収束の問題。2つの解を行き来する状態が発生する可能性有。
クラスタリング結果の解釈はあくまでも人間。解釈に窮する結果も存在。


■参考になるページ(学術的)
以下のページは、ビジュアル的にアルゴリズムが理解できる。オススメ。

クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

k平均法以外のクラスタリングについて、説明。

クラスタリング (クラスター分析)