k平均法（k-means clustering）

mao

2020年1月16日

k-meansとは非階層クラスタリングの手法の一つです。クラスタの平均を用い、与えられたクラスタ数k個に分類することからk-meansと名付けられています。Rでk-meansによるクラスタリングを行う方法についてまとめます。

データの準備
クラスタリング
結果の検証（validation）

１.データの準備

あるサンプルについてのデータが行に、あるパラメータについての各サンプルのデータが列に並んだデータフレームまたは行列を用意します。つまり、サンプル数をｍ、パラメータ数をｎとすると、ｍ×ｎのデータフレーム（または行列）となります。このデータフレームにはNAのデータを含めることはできないので予め取り除いておく必要があります。

2.クラスタリング

kmeans() という関数を使います（パッケージは不要です）。最低限の書式は、kmeans(ｘ＝データ, centers＝クラスタ数)です。クラスタ数は１からサンプル数ｍ－１までの整数です。centersに数値を指定した場合、クラスタの代表点の初期値はランダムに選ばれますが、ベクトルを与えることで任意に選ぶこともできます。他の引数としては、繰り返しの最大値を与えるiter.max、アルゴリズムを指定するalgorithmなどがあります。それぞれデフォルトではiter.max=10L、algorithm=”Hartigan-Wong”となっています。kmeansの返り値は９つの要素からなるリストです。$clusterでクラスタリングの結果がベクトルで得られます。

3.結果の検証（validation）

適切なクラスタ数は目的によって異なりますが、少なすぎるとクラスタ内のばらつきが大きくなってしまいますし、多すぎては意味がわからなくなります。分割の適切さの尺度の１つとしてクラスター内平方和があります。$withinssでそれぞれのクラスターについての平方和、$tot.withinssで平方和の合計が得られます。クラスター数kがある程度以上になると平方和はあまり変化しなくなります。 https://towardsdatascience.com/clustering-analysis-in-r-using-k-means-73eca4fb7967

R-data analysis

LEIS

１.データの準備

2.クラスタリング

3.結果の検証（validation）