R scale関数でデータの正規化


正規化とは?

データフレームの各列の単位が異なる場合があります。その場合、各変量を平均が0、分散が1となるよう変換(正規化)することがあります。Rでは関数scale()を用いることで、データフレームを正規化することが可能です。

Rを使い、架空の身長・体重・血圧の変量(1000件)を作成してみます。

n = 1000
df <- data.frame(
    height = rnorm(n, 170, 10),
    weight = rnorm(n,  70, 5),
    bloodpressure = rnorm(n, 125, 2)
)

グラフに図示してみると(左図)、3つの変量が全く別の分布になっていることが分かります。このデータをscale関数で正規化してみます。

df.scale = scale(df)