どうしてデータ標準化が必要なの?

データによって高い値、低い値はまちまちだから

国語のテストは100点満点、数学のテストは200点満点の時、「100点」は
国語:満点!max値 数学:50%の値 と高い値かどうかが変わる

データによって「100」という値を「高い値」とするのか「中間くらいの値」とするのか
「低い値」とするのかをならすのがデータの標準化

平均値からどれくらい離れているかに注目

標準化の方法(数式)をきちんと理解していませんが。。。
それぞれのデータの平均値を求めて「実績値は平均値からどれくらい離れているか」を見る

データの標準化をすれば尺度の違うデータを説明変数として重回帰分析できる!
画像は平均値を0として-1~1の間に変換しているのでデータの正規化という


Scikit-learnでデータのスケール変換(前処理)する
scikit-learnのStandardScaler()を使ったら2とか4とか1に収まってないじゃん!ってなった
StandardScaler()はデータ標準化の関数だから、1より大きい値もあるのか!!