学習準備もこれが最後かな?

前回の続き。

次の行!

# null値の削除
df = df.dropna()

これは、不完全な行を削除するコマンド。


学習する際に、空白とか何もないデータがあった場合

計算でエラーになる。それを防ぐために、不完全なデータを削除する。


よし! 次の行!

cols = ["MONTH","WEEK","HOUR"]
for col in cols:
df = df.join(pd.get_dummies(df[col], prefix=col))


これはデータの中にある数字で、数の大きさには意味を持たず、その位置づけ的なものを平面化する作業。これをOne-Hot・・・・


色々言い方があるみたいで、one-hotエンコーディング、one-hotラベル、one-hot関数、one-hotベクトルとか。


ちなみに自分は、ラベル貼ってみるみたいだから、one-hotラベルと呼んでる。値札みたいな感じ。


これでデータの中身は、こうなる↓



one-hotラベルは、例えば、年月日。

これは、2019年とか2020年とか。年の判別では、使うが、この[2020]とか[2019]という数字の大きさは、さほど意味が無い。

ワインの熟成とかでも、西暦の年の意味って、あまり意味が無いと思う。何年間が重要で、西暦の大きさは意味が無い。


そういう意味で、年というデータを区別(ラベル)する。それがone-hotラベル。


さぁ、学習の準備は整った。


一旦ここまで