「前処理大全」を読んだ

f:id:Kenta-s:20181027085019j:plain

なぜ読もうと思ったのか

前処理についてのノウハウを知りたいと思っていたところ、近所の本屋でこの本と「データ前処理の極意」が目立つところに並んで陳列されていた。

「データ前処理の極意」を読み終わり、もう1,2冊読みたいと思っていた。

という構成。

「データ前処理の極意」と比較すると技術者向けな内容になっている。

というのも基本的に手法を紹介しつつSQL, R, Pythonで実現するためのサンプルコードがセットで載っていて、面白いことにアンチパターン的に悪いコード例まで掲載されている。

「こういうデータはこういう手法を使いましょう」といった説明だけで終わらず、

基本的にSQL、R、Pythonいずれかを使って目的を達成するようになっており、サンプルコードも載っている。

自分の場合はPythonにまだ慣れていないので、Pandasのget_dummiesの存在を知ったときは興奮に打ち震えた。

「データ前処理の極意」を読んでダミー変数という概念は知っていたものの（ちなみにあちらでは「ダミーコード」と呼ばれていた）、

理屈はわかるけど整形するのが面倒だなぁと感じていて実際に手を動かすには至っていなかった。

カテゴリ型については、それまでLabelEncoderを使って数値に置き換えていたが、get_dummiesを知って早速試すとLabelEncoderよりも短い行数で達成できるうえに、当時取り組んでいたHousePricesのRMSEもわずかに下がり効果を実感できた。

他にもオーバーサンプリング、アンダーサンプリング、bag of wordsなど、データの前処理の基本となる情報がてんこもり。
まだRやPythonのことは詳しくないので勘でしかないが、おそらくベストプラクティスに近い形を学べるのではないかと思う。

この本に書いてあったことだけをやったというわけではないが、
get_dummiesを使ったカテゴリ化や欠損値埋め（欠損していないデータからランダムフォレストで予測して埋めた）などで

KaggleのHousePricesのRMSEは

0.16412 から 0.13617

まで下がり、ランキングは（元の順位は忘れたが）TOP50%まで上がった。

f:id:Kenta-s:20181027083859p:plain

この間まで「前処理？なにそれおいしいの？」というレベルだった自分にとってはなかなか健闘したんじゃないかと思う。

最近「データ前処理の極意」も読んだが、レベル感としてはこちらと大きな差はないと思う。ただしボリュームは大全のほうが満足度高かった。

「極意」と決定的に違う点として、「大全」は手法を説明するだけでなく、コードで実現するところまでが1セットというスタンスだというところ。

「極意」でありがちだった

「理屈はわかった。でもPythonで実装するにはどうやるのが定番なんだろう」

ということを考えなくてもいいのは良い。

R、Python初心者で、前処理に関する知識に自信がない人なら満足できる内容になっていると思う。

ただ、SQLはパっと見た感じWITH句とか普通に使っていたので、
もしSQL初心者の人がこの本でSQLも一緒に学ぼうと思ったらどう影響するのかはちょっと想像がつかない。

もし「極意」と「前処理大全」のどちらを読むか迷っているなら
コードを書かない人は「データ前処理の極意」
コードを書くなら「前処理大全」
という選択で良さそう。