スキルアップしたい

kaggleでデータ概要をざっと把握する方法【営業だってプログラミング】

2019年9月2日

  1. HOME >

kaggleでデータ概要をざっと把握する方法【営業だってプログラミング】

2019年9月2日

kaggleでデータ概要をざっと把握する方法【営業だってプログラミング】

kaggleのコンペに参戦する際にまず大事なのは、与えられたデータの内容を確認して、理解をすること。

これまで以下のような方法を紹介しましたが、もっと簡単に、網羅的に概要を表示させることができるコードをご紹介します。

【kaggle入門】データ理解編:2変数間の散布図で関係性を把握する【営業だってプログラミング】

続きを見る

kaggleでデータ概要をざっと把握する方法 pandas-profiling

方法は「pandas-profiling」です。

pandas-profilingの準備

クライアントで利用する場合は、Anacondaやpromptからインスト―ルしておきましょう。

「スタート」「Anaconda3(64-bit)」「Anaconda Prompt(Anaconda3)」を開いて・・・

以下を入力。

pandas-profilingの使用方法

使い方は非常に簡単です。

kaggleのTitanicのデータで解説します。

まずは呼び出し。

trainとtestデータ(csv)をデータフレームに読み込み

以下コードを入力するだけです。

すると、以下のようにデータの概要が一気に表示されます。

Overview

データの超概要です。

特徴量数やサイズ、各特徴量のエラー(欠損やゼロ値など)が表示されます。

Variables

各特徴量ごとのデータの詳細や、分布などを確認できます。

右下の「Toggle detail」を選択すると、更に詳細が表示されます。

Correlations

「Correlations」=「相関関係」。各特徴量毎の相関を見る事ができます。

赤は正の相関、青は負の相関で、色が濃ければ濃いほど強い相関があるということです。

Missing values

各特徴量ごとの欠損の数や分布を見る事ができます。

これによると、

  • 「Age」と「Cabin」に欠損がある
  • それ以外には欠損は無い

事が分かります。

※それ以外は全てグラフが埋まっているため

さらにメニューの「Matrix」を選択すると、全IDの連番のうち、どの部分に欠損があるかの分布を表示させることができます。

AgeもCabinも綺麗なストライプになっていますので、欠損部分は固まっておらず、分布していることが分かります。

Sample

データの冒頭10行と、最後の10行が表示されています。

「pandas-profiling」利用時の注意点

注意点は一つだけ。

クライアントで処理をする場合、データ量によっては非常に時間がかかる点です。

コードを走らせたのはいいけど、いつまで経っても終わらない!!

ということも起こり得ますので、ご注意ください。

kaggleでデータ概要をざっと把握する方法【営業だってプログラミング】まとめ

最後に、ここまでのコードをまとめます。

その他、pythonやkaggle、AI・機械学習といった記事のまとめはこちらです。

【2020年版】python・kaggle関連の記事まとめ【営業だってプログラミング】

続きを見る

ここからは、実際に私が購入し、おすすめできると思った本を紹介してみたいと思います。

 

機械学習のための「前処理」入門

 

まずはこちら。「機械学習のための『前処理』入門」です。

 

  • これから機械学習を始めてみたい
  • kaggleやSIGNATEにチャレンジしてみたい

 

という方には最適な本。個人的には一番のおすすめです。

 

データモデルの精度向上には特徴量エンジニアリングが不可欠。

 

というかこれが全てと言っても過言ではないのですが、各種環境準備の方法やコーディングの詳細に至るまで、誰にでも分かりやすく書かれています。

 

この一冊さえあれば、とりあえずkaggleにトライすることができます。

 

 

スラスラ読める Pythonふりがなプログラミング

 

Pythonのコーディングが、全てふりがなで解説されている、究極に親切な解説本です。

 

  • 「機械学習のための『前処理』入門」は、自分には難しすぎた
  • 英語アレルギーがありpythonコードに触れることすらできない

 

という方は、まずはこちらをご一読される事をおすすめします。

 

※但し、慣れてきたらすぐに上記「機械学習のための『前処理』入門」に移行される事をおすすめします。

 

 

仕事ではじめる機械学習

 

定番のオライリーです。

 

こちらはkaggleやSIGNATEなどのコンペティションというよりは、機械学習をビジネスで生かしていくためにはどうすれば良いか?という観点の内容が充実しています。

 

pythonコードの記述に留まらず、

 

  • 機械学習プロジェクトを成功させるにはどうすれば良いか
  • KKD(勘・経験・度胸)を掲げる抵抗勢力とはどう付き合うべきか

 

というような、実務に即した内容は個人的には本当に参考になったのですが、オライリーは初心者にはかなり敷居が高いので、まずは本屋で立ち読みして、レベル感をチェックしてみるのが良いと思います。

 

 

人工知能は人間を超えるか

 

pythonのコーディングからは離れますが、もしこの本を読んでいない人がいたら必ず一度は目を通しておいた方が良いです。

 

この界隈では有名な、東大の松尾豊先生の著書「人工知能は人間を超えるか」。

 

いわゆるAI・人工知能、機械学習といった昨今のキーワードを中心に、過去の歴史からここ最近の動き、今後の動向に至るまでを、平易な表現で丁寧に解説されています。

 

また日本ディープラーニング協会が開催する「ディープラーニング ジェネラリスト検定(通称:G検定)」の推薦図書の一つでもあります。

 

全てのビジネスマンにおすすめできる一冊。中古でもkindleでも構いませんので、これだけは目を通しておいた方が良いです。

 

-スキルアップしたい

Copyright© 営業アップデート , 2020 All Rights Reserved.