スキルアップしたい

【kaggle入門】indexを無視してデータフレーム同士を結合する方法【営業だってプログラミング】

2019年8月9日

  1. HOME >

【kaggle入門】indexを無視してデータフレーム同士を結合する方法【営業だってプログラミング】

2019年8月9日

【kaggle】indexを無視してデータフレーム同士を結合する方法【営業だってプログラミング】

こんな事にハマったは世界で私だけかもしれませんが、気づくのに時間がかかってしまったので、備忘として記録に残しておきます。

事象

kaggleでモデリングして予測した後、その結果を新たに読み込んだsumple_submission(元はsumple_submission.csv)に転記してsubmitする際に、お互いのindexを参照してしまいうまく結合できませんでした。

やりたかったこと

図で表すと以下の通り。予測結果のindexは無視し、sample_submissionのindexを残して、単純に結合したかったのです。

▼クリックで拡大▼

こうしたかったのに、以下のようになってしまいました。

うまくいかなかった事象

▼クリックで拡大▼

要はお互いのindexを参照してマッチングしてしまい、マッチしなかった所がnanで埋まってしまうため、submit時にエラーが出る形です。

結論:こうしたらうまくいった

結論として、事前にモデリングした予測結果のindexをsample_submissionのindexに置き換えたらうまくいきました。

モデリングした予測結果のindexをsample_submissionのindexに置き換える

こうすると以下のように、予測結果の「pred」データフレームのindexが置き換わります。

▼クリックで拡大▼

予測結果をsample_submissionファイルに入れる

こうすることで、本来やりたかった事ができました。

▼クリックで拡大▼

【kaggle】indexを無視してデータフレーム同士を結合する方法【営業だってプログラミング】まとめ

過去のサンプルを元に、今回のコード全体をおさらいしてみます。



その他、pythonやkaggle、AI・機械学習といった記事のまとめはこちらです。

【2020年版】python・kaggle関連の記事まとめ【営業だってプログラミング】

続きを見る

ここからは、実際に私が購入し、おすすめできると思った本を紹介してみたいと思います。

 

機械学習のための「前処理」入門

 

まずはこちら。「機械学習のための『前処理』入門」です。

 

  • これから機械学習を始めてみたい
  • kaggleやSIGNATEにチャレンジしてみたい

 

という方には最適な本。個人的には一番のおすすめです。

 

データモデルの精度向上には特徴量エンジニアリングが不可欠。

 

というかこれが全てと言っても過言ではないのですが、各種環境準備の方法やコーディングの詳細に至るまで、誰にでも分かりやすく書かれています。

 

この一冊さえあれば、とりあえずkaggleにトライすることができます。

 

 

スラスラ読める Pythonふりがなプログラミング

 

Pythonのコーディングが、全てふりがなで解説されている、究極に親切な解説本です。

 

  • 「機械学習のための『前処理』入門」は、自分には難しすぎた
  • 英語アレルギーがありpythonコードに触れることすらできない

 

という方は、まずはこちらをご一読される事をおすすめします。

 

※但し、慣れてきたらすぐに上記「機械学習のための『前処理』入門」に移行される事をおすすめします。

 

 

仕事ではじめる機械学習

 

定番のオライリーです。

 

こちらはkaggleやSIGNATEなどのコンペティションというよりは、機械学習をビジネスで生かしていくためにはどうすれば良いか?という観点の内容が充実しています。

 

pythonコードの記述に留まらず、

 

  • 機械学習プロジェクトを成功させるにはどうすれば良いか
  • KKD(勘・経験・度胸)を掲げる抵抗勢力とはどう付き合うべきか

 

というような、実務に即した内容は個人的には本当に参考になったのですが、オライリーは初心者にはかなり敷居が高いので、まずは本屋で立ち読みして、レベル感をチェックしてみるのが良いと思います。

 

 

人工知能は人間を超えるか

 

pythonのコーディングからは離れますが、もしこの本を読んでいない人がいたら必ず一度は目を通しておいた方が良いです。

 

この界隈では有名な、東大の松尾豊先生の著書「人工知能は人間を超えるか」。

 

いわゆるAI・人工知能、機械学習といった昨今のキーワードを中心に、過去の歴史からここ最近の動き、今後の動向に至るまでを、平易な表現で丁寧に解説されています。

 

また日本ディープラーニング協会が開催する「ディープラーニング ジェネラリスト検定(通称:G検定)」の推薦図書の一つでもあります。

 

全てのビジネスマンにおすすめできる一冊。中古でもkindleでも構いませんので、これだけは目を通しておいた方が良いです。

 

-スキルアップしたい

Copyright© 営業アップデート , 2020 All Rights Reserved.