スキルアップしたい

【kaggle入門】indexを無視してデータフレーム同士を結合する方法~目指せ文系データサイエンティスト~

2019年8月9日

  1. HOME >

【kaggle入門】indexを無視してデータフレーム同士を結合する方法~目指せ文系データサイエンティスト~

2019年8月9日

【kaggle入門】indexを無視してデータフレーム同士を結合する方法~目指せ文系データサイエンティスト~

 

こんな事にハマったは世界で私だけかもしれませんが、気づくのに時間がかかってしまったので、備忘として記録に残しておきます。

 

本記事の信頼性

 

大手IT企業所属の、自称「ビジネス支援型データサイエンティスト」。

元営業という異色の経歴を活かしながら、金融・製造・流通業のお客様を中心にAI活用コンサルや定着支援・人材育成・講演活動など、幅広く活動しています。

ヤエリ(@yaesuri_man

普段のお客様との会話の中でよく話題に上る内容。

名だたるデータサイエンティストの先輩を差し置いてあまり大それたことは言えませんが、ド素人である文系営業出身の私ならではの視点での紹介は喜んで頂けることが多いです。

 

事象

 

kaggleでモデリングして予測した後、その結果を新たに読み込んだsumple_submission(元はsumple_submission.csv)に転記してsubmitする際に、お互いのindexを参照してしまいうまく結合できませんでした。

 

やりたかったこと

 

図で表すと以下の通り。予測結果のindexは無視し、sample_submissionのindexを残して、単純に結合したかったのです。

 

▼クリックで拡大▼

 

こうしたかったのに、以下のようになってしまいました。

 

うまくいかなかった事象

 

▼クリックで拡大▼

 

要はお互いのindexを参照してマッチングしてしまい、マッチしなかった所がnanで埋まってしまうため、submit時にエラーが出る形です。

 

結論:こうしたらうまくいった

 

結論として、事前にモデリングした予測結果のindexをsample_submissionのindexに置き換えたらうまくいきました。

 

モデリングした予測結果のindexをsample_submissionのindexに置き換える

 

 

こうすると以下のように、予測結果の「pred」データフレームのindexが置き換わります。

 

▼クリックで拡大▼

 

予測結果をsample_submissionファイルに入れる

 

 

こうすることで、本来やりたかった事ができました。

 

▼クリックで拡大▼

 

【kaggle】indexを無視してデータフレーム同士を結合する方法~目指せ文系データサイエンティスト~まとめ

 

過去のサンプルを元に、今回のコード全体をおさらいしてみます。

 

【kaggle入門】XGBoostによる最もシンプルな回帰モデル構築~目指せ文系データサイエンティスト~

続きを見る

 

 

その他、pythonやkaggle、AI・機械学習といった記事のまとめはこちらです。

【2020年版】プログラミング関連の記事まとめ~目指せ文系データサイエンティスト~

続きを見る

ここからは、実際に私が購入し、おすすめできると思った本やオンラインスクールを紹介します。

 

機械学習のための「前処理」入門


 

まずはこちら。「機械学習のための『前処理』入門」です。

  • これから機械学習を始めてみたい
  • kaggleやSIGNATEにチャレンジしてみたい

という方には最適な本で、個人的には一番のおすすめです。

 

データモデルの精度向上には特徴量エンジニアリングが不可欠、というよりこれが全てと言っても過言ではありません。

各種環境準備の方法やコーディングの詳細に至るまで、誰にでも分かりやすく書かれています。

この一冊さえあれば、とりあえずkaggleにトライすることができます。

 

 

Udemy「みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習」


 

ベネッセが主催する、プログラミング未経験者を対象にしたコース。

数学や統計的な知識はそこそこに、文字通り人工知能と機械学習をゼロから学習できます。

受講生2万人以上、4千人以上の評価者から、5段階中4.0の評価を得ている、万人におすすめできる優良講座。

定価15,000円と高価ですが、90%OFFといったキャンペーンを頻繁に行っていますので、それを狙うのがおすすめ。

 

人工知能は人間を超えるか


 

pythonのコーディングからは離れますが、もしこの本を読んでいない人がいたら必ず一度は目を通しておいた方が良いです。

 

この界隈では有名な、東大の松尾豊先生の著書「人工知能は人間を超えるか」。

 

いわゆるAI・人工知能、機械学習といった昨今のキーワードを中心に、過去の歴史からここ最近の動き、今後の動向に至るまでを、平易な表現で丁寧に解説されています。

 

また日本ディープラーニング協会が開催する「ディープラーニング ジェネラリスト検定(通称:G検定)」の推薦図書の一つでもあります。

 

全てのビジネスマンにおすすめできる一冊。中古でもkindleでも構いませんので、これだけは目を通しておいた方が良いです。

 

-スキルアップしたい

Copyright© 営業アップデート , 2020 All Rights Reserved.