スキルアップしたい

Python初心者こそkaggleから始めるべきその理由【40歳からのプログラミング】

Python初心者こそkaggleから始めるべきその理由【40歳からのプログラミング】

思う所あって40歳からPythonの勉強を始めた私。

私がPythonを勉強しようと思ったわけ【40歳からのプログラミング】

続きを見る

当初は「Progate」というオンライン学習に登録し、しこしこと勉強していました。

オンライン学習「Progate」を試してみた【40歳からのプログラミング】

続きを見る

ですがすぐに飽きてしまい、最近は機械学習を用いるコンペティションサイト「kaggle」に勤しんでいます。

一説によると、100万人以上が登録していると言われているkaggle。

「初心者こそkaggleから始めるべきだ」と思う理由について解説をしてみたいと思います。

Python初心者こそkaggleから始めるべきその理由 kaggleとは?

「kaggle」とは、企業やアカデミアがデータを投稿し、世界中のデータサイエンティストが予測モデルの精度を競い合うコンペティションサイトです。

コンペによっては出題側が賞金を出しており、優秀なデータモデル作成者には賞金を出したり、モデルを買い取ったり、hiringされる仕組み。

過去に日本からは、リクルート社がホットペッパーグルメのデータを元に店舗の来客数予測や、メルカリ社が中古品売買時の適正価格予測などの問題を出題しています。

あれこれ試しましたが、今私は「Python初心者こそkaggleから始めるべき」と考えています。

Python初心者こそkaggleから始めるべきその理由①実行環境が無償提供されている

kaggleは「Kernel」というpythonやRのコード実行環境が無償提供されており、ユーザ登録すれがこれらを無償で利用できます。

しかも、何とGPUまで活用可能!

kaggleに登録すれば、潤沢な実行環境をタダで利用することができるわけです。※

これを活用しない手はありません。

【kaggle入門】kernelでGPUを使う方法~CPUとの性能比較~【40歳からのプログラミング】

続きを見る

※同時並列処理数に制限はあります

Python初心者こそkaggleから始めるべきその理由②お手本がたくさんある

上記で説明したコード実行環境「Kernel」について、一部の有志が自身のコードを一般公開してくれています。

こちらを読み解くことで、どのような処理を行ったか、またデータモデルの精度向上にどのような工夫をしたかを勉強させてもらえる環境が整っています。

Discussionボードもありますので、不明点があれば直接質問することも不可能ではありません。

またそのお手本コードをFork(コピー)して、そこから工夫を凝らしていくとも可能。

力を合わせてモデル精度向上にトライすることもできるわけです。

Python初心者こそkaggleから始めるべきその理由③モチベーションを継続できる

kaggleのコンペでsubmit(予測結果csvや、データモデル生成に活用したkernelを提出)すると、そのコンペ全体の中の精度順位が即座に表示されます。

データモデルの精度が上がると順位が格段に上がるので、順位の向上・維持が学習のモチベーションになります。

一人でしこしこと学習するのとは雲泥の差です。

唯一の課題:日本語に対応していないこと

ただ残念なことに、2019年8月時点では日本語には対応しておりません。

英語の原文を読みながら、問題の理解を深めていくしかないわけです。

但し、現在はGoogle翻訳もありますし、日本でもKaggleに取り組む人(「Kaggler(カグラー)」という)が増えてきていますので、有名なコンペであれば各所で盛んにディスカッションが行われています。

やる気さえあれば英語の壁は簡単に突破できます。

Python初心者こそkaggleから始めるべきその理由 まとめ

当初は個人で学習を進めていた私も、kaggleにトライするようになってからpython力の向上を身をもって実感しています。

一人でも多くの人にこの面白さを味わってほしいと思い、当面はkaggleの布教に取り組みたい所存です笑

ここからは、実際に私が購入し、おすすめできると思った本を紹介してみたいと思います。

 

機械学習のための「前処理」入門

まずはこちら。「機械学習のための『前処理』入門」です。

  • これから機械学習を始めてみたい
  • kaggleやSIGNATEにチャレンジしてみたい

という方には最適な本。個人的には一番のおすすめです。

データモデルの精度向上には特徴量エンジニアリングが不可欠。というかこれが全てと言っても過言ではないのですが、各種環境準備の方法やコーディングの詳細に至るまで、誰にでも分かりやすく書かれていますので、この一冊があれば、とりあえずkaggleにトライすることができます。

 

スラスラ読める Pythonふりがなプログラミング

Pythonのコーディングが、全てふりがなで解説されている、究極に親切な解説本です。

  • 「機械学習のための『前処理』入門」は、自分には難しすぎた
  • 英語アレルギーがありpythonコードに触れることすらできない

という方は、まずはこちらをご一読される事をおすすめします。

※但し、慣れてきたらすぐに上記「機械学習のための『前処理』入門」に移行される事をおすすめします。

 

仕事ではじめる機械学習

定番のオライリーです。

こちらはkaggleやSIGNATEなどのコンペティションというよりは、機械学習をビジネスで生かしていくためにはどうすれば良いか?という観点の内容が充実しています。

pythonコードの記述に留まらず、

  • 機械学習プロジェクトを成功させるにはどうすれば良いか
  • KKD(勘・経験・度胸)を掲げる抵抗勢力とはどう付き合うべきか

というような、実務に即した内容は個人的には本当に参考になったのですが、オライリーは初心者にはかなり敷居が高いので、まずは本屋で立ち読みして、レベル感をチェックしてみるのが良いと思います。

 

人工知能は人間を超えるか

pythonのコーディングからは離れますが、もしこの本を読んでいない人がいたら必ず一度は目を通しておいた方が良いです。

この界隈では有名な、東大の松尾豊先生の著書「人工知能は人間を超えるか」。

いわゆるAI・人工知能、機械学習といった昨今のキーワードを中心に、過去の歴史からここ最近の動き、今後の動向に至るまでを、平易な表現で丁寧に解説されています。

また日本ディープラーニング協会が開催する「ディープラーニング ジェネラリスト検定(通称:G検定)」の推薦図書の一つでもあります。

全てのビジネスマンにおすすめできる一冊。中古でもkindleでも構いませんので、これだけは目を通しておいた方が良いです。

-スキルアップしたい

Copyright© ダメリーマンの処方箋 , 2019 All Rights Reserved.