【日本語で学ぶ Kaggleデータ】Home Credit Default Riskって何?

Kaggle って今流行っているけど、何やっているのかわからない。
機械学習とかAI とかよく聞くけど、結局それを使って何がわかるの?

私を含め、色々な人がそのような疑問を持っていると思います。このブログは、Kaggleのデータセットを用いて、データサイエンティスト達が何を明らかにしようとしているのかを勉強しながら紹介していきます。

*詳細な解析方法などは取り扱えませんので悪しからず。

今日のテーマはこちら

Home Credit Default Risk | Kaggle
Can you predict how capable each applicant is of repaying a loan?

Home Credit Default Risk コンペの目標

本コンペはホームクレジットグループが主体となって2018.5月から8月まで行われたようです。本コンペの目標は「この人にお金を貸した時にちゃんと返済されるかを予測する」ことです。クレジット会社では、その人の取引情報などのさまざまな代替データを利用して、クライアントの返済能力を予測しているんですね。

金融会社の鉄則は「返してくれる人にはお金を貸して、踏み倒す人に貸さない」という事なので、これを顧客データを元に機械学習を使って決定していこうという取り組みがすでになされているという事なんですね。

どんなデータを元に機械学習させるのか

・顧客の基本情報
年齢、家族構成、車や不動産所有の有無、収入、職業など100項目

・ 他の金融機関からの借り入れ、返済状況
いわゆる顧客の信用情報ですね、過去に借金を踏み倒している人には貸さないほうがいいでしょうね。

過去の借入者に対してこれらの個人情報と、「その人が実際に返済を完了したか」という情報がセットでデータ化されています。その数は何と30万人分です

まとめ

データサイエンティスト達は、それらの過去の顧客データとその返済情報のデータを元に、新たな借り入れ希望者が現れたときに、「この人にお金を貸してもお金が返ってこないリスクが何%あるか」という事を予想していくんですね。これを見て興味を見たあなた、ぜひデータサイエンスの登竜門であるKaggleにチャレンジしてみて下さい。

1. 初心者の方にオススメする本・・ PythonではじめるKaggleスタートブック 

2. 中級者〜上級者にオススメする本・・Kaggleで勝つデータ分析の技術