
今回は第1回、ノック1〜ノック5までをやっていきたいと思います。
Python実戦データ分析100本ノックは、pandas の使い方やデータサイエンスを実戦的に学べる書籍なのでぜひ手に取ってみてください。
↓Python実践データ分析100本ノック 名著と有名ですね。
第1章 ウェブからの注文数を分析する10本ノック
この章の目的は、csvファイルのデータを読み込んで、データ同士を結合したり、加工したりして、最終的には売り上げ推移のグラフを作ることです。(まだ、機械学習は出て来ません。)
ノック1:データを読み込んでみよう
import pandas as pd customer_master = pd.read_csv('customer_master.csv')

pandas を pd という名前でインポートし、”customer_master.csv’というファイルを読み込み、customer_master という名前に代入する感じですね。
ノック2:データを縦方向へ結合(ユニオン)してみよう
transaction = pd.concat([transaction_1, transaction_2], ignore_index=True)

concatenate :連結する
ignore_index=True: indexを振り直して連番にする。って意味です。
ノック3:売上データ同士を結合(ジョイン)してみよう
join_data = pd.merge(transaction_detail, transaction[["transaction_id", "payment_date", "customer_id"]], on="transaction_id", how="left")

transaction_detailを左側に置いて、tansaction[[“transaction_id”, “payment_date”, “customer_id”]]をマージさせるイメージ。
ノック4:マスターデータを結合(ジョイン)してみよう
join_data = pd.merge(join_data, customer_master, on="customer_id", how="left") join_data = pd.merge(join_data, item_master, on="item_id", how="left") join_data.head()

さっきと同じ要領でcustomer_masterとitem_masterをジョインする。
ノック5:必要なデータ列を作ろう

quntity(量)とitem_price(単価)を掛け算して、売り上げの列を作りましょう
join_data["price"] = join_data["quantity"] * join_data["item_price"]
ここまでで、ノック1〜5は終わりです。
今は訳も分からず作業しているだけな感じもしますが、ここからが面白くなってくるので、しばらくの辛抱ですね。
次回:【第2回】python 実戦データ分析100本ノック第1章後半のまとめ
目次に戻りたい方はこちら
コメント