Prosperity and InSPIRE

最新技術レビューから時事ネタ、ユーモラスな小話まで、
幅広いコンテンツをPro-SPIRE独自の切り口で
発信していきます!

The 2nd Big Data Analysis Contestに参加しました

2016.10.13

株式会社Pro-SPIREのBigdata推進部の小澤です。

Bigdata推進部ではデータを活用したサービスを10個立ち上げるということを目標としています。
詳細は前回の記事を参照下さい。(※『サービス立ち上げないと』
データ活用方法検討の一環として経済産業省が主催する『ナチュラルローソン菓子』売り上げ予測コンテストにメンバーが参加していますのでその内容について投稿します。

The 2nd Big Data Analysis Contest

The 2nd Big Data Analysis Contest 『データパティシエが「ナチュラルローソン菓子」の売上予測・新商品開発に挑む』

データパティシエが「ナチュラルローソン菓子」の売上予測・新商品開発に挑む

データパティシエが「ナチュラルローソン菓子」の売上予測・新商品開発に挑む

https://deepanalytics.jp/compe/28

日本全国に存在する店舗の過去1年分の売り上げデータを基に、翌月の売り上げを予測するというコンテストです。参加者が予測した予測結果と実際の販売結果を比較し、誤差の少なさを競います。

◆提供されるデータ

過去1年分の店舗別売上データが基となります。
店舗数が1400店舗分、お菓子の種類が73種類分の月別売上金額データが提供されます。
また、お菓子の原材料のデータや、ツイッターでつぶやかれた回数などのデータも提供されていました。

◆提出するレポート

店舗別にあるお菓子がどれくらい売れるかを予測します。予測結果は店舗別やお菓子の種類別に求められます。
つまり、店舗数(1400店舗)×お菓子の種類(73種類)で10万件以上の予測データを計算する必要があります。

◆解析方法

今回の解析ではpythonを使用しました。特にpandasというライブラリーを主に使用しています。

◆pandasとは

pandasは統計処理用のライブラリーで大量データを効率よく集計、加工、解析することができます。

統計処理用のライブラリーpandas

統計処理用のライブラリーpandas

●参考リンク
■pandasの公式サイト
http://pandas.pydata.org/

例えば地域別に売上額の平均値を求めたり、最も販売数が多いお菓子の種類を簡単に求めたりできます。
また、棒グラフやヒストグラムの作成も簡単にできるので、様々な角度からデータを可視化して理解する手助けにもなります。pandasではデータフレームというクラスを通してデータの操作を行います。
例えば、下記のたった1行でヒストグラムを作ることができます。

df.amount.hist()

また、立地ごとに販売数の平均を求める場合は以下の1行です。

df.groupby(“place”).amount.mean()

対話的に操作を行えるので、データの解析が非常に簡単になります。
まずは、データの概要をつかむため、様々な角度から集計し、可視化するところから始めました。

◆結果

最終的な順位は138人中22位でした。予測の方法は前月の売上金額をベースに、売上が伸びている商品と売上が落ちている商品で微調整を加えるという方法です。

データ活用について

今後もデータの有効な活用方法の検討やこういったイベントへは積極的に参加して情報発信していきたいと思います。よろしくお願いします。