■食べログのpythonスクレイピングと分析 #10 東京のデータの可視化

スポンサーリンク
tech系(python)
スポンサーリンク

これまでのあらすじ

久しぶりにこのシリーズの更新をします。(久々にモチベが高くなったので)

食べログのデータでコスパの良いレストランを探すシリーズ。

久々なので前回までの変遷を軽くおさらいします。(興味ない方はすっ飛ばしてください笑)

●食べログからデータ収集 #1, #2, #3

●収集したデータから分析 #4, #5(コスパ指数という独自のパラメータを定義しました), #6(回帰分析:失敗)

●怒涛の如くコスパ指数の高いお店を200件載せる #7

●コスパ指数のベスト5をマッピングする #8

一応、上記の#6で重回帰分析を行いましたが、この時の変数はランチの価格帯、ディナーの価格帯、お店の座席数の3つしかありませんでした。

まあこれではうまくいくわけがありません。

なぜならはじめにこの値はレストランのスコア値に影響しているのかどうかをちゃんと見ていないですし、変数があまりにも少ないです。

お店の雰囲気やサービスの質も評価に影響するはずですからね。

今回やること

ということで今回は様々な変数をグラフ化し、回帰分析の変数について考えようというのが目的です。

そもそも、コスパ指数というパラメータを独自に定義をしましたが、2変数(価格帯の偏差値と評価値の偏差値)の簡単な式でコスパを測ろうとすること自体が簡易的過ぎたのだと思っています。

そして評価値についてこんなことを食べログが書いてました。(引用元はこちら

「その時点でユーザーからの評価がどのくらい集まっているのか」という見方を示す指標で、お店や料理について絶対的・確定的な優劣を示すものではありません。

https://tabelog.com/help/score/

え!?

え!?!?

今まで300件以上のコスパ指数のお店を記事に書きましたが、評価のスコア値の明確な水準が定まっていないとなるとコスパ指数あんま使えない?

というかスコア値があいまいならスコアとして値を出している意味はないやないか、と思いました。

しかし、ふと思ったわけです。

このスコア値はどんな値に左右されて決定されているのかと。

つまり、「ユーザからの評価がどのくらい集まっているのか」という指標なら、ユーザはどこを基準に評価しているのかと。

ということで今回は可視化を行って、視覚的にスコア値に影響してそうなところを見つけていきたいななんて思っています。

使用するデータは東京にあるレストラン、約14万件です。

可視化

今回はboxplotを使用して可視化していきたいと思います。

「料理」の項目

まずは、「料理」の項目と評価値の関係は以下です。

上記の図、赤丸の①、②について、

①「英語メニューあり」が評価が高めになりがちです。

②「カロリー表示あり」が評価が低めになりがちです。

英語のメニューがある方が、世界的に評価される料理があるのでしょうか。

カロリー表示があるお店は、ヘルシーなため、料理の味を良くするにはどこかで限界となるのでしょうか。

いずれにせよ、「カロリー表示あり」で3.5以上の評価があれば期待しても良さそうです。

「ドリンク」の項目

「ドリンク」の項目と評価値の関係は以下です。

上記の図、青のマーカーの丸の部分、「ワインにこだわる」の値が高くなりがちですね。

「空間・設備」の項目

ここから、料理ではなく、お店自体の項目になります。

「空間・設備」の項目と評価値の関係は以下です。

上記マーカーでましましたが、「オープンテラスあり」が比較的高いですね。

料理は味だけでなく体験なので、春など気持ちいい時にテラスでおいしい食べ物を食べられるのはとてもよい経験ですね。

一方で評価値が低いのは「カラオケあり」、「有料Wi-Fiあり」、「ダーツあり」などでした。

料理よりも別のレクリエーションがメインになっているからでしょうか。

「利用シーン」の項目

「利用シーン」の項目と評価値の関係は以下です。

シーンとしてはデート、接待、女子会が高めの値でした。

サービスまでもが求められるようなシーンですね。

味だけでなくサービスも評価値に加わっていることが示唆されますね。

受賞アワード

受賞アワードと評価値の関係は以下になります。

ジャンルごとで受賞ではなく、Tabelog Award Goldという枠がとても高い評価値を示しています。

Tabelog Award Silverも比較的高く、アワードの受賞が評価値に大きく影響していることが良く分かります。

では、今度は、受賞数と評価値の関係を見てみましょう。

受賞数が多ければ、評価値も高くなるのでしょうか。

アワードの受賞数と評価値の関係は以下になります。

赤の矢印で示してはいますが、受賞数が5から6になると全体的に評価値はあがりますね。

ただ、1~5までは横ばいなので、6つめから評価値が上がるということがわかります。

まとめ

今回は、食べログの項目と評価値の関係を可視化してどんなところが評価値に影響しているのかを見てきました。

結論としては、「英語メニューを用意して、ワインにはこだわって、オープンテラスを作って、デートや接待や女子会に使える」レストランにすると評価値があがることが見込まれるということですね。

また上記のボックスプロットではある程度の評価値の水準がわかると思います。

こういう時は、これぐらいの評価値になるんだと。

それよりも高い評価値なら、期待できるお店かもしれません。

今回はここまでにします。ではまた。👋👋👋


タイトルとURLをコピーしました