主にこの記事に書いてある情報
前回、じゃらんのデータを使用して色々値を見てみました。
今回はランダムフォレストを使用して分析をしてみようと思います。
具体的にはランダムフォレストを使用して観光地の評価点を予測してみます。
そして、評価点に一番影響を与えているパラメータを知ることができます。
食べログを分析した際はブックマークの数が大きく評価点に関わってきました。
食べログのランダムフォレストの記事はこちらです。(参考までに。)
では、早速、ランダムフォレストを使っていきます。
ランダムフォレストの説明についてはここでは割愛します。
じゃらんに対するランダムフォレスト
学習データに対する結果は以下です。
学習データに対する回帰への評価(RMSEの値):0.0294149866223311 学習データに対する決定係数:0.9853259901369514
テストデータに対する結果は以下です。
テストデータに対する回帰への評価(RMSEの値):0.0727035028023265 テストデータに対する決定係数:0.9039818107307231
重要度
重要度はじゃらんの評価点を予測するときに重要になる度合いです。
重要度は以下のようになりました。重要度の高いベスト20を載せています。
couple_score : 0.42998118724275364 senior_score : 0.3639282285277686 friend_score : 0.10083038938790215 with_child_score : 0.037791131415807845 alone_score : 0.02801451048229865 Numeric_Review : 0.01669169510003216 prefecture_北海道 : 0.0011651985262114994 prefecture_東京都 : 0.0011138807052945242 prefecture_沖縄県 : 0.001049414651791838 prefecture_神奈川県 : 0.0008600628180909702 prefecture_長野県 : 0.0008164266850374084 prefecture_大阪府 : 0.0007889331108734953 prefecture_静岡県 : 0.0007681171587885363 prefecture_栃木県 : 0.0007589568012950646 prefecture_愛知県 : 0.0007238230802549644 prefecture_兵庫県 : 0.0006493698662661563 prefecture_福岡県 : 0.0006350245741973623 prefecture_茨城県 : 0.0005933742168320457 prefecture_福島県 : 0.0005715501565314896 prefecture_宮城県 : 0.0005657159120347262
「couple_score」 はカップルで旅行をするときの評価値
「senior_score」はシニア旅行の評価値
「friend_score」は友達との旅行での評価値
「with_child_score」は子供との旅行の評価値
「alone_score」は一人旅での評価値
結果としては、カップルでの旅行の評価値が一番じゃらんの評価値に影響しています。
カップルでの旅行の際はじゃらんの点数を参考にしやすいってことですね。
あと、意外(?)なことに、「Numeric_Review」があまり重要度が高くありませんでした。
「Numeric_Review」はレビュー数です。
食べログではブックマーク数がとても影響していたので、それなりに影響すると思っていましたが、そうでもなかったです。
その他は都道府県での重要度です。
つまり、その都道府県だから評価値に影響するかどうかです。
結果としては、うん、都道府県はほぼ関係なかったですね。
最後に
今回はじゃらんの評価点に対するランダムフォレストを実施しました。
結果は、カップルでの旅の評価値がじゃらんの評価値に大きく影響していました。
カップルの旅行にやさしい。そんなサイトなんですね。
じゃらんは割引もあるので是非使ってみてください!!!👇