はじめに
前回、ディズニーの待ち時間を機械学習で予測したのは以下の記事で、データはその日の14時の時の待ち時間だけのものとその時の天気のデータを用いています。
また期間は2024年と2025年の6月ぐらいのまでを使用しています。
天気から待ち時間を求めようとした試みの続きが今回の記事です。
2025年が終わったので、2025年の1年分と2024年の1年分の計2年分のデータを用いて今回は学習をしてみて、前回の精度の比較をしてみます。
予測の結果
では予測をしてみます。
今回の結果は以下です。2023点のデータを用いています。
学習データに対する回帰への評価(RMSEの値): 7.813435365788536
学習データに対する決定係数: 0.95248085387138
テストデータに対する回帰への評価(RMSEの値): 22.21018749492383
テストデータに対する決定係数: 0.6511389457642807前回は以下。
学習データに対する回帰への評価(RMSEの値): 9.153910815233917
学習データに対する決定係数: 0.9288369904630196
テストデータに対する回帰への評価(RMSEの値): 23.678457430000964
テストデータに対する決定係数: 0.4134709530374572前回よりも確かに精度は上がっています。
今回の予測値と実測値をプロットした図は以下です。

前回は以下。

やはり、データ数が増えるとある程度は精度があがりますね。
今回の重要度は以下のようになっています。(値が大きいものから10個載せています)
dew_point : 0.6307507658126039
temp : 0.12862096454437336
pressure : 0.07255109658905284
humidity : 0.06726528139260943
wind_speed : 0.06589473916756482
clouds : 0.019970559015090966
weather_Clouds : 0.006061953603905571
weather_Rain : 0.005287947678023046
weather_Clear : 0.0019843843897914847
weather_Mist : 0.0015469974892566797最後に
精度は確かに上がっていました。
しかし、格段に上がっているわけではないので、どこかで精度が頭打ちになりそうです。
このため、別の指標を設ける必要があると考えています。
また、2027年になったら再度2026年の1年分のデータを追加して再学習させようと思います。
また、余談ですが、ディズニーの待ち時間の情報をスクレイピング用のプログロムのデータが吹っ飛びました。
今回再度作ることになりました。
辛かったです。。。
