宜家已經有唔少statistical model可以handle呢啲data
由於 開車時間~客量 呢類correlation,明顯係non-linear
所以我選擇用machine learning,用R.4.1.0砌random forest model
Random forest既其中一個強項
係可以攞partial dependence plot出來,逐個variable睇
舉個例,我如果想睇客量喺過去一年既升跌,可以砌 passenger number ~ day of year 既partial dependence plot
呢類plot已經幫我移除咗日子/開車時間既影響