城巴 793 及 795X 下週一 (13/01) 起加強服務
[複製鏈接]
|
本帖最後由 KE7066 於 2025-1-26 00:29 編輯
Again,你呢個講法搞亂correlation同causation
有時間表,即係前車開車時間係correlated with後車開車時間
有correlation已經令佢唔係poisson,無需要證明佢有causation You should keep stochastic independence distinct from causal independence.
Two random variables that are stochastically independent are uncorrelated by definition.
Two random variables that are causally independent (𝐴 does not imply/causes 𝐵, nor vice versa) may be correlated.
It is also possible that some third random variables 𝐶 separately influences both 𝐴 and 𝐵, making them correlated.
https://math.stackexchange.com/q ... an-uncorrelatedness
呢條問題本身思考咗好耐,點諗都卡係 correlation 同 independence
我諗呢個 quote 都解釋咗點解
所以我理解係要 causation 先可以話佢唔係 memoryless
又睇下98D 開7.5分鐘一班,間距少於5分鐘或大於15分鐘,理論上應該有62%機會率
我地望返上面啲間距,個distribution係咪咁樣?明顯唔係
連比較密車既路線,下游位置班次間距都唔係跟exponential distribution,仲差好遠咁
已經可以好肯定咁講,香港既巴士班次,唔係random/memoryless
discretize 咁數
98D 2122-2227
35 分鐘係等五分鐘內
30 分鐘係等超過五分鐘
35/65 ≈ 54%
唔見得離理論值好遠喎
會有偏差根本第一篇引用嘅討論 assume exponential distribution 已經解釋咗
現實個 right tail 情況唔係無窮無盡
你睇 P(x<5)=48.7%, P(x<6)=55.1% 嘅話我直頭覺得係好接近
|
|
|
|
|
本帖最後由 castanopsis 於 2025-1-26 10:46 編輯
喺呢個context(估計平均等車時間)Correlation已經夠,唔需要causation
————————
不妨睇返總站開車呢個scenario
Event A: 第一架車13:00開車
Event B: 第二架車13:20開車
Event C:站長跟住時間表,指令車長開車
C imply A,causation
(站長指令班車13:00開)
C imply B,causation
(站長指令班車13:20開)
A does not imply B,but the times are correlated, modelled by the function t2 = t1+20
(第一班車13:00開,唔會自動導致第二班車20分鐘後開,但因為站長既行為令兩者有correlation)
總站等車,大家都認同係x/2,唔係memoryless
所以,correlation,已經足以令等車時間變成x/2
discretize 咁數
98D 2122-2227 35 分鐘係等五分鐘內
30 分鐘係等超過五分鐘 35/65 ≈ 54%
唔見得離理論值好遠喎
會有偏差根本第一篇引用嘅討論 assume exponential distribution 已經解釋咗
現實個 right tail 情況唔係無窮無盡
你睇 P(x<5)=48.7%, P(x<6)=55.1% 嘅話我直頭覺得係好接近
Exponential distribution講緊既,係班次間距既distribution
上面個數,意思係如果完全random,應該有六成幾既班次間距,<5分鐘,或者>15分鐘
但現實係無一對班次,間距<5或>15,證明唔係random
98D條數,discretize咁數,都得
但你個計法arbitarily用5分鐘做threshold,好複雜,亦似乎有啲問題
最簡單,逐分鐘列曬出來,計等車時間,再average
你會發現,實際平均等車時間,係4.9分鐘,低於poisson所預測既8.4分鐘
time | bus | wait_time | 2122 | NA | 14 | 2123 | NA | 13 | 2124 | NA | 12 | 2125 | NA | 11 | 2126 | NA | 10 | 2127 | NA | 9 | 2128 | NA | 8 | 2129 | NA | 7 | 2130 | NA | 6 | 2131 | NA | 5 | 2132 | NA | 4 | 2133 | NA | 3 | 2134 | NA | 2 | 2135 | NA | 1 | 2136 | yes | 0 | 2137 | NA | 5 | 2138 | NA | 4 | 2139 | NA | 3 | 2140 | NA | 2 | 2141 | NA | 1 | 2142 | yes | 0 | 2143 | NA | 9 | 2144 | NA | 8 | 2145 | NA | 7 | 2146 | NA | 6 | 2147 | NA | 5 | 2148 | NA | 4 | 2149 | NA | 3 | 2150 | NA | 2 | 2151 | NA | 1 | 2152 | yes | 0 | 2153 | NA | 6 | 2154 | NA | 5 | 2155 | NA | 4 | 2156 | NA | 3 | 2157 | NA | 2 | 2158 | NA | 1 | 2159 | yes | 0 | 2200 | NA | 4 | 2201 | NA | 3 | 2202 | NA | 2 | 2203 | NA | 1 | 2204 | yes | 0 | 2205 | NA | 13 | 2206 | NA | 12 | 2207 | NA | 11 | 2208 | NA | 10 | 2209 | NA | 9 | 2210 | NA | 8 | 2211 | NA | 7 | 2212 | NA | 6 | 2213 | NA | 5 | 2214 | NA | 4 | 2215 | NA | 3 | 2216 | NA | 2 | 2217 | NA | 1 | 2218 | yes | 0 | 2219 | NA | 8 | 2220 | NA | 7 | 2221 | NA | 6 | 2222 | NA | 5 | 2223 | NA | 4 | 2224 | NA | 3 | 2225 | NA | 2 | 2226 | NA | 1 | 2227 | yes | 0 | | | | | Poisson expected | 8.375 | | Actual waiting time | 4.893939 |
|
|
|
|
|
本帖最後由 KE7066 於 2025-1-26 19:46 編輯
A does not imply B,but the times are correlated, modelled by the function t2 = t1+20 (第一班車13:00開,唔會自動導致第二班車20分鐘後開,但因為站長既行為令兩者有correlation)
總站等車,大家都認同係x/2,唔係memoryless
所以,correlation,已經足以令等車時間變成x/2
無認同過
event A or B 求其一個 execute 唔到已經唔會 follow 個 distribution
假設個時間表係 13:00 13:20
event A 變咗 13:05 開
但 event B 唔存在因爲 event C 而必然 follow 個 model,變咗 13:25 開
Exponential distribution講緊既,係班次間距既distribution
上面個數,意思係如果完全random,應該有六成幾既班次間距,<5分鐘,或者>15分鐘 但現實係無一對班次,間距<5或>15,證明唔係random 98D條數,discretize咁數,都得
但你個計法arbitarily用5分鐘做threshold,好複雜,亦似乎有啲問題
最簡單,逐分鐘列曬出來,計等車時間,再average 你會發現,實際平均等車時間,係4.9分鐘,低於poisson所預測既8.4分鐘
1. 理論上間距同 random arrive waiting time 應該都可以用 exp distribution
2. 至於點解大家各有各有唔同 result 我都好好奇,未搵到解答,唔排除因爲變咗 dependent of previous event (i.e. fixed time not random) 所以唔再係 memoryless
3. 我唔係以 5 爲單位,discretize 係單純數據已經係咁,你提出睇 P(X<5) 咪睇 X<5 發生咗幾多次
4. 要講嘅話 64 個 data point (甚至其實得八班車)其實唔夠做,但 plot histogram 可以見到個趨勢都唔係離好遠
5. E(X) 問題一早講咗因爲現實 right tail 係有不符,唔存在等無限時間嘅車,所以 exp distribution is wrong (as all models are wrong) but may be useful,甚至 exp distribution 係 E(X)=班次=7.5,唔係你講嘅 8.4
|
|
|
|
|
本帖最後由 castanopsis 於 2025-1-26 23:08 編輯
你都識講all models are wrong, but some are useful
總站等車,t2 = t1+x來model
就算偶爾脫班收車,大部分時間都會啱
反而用Poisson,大部分時間都錯
得出既結果就係,平均等車時間,會極度接近x/2
又或者咁諗
喺一個理想世界入面,真係班班車準時開
唔會因為A 同 B唔係causation,而令等車時間唔係x/2
Correlation已經夠,無需要causation
1. 理論上間距同 random arrive waiting time 應該都可以用 exp distribution
2. 至於點解大家各有各有唔同 result 我都好好奇,未搵到解答,唔排除因爲變咗 dependent of previous event (i.e. fixed time not random) 所以唔再係 memoryless
4. 要講嘅話 64 個 data point (甚至其實得八班車)其實唔夠做,但 plot histogram 可以見到個趨勢都唔係離好遠
5. E(X) 問題一早講咗因爲現實 right tail 係有不符,唔存在等無限時間嘅車,所以 exp distribution is wrong (as all models are wrong) but may be useful,甚至 exp distribution 係 E(X)=班次=7.5,唔係你講嘅 8.4
1.
如果真係跟exponential distribution,係,班次間距等同平均等車時間
問題係,exponential distribution,話98D應該有六成既班次間距<5 or >15
既然無出現,都可以幾肯定唔係exponential
2.
Probability個度,我同你計緊兩樣唔同既嘢
我睇緊 班次間距 既分佈
你睇緊 等車時間 既分佈
你話一半五分鐘內,一半五分鐘外又唔long tail
拉勻其實即係平均等大約5分鐘,同我計出來(4.89)唔差好遠
重點係宜家開緊8分鐘一班車,4.89近x/2多過x
當然我認同數得一粒鐘多啲,個dataset係唔大
問題係手上係得呢堆數據,除非搵人再去數多幾日,否則無解決辦法
而得出結果同個blog post差唔多,98D之外,其他幾條多班次既線,都差唔多結果
我覺得收貨啦
5.
Exponential個x,係指平均班次間距,即係 67分鐘/8班車 = 8.37
我同意
All models are wrong, but some are useful
宜家就係話t2 = t1+x,比起exponential,更加useful,更準確估到平均等車時間 |
|
|
|
|
本帖最後由 KE7066 於 2025-1-27 08:00 編輯
有幾偶爾?有幾大部分時間?
調返轉如果 P(C) 真係好高機率,咁點解比申訴專員睇完依然係計班次數唔係誤差?
係總站等車機率有幾高?唔通 x/2 又係實用?實用就唔會主觀覺得永遠等車等好耐啦
甚至條問題本身唔知點解牽扯到平均等車時間,不論 x/2 定 x,個比較係討論範圍內都係 hold
a > b 係正確嘅話,咁不論 a/2 > b/2 定 a+c > b+c 定 a > b 邊個結論都係正確
講觀感根本直接講班次就夠
又或者咁諗 喺一個理想世界入面,真係班班車準時開
唔會因為A 同 B唔係causation,而令等車時間唔係x/2
Correlation已經夠,無需要causation
理想設定咪 A 同 B 有 causation,所以班班車個間距都係一樣,A 幾點開係直接影響 B
就係唔理想世界所以先需要證明有 causation
理想世界,A 開 1300 咁 B 必然開 1320,A 開 1305 咁 B 必然開 1325 (aka causation)
現實世界,假設有個時間表係 1300/1320,A 開 1300,B 只係因為份時間表比較大機會會開 1320。但如果 A 開 1305,B 因為份時間表,依然係比較大機會會開 1320,唔存在開 1325 機率大咗;
即係現實你唔可以從 A 開車時間斷定到時間表個關係,而理想因為有 causation 所以可以
1. 如果真係跟exponential distribution,係,班次間距等同平均等車時間
問題係,exponential distribution,話98D應該有六成既班次間距<5 or >15
既然無出現,都可以幾肯定唔係exponential
所以我好思疑咁樣睇係咪正確理解方法
到底咩環節錯咗班次間距唔跟 exp dist 但平均班次又似乎有接近呢個結論
係咪大家都錯誤理解 exp dist?
當然我認同數得一粒鐘多啲,個dataset係唔大
問題係手上係得呢堆數據,除非搵人再去數多幾日,否則無解決辦法
而得出結果同個blog post差唔多,98D之外,其他幾條多班次既線,都差唔多結果
我覺得收貨啦
1. work smart
我就無興趣知係咪真係 follow
但唔等於需要全人手做
2. 關於等車時間係咪 exp dist:
https://perplex.city/memorylessness-at-the-bus-stop-f2c97c59e420
as still, 唔係香港,但可以當一個參考
5. Exponential個x,係指平均班次間距,即係 67分鐘/8班車 = 8.37
個 true rate 你自己都講咗係 7.5 分鐘
8.37 mins 係 measured rate 嘅話咁唔係同 true rate 接近?
|
|
|
|
|
我唔係話大部分乘客總站等車
舉總站等車出來,係想表達——
“無需要causation,只需要correlation,都已經足以令平均候車時間變成x/2”
理想世界,A 開 1300 咁 B 必然開 1320,A 開 1305 咁 B 必然開 1325 (aka causation)
呢個只係perfect correlation,唔係causation
站長跟住時間表叫車長準時開車(C),令到第一班車1300開(A),第二班車1320開(B)
就算係理想世界,A 同 B,都無物理上既關聯
唔係第一架車有條繩拖住第二架車咁
純粹係因為外在因素(車長、C)同時影響兩架車既開車時間
A、B之間,無論係理想時間定現實世界,都只係correlation
所以我好思疑咁樣睇係咪正確理解方法
到底咩環節錯咗班次間距唔跟 exp dis
但平均班次又似乎有接近呢個結論
係咪大家都錯誤理解 exp dist?
應該咁樣理解
Exponential distribution,係一個model,去幫助你用 平均班次 predict 班次間距
如果你發現,你擺個平均班次入個function入面,prediect唔到正確既班次間距
咁好簡單,佢唔係exponential distribution囉
呢個世界,好多種唔同既probability distribution
唔係所有同waiting time相關既嘢都跟exponential distribution既....
你呢篇文個分析,有一個fatal error
佢將全日既班次間距,掟曬落同一張graph入面
將60分鐘一班、30分鐘一班、5分鐘一班 既時段,全部撈埋一碟
咁當然睇落好random,班次間距5-60,似足exponential distribution亂咁來
但實際上每一個時段咁睇,佢就唔會係poisson process
數學上,之前個篇blog post嚴謹好多
work smart - 我同意可以用API攞資料,不過都好花時間
個 true rate 你自己都講咗係 7.5 分鐘 8.37 mins 係 measured rate 嘅話咁唔係同 true rate 接近?
唉,係我唔夠嚴謹
頭尾邊一分鐘開始計,腦霧
嚴謹啲既話,有兩個計法會最合理
1. 數客時段(2120-2236,共76分鐘)除班次數,76/8 = 9.5分鐘
2. 所有班次間距,平均數,(14+6+10+7+5+14+9)/ 7 = 9.29分鐘
|
|
|
|
|
本帖最後由 KE7066 於 2025-1-28 17:05 編輯
我唔係話大部分乘客總站等車
舉總站等車出來,係想表達—— “無需要causation,只需要correlation,都已經足以令平均候車時間變成x/2”
所以 P(C) 機率有幾大?我就係回應只要 P(C) =/= 1 平均候車時間就唔會 x/2,比盡只能講因為 random factor 相對少而會趨向 x/2 呢個完美情況
最簡單要話 randomness depend on event C 咁咪 P(C) * E(X) (完美情況跟足告示比例開) + P(Not C) * E(Y) (其他隨機情況) = P(C) * x/2 + (1-P(C)) * x
想知 P(Not C) 嘅 estimation 係幾多咁啱搵到少少資料
https://www.ombudsman.hk/wp-cont ... 7/DI254_full_TC.pdf
當年申訴專員睇脫班問題,自己落街數 26%,針對投訴多路線運輸署交出數據計 20%
唔廣泛,亦唔知到底遇上脫班唔齊車係點計,亦都已經有段時間,但已經足以證明「偶爾」「脫班」(其實叫「班次失誤」先啱)機率都唔係低
而提出總站有幾多人等車意義在於質疑呢個終極特例根本意義不大
呢個只係perfect correlation,唔係causation 站長跟住時間表叫車長準時開車(C),令到第一班車1300開(A),第二班車1320開(B) 就算係理想世界,A 同 B,都無物理上既關聯
唔係第一架車有條繩拖住第二架車咁
純粹係因為外在因素(車長、C)同時影響兩架車既開車時間 A、B之間,無論係理想時間定現實世界,都只係correlation
話明理想世界,根本唔需要咩所謂「物理上」關聯,總之就係有種魔法因素導致 1300 下一班必然係 1320
咩導致個 causation (or what you preferred to call perfect correlation) 唔重要
至於 "perfect correlation",應該係指你 observe 到嘅全部數據都 follow (i.e. |r|=1),但繼續觀察落去會有可能出現唔 follow 嘅數據?
咁理想世界,|r|=1 係啱,但設定上唔存在任何唔係 (X, X+C) 嘅 pair,咁仲係咪叫 correlation?
又或者化簡少少講返 logic 唔講 "correlation and causation" 呢個 statistical 問題,畫個 truth table
C -> A and C -> B
C | A | B | True | True | True | False | True | True | False | Not True | True | Fasle | True | Not True | False | Not True | Not True | 理想世界唔會發生 Not C (aka C is always true) 所以 A true, B is always true
現實會發生 Not C 所以 A 同 B 唔係 dependent event
呢個世界,好多種唔同既probability distribution
唔係所有同waiting time相關既嘢都跟exponential distribution既....
唔係話所有同時間相關嘅嘢都必然 exp dist
我直觀係覺得數據量多就會趨向 normal dist (or any bell shaped dist)
問題係點解其他討論會有 exp dist 呢個 assumption 出現
又或者關於 exp dist 篇討論其實比咗答案
rate 夠低結合埋一種 scheduling 機制底下,班次間距就會變成趨向 normal dist
但 waiting time 係咪同理?無結論
你呢篇文個分析,有一個fatal error
佢將全日既班次間距,掟曬落同一張graph入面
將60分鐘一班、30分鐘一班、5分鐘一班 既時段,全部撈埋一碟
咁當然睇落好random,班次間距5-60,似足exponential distribution亂咁來
不如問有幾 fatal?
文末都解釋審視咗 30 60 呢類 rate 導致 40 有個 spike
要 rigorous 固然可以每個 rate 分開做一次
但佢綜合一個做未必對結果有重大影響
唔係點計 estimated rate
而係明知 true rate = 7.5 走去計黎做咩
後續比較問題你自己都 acknowledge 咗八個 sample 有咩問題
|
|
|
|
|
P(C) * x/2 + (1-P(C)) * x
點解可以假設,唔準時開車,就等於random,等車時間係x?
Again,distribution有好多種,就算唔係按時開車,都唔代表係poisson
某程度上,巴士總站開車時間,Poisson先係extreme case
首先,話20-26%唔準時開車,同時有74-80%準時開
如果你拉勻咁多班次,等車時間都會係接近x/2多啲
更重要既係,你睇下內文
"延誤班次約佔26%.... 大部分 (約 84 %)延誤時間少於5分鐘"
換言之,多於5分鐘既延誤,只係佔班次4%
平均二十班車,都唔夠一班延誤,好難叫做普遍狀況
無人話平均等車時間,係exactly x/2
無論係blog post數據定我自己數據,都證明
計曬呢啲脫班/誤差/路面情況之後,大約係 x/2+一兩分鐘咁
話明理想世界,根本唔需要咩所謂「物理上」關聯,總之就係有種魔法因素導致 1300 下一班必然係 1320 咩導致個 causation (or what you preferred to call perfect correlation) 唔重要
Causation同correlation,數學上有好準確既定義
你上面質疑兩班車之間,只有correlation無causation,所以唔可以用x/2 model
我自然針對返件事,證明其實只需要correlation就夠
至於你個true false table
好視乎幾個option發生既機會率
Again,我只係話等車時間接近x/2,自然無需要perfect correlation
唔係話所有同時間相關嘅嘢都必然 exp dist
我直觀係覺得數據量多就會趨向 normal dist (or any bell shaped dist)
問題係點解其他討論會有 exp dist 呢個 assumption 出現
確實世界上好多嘢,都無時間表/random
商業世界既例子,有
> 接線生一分鐘內,收超過個一個投訴電話既機會率
> 一分鐘內,超出店鋪capacity既人數行入舖頭既機會率
> 一個時段內,啲燈位太多車要等第二轉既機會率
呢啲case,用exp dist去model無問題
結果中學教waiting time,就只係教exponential distribution
偏偏巴士班次係特例
不如問有幾 fatal?
文末都解釋審視咗 30 60 呢類 rate 導致 40 有個 spike
要 rigorous 固然可以每個 rate 分開做一次 但佢綜合一個做未必對結果有重大影響
如果你直程唔知幾點搭車
凌晨三點、朝早六點、中午十二點,隨機咁落街等車
咁確實個expected waiting time就會係 24 h * 60 min per hour / 全日班次總數
但宜家明顯唔係講緊呢樣嘢
而係講緊20分鐘時段內,我平均要等幾耐
咁無理由因為夜晚唔開車,影響呢條數架嘛 |
|
|
|
|
本帖最後由 KE7066 於 2025-1-29 18:12 編輯
點解可以假設,唔準時開車,就等於random,等車時間係x?
點解唔係 random?
又或者照你 #290「字面表達/解讀問題」,我換個說法等你易明啲,有 randomness
(by dictionary -ness 呢個 suffix 意思上已經係 random, 不過你鍾意啦)
你鍾意可以用個複雜五千倍嘅模型架
最簡單又已知咪就係佢唔係「理想情況」嘅時候咪 follow poisson process (by its randomness)
現實係無限複雜,poisson process 固然牽涉大量化簡同假設,但唔咁做不如你話俾我聽應該點 model
有說服力嘅 modelling 我樂意接受,不過接受唔到係你呢種「唔係『常態』可以/應該當佢無到」
首先,話20-26%唔準時開車,同時有74-80%準時開
如果你拉勻咁多班次,等車時間都會係接近x/2多啲
條式其實咪驗證咗
0.8 * x/2 + 0.2 * x = 0.6x
的確係接近 x/2 多啲架
換言之,多於5分鐘既延誤,只係佔班次4%
平均二十班車,都唔夠一班延誤,好難叫做普遍狀況
延誤唔夠 5 分鐘就唔叫延誤?
繼而自己 define 咩叫普遍情況?
無人話平均等車時間,係exactly x/2
無論係blog post數據定我自己數據,都證明
計曬呢啲脫班/誤差/路面情況之後,大約係 x/2+一兩分鐘咁
你自己用字表達成日飄忽不定
我一早同意咗會趨向 x/2
留意返,趨向唔等於「極度接近」架
呢啲case,用exp dist去model無問題
結果中學教waiting time,就只係教exponential distribution
偏偏巴士班次係特例
唔知依家中學教啲咩
香港黎講甚至唔信有教 distribution
同埋就算有都係教咗 normal dist 先
所以就唔覺得個問題係中學點教
而係現實個 randomness 未必等於有一個 uniform distribution
所以令結果同假設偏差> 接線生一分鐘內,收超過個一個投訴電話既機會率
> 一分鐘內,超出店鋪capacity既人數行入舖頭既機會率
呢堆應該全部都係用 poisson distribution 去計唔係 exponential distribution 喎
is it memoryless? if not, it's not an appropiate example for poisson process如果你直程唔知幾點搭車 凌晨三點、朝早六點、中午十二點,隨機咁落街等車
咁確實個expected waiting time就會係 24 h * 60 min per hour / 全日班次總數
但宜家明顯唔係講緊呢樣嘢
而係講緊20分鐘時段內,我平均要等幾耐
咁無理由因為夜晚唔開車,影響呢條數架嘛
1. 講緊係咪 follow exp. dist, 唔好直接跳幾個結論落去 expected waiting time
2. 佢結論都講到 40 分班嘅時段 (aka 深夜) 因為有 schedule 其實就會趨向 norm. dist,而圖表上明顯有個 spike
你直接目測都大概可以知道,如果排除呢堆深夜數據,個結果反而會更加接近係 follow exp. dist (因為無咗 follow norm. dist 果部分)
至於對 expected waiting time 有無影響? 有,上面講咗好多次 right tail 問題
|
|
|
|
|
|
Advertisement
Advertisement
Advertisement
Advertisement
Advertisement
|