Statystyka to złośliwe bydlę, powiadam Wam, moiściewi, złośliwe jak zraniona samica nosorożca.
Zdarzyło mi się było całkiem niedawno, że musiałem pomóc licealiście w rozwiązaniu zadania z zakresu rachunku prawdopodobieństwa. No i okazało się, że pomimo całej swojej buty, pychy i pewności siebie, które mnie przepełniały, "no bo to przecież tylko proste zadanko do szkoły", poległem na całej linii. Albowiem w statystyce nie można polegać na intuicji. Całkiem jak w tej zagadce o dacie urodzin.
Tym razem jednak nie o urodziny chodziło, a o kolejkę podmiejską. Zadanie brzmi:
Do końca trasy kolejki podmiejskiej zostało jeszcze sześć przystanków. Kolejką jedzie trzech pasażerów. Oblicz prawdopodobieństwo, że każdy z nich wysiądzie na innym przystanku.
Myślę sobie, liczby niewielkie, więc ilość kombinacji też powinna być względnie nieduża, wezmę Excela, rozpiszę wszystkie sposoby wysiadania na różnych przystankach, sprawdzę ile z nich spełnia warunki zadania, podzielę jedno przez drugie i gotowe.
Tak też zrobiłem. Z tym, że kompletnie na opak.
Najpierw rozpisałem sobie wszystkie warianty wysiadania "pojedynczo" (a więc tak, że na żadnym przystanku nie wysiądzie więcej niż jeden pasażer). Jeżeli pierwszy wysiadający pasażer wysiądzie na pierwszym przystanku, drugi na drugim, to trzeci może wysiąść na którymś z pozostałych czterech przystanków. Jeżeli drugi wysiądzie na trzecim przystanku... i tak dalej. Wszystkie kombinacje wyglądają o tak:
111000
110100
110010
110001
101100
101010
101001
100110
100101
100011
011100
011010
011001
010110
010101
010011
001110
001101
001011
000111
Wyjaśnienie: 111000 oznacza, że na przystankach pierwszym, drugim i trzecim wysiadło po jednej osobie, a na czwartym, piątym i szóstym nikt nie wysiadł. A 011010 oznacza, że pojedynczy pasażerowie wysiedli na przystankach nr 2, 3 oraz 5. I tak dalej.
Razem dwadzieścia różnych wariantów wysiadania z kolejki w taki sposób, żeby spełnić warunek zadania. Teraz sprawdźmy ile jest pozostałych sposobów (a więc takich, w których na którymkolwiek z przystanków wysiada więcej niż jeden pasażer):
300000
030000
003000
000300
000030
000003
210000
201000
200100
200010
200001
021000
020100
020010
020001
002100
002010
002001
000210
000201
000021
120000
102000
100200
100020
100002
012000
010200
010020
010002
001200
001020
001002
000120
000102
000012
Jest 36 wariantów takich, że na którymś z przystanków wysiada więcej niż jeden pasażer.
A więc:
20 wariantów spełniających warunek zadania
36 wariantów niespełniających warunku zadania
20 + 36 = 56 wszystkich wariantów
Prawdopodobieństwo, że każdy pasażer wysiądzie na innym przystanku wynosi więc 20/56 czyli po skróceniu 5/14. Zgadza się?
Pozornie - tak. Jednak zapominamy tu o jednej istotnej sprawie: fakt wysiąścia (wysięścia?) każdego z pozostałych w kolejce pasażerów na najbliższym przystanku jest niezależny od tego, czy inni pasażerowie też wysiadają czy nie. A więc tak naprawdę wersja 111000 oznacza "na pierwszym przystanku wysiadł jeden z trzech pasażerów, na drugim jeden z dwóch pozostałych a na trzecim ostatni", czyli faktyczna ilość kombinacji dla wariantu "111000" wynosi 3 * 2 * 1 = 6. I tak samo dla wszystkich pozostałych. Czyli 6 * 20 = 120 i właśnie tyle jest tak naprawdę kombinacji, w których każdy z trzech pasażerów wysiada na innym z sześciu przystanków. Sto dwadzieścia.
Kombinujemy dalej: wariant "210000" oznacza, że na pierwszym przystanku wysiadło dwóch pasażerów z trzech. Dwóch pasażerów z trzech można wybrać na trzy sposoby (1-2, 1-3, 2-3). Pazażer, który wysiadł na drugim przystanku (jedynka w "210000") został już tylko jeden, więc tutaj ilość kombinacji nie rośnie. A więc wszystkie warianty z dwójką trzeba liczyć potrójnie.
30 * 3 = 90
Do tego dochodzi sześć wariantów z trójką, a więc kombinacji NIE spełniających warunków zadania jest tak naprawdę 96.
120 + 96 = 216. Wszystkich kombinacji "wysiadających" jest 216.
No i w ten sposób dochodzimy do prawidłowego wyniku.
120/216 = 5/9 - i to jest wreszcie poprawna odpowiedź.
Gdyby jednak uprościć zagadnienie (a więc bez rozpisywania wszystkich kombinacji etc.), byłoby tak:
1. Każdy wysiada gdzie indziej. A więc pasażer P1 ma do wyboru sześć przystanków, pasażer P2 pięć (nie może wysiąść tam, gdzie wysiadł P1) a trzeci cztery (może wysiąść wszędzie poza przystankami, na których wysiedli P1 i P2).
4 * 5 * 6 = 120 - jest to ilość kombinacji bez powtórzeń trzech elementów w zbiorze sześcioelementowym.
2. Wszystkich możliwych kombinacji jest 6 * 6 * 6 (każdy z pasażerów ma do wyboru jeden z sześciu przystanków, niezależnie od innych). 6 * 6 * 6 = 216 - jest to ilość kombinacji z powtórzeniami trzech elementów w zbiorze sześcioelementowym.
3. 120/216 = 5/9
KONIEC?
Nie, bynajmniej. Jestem bowiem osobnikiem zaskakująco upartym i jeżeli jakaś teoria przeczy mojej intuicji, zawsze staram się obalić ją na drodze eksperymentu. Oczywiście dotyczy to tylko takich teorii, których eksperymentalne dowodzenie jest wykonalne w sensownym czasie oraz przy minimalnych zniszczeniach. Czarne dziury parują kwantowo? Hak im w smak, niech sobie parują, nie będę tego sprawdzał bo mogę się spóźnić na obiad... Ale takie przystanki i pasażerowie to łatwizna do zasymulowania. Najlepiej w Excelu:
W komórki A1, B1 i C1 wpisujemy liczby 1, 2 i 3, po kolei. To są nasi pasażerowie.
Pod spodem, w komórkach A2, B2 i C2, wpisujemy:
=RANDBETWEEN(1,6)
Mamy więc trzech pasażerów, każdy z nich wysiada na jednym z sześciu przystanków. Kopiujemy teraz komórki A2:C2 w dół, daleko. Czym dalej tym lepiej. Ja skopiowałem do wiersza 20000, ale jak ktoś chce, może zrobić więcej.
Następnie w komórce D2 wpisujemy formułę:
=AND(A2<>B2, A2<>C2, B2<>C2)
Kopiujemy ją w dół do wszystkich wierszy z danymi (w moim przypadku do D20000).
Wreszcie w komórkę E2 wpisujemy formułę:
=COUNTIF(D:D, TRUE)/(COUNTIF(D:D, TRUE)+COUNTIF(D:D, FALSE))
W wyniku dostajemy dość dobre przybliżenie poszukiwanego prawdopodobieństwa. Wciskamy dla pewności F9 kilka razy, patrzymy jak się owo prawdopodobieństwo zmienia. Faktycznie wychodzi ono zawsze w okolicach 0.55 czyli 5/9.
Myślisz, że jak Młody zapisze w odpowiedzi =COUNTIF(D:D, TRUE)/(COUNTIF(D:D, TRUE)+COUNTIF(D:D, FALSE)) to mu uznają ;D?
Myślę, że każdy przyzwoity nauczyciel zacznie się rumienić w okolicach pierwszego dwukropka. Za całość Młody więc raczej wyleci z klasy…
Kurdę, ja do biol-chemu chodziłem i nawet nie domyślam się o czym te dwukropki.
Wiadomo, dwukropki to znają ci z humanistycznych 😉 Ja też z biol-chem.
"Jestem bowiem osobnikiem zaskakująco upartym i jeżeli jakaś teoria przeczy mojej intuicji, zawsze staram się obalić ją na drodze eksperymentu. […] Ale takie przystanki i pasażerowie to łatwizna do zasymulowania. Najlepiej w Excelu"
Łeee, już myślałem że poszedłeś do takiej kolejki 😉 Jak badania terenowe to badania terenowe!
Jakbym poszedł do takiej kolejki, to po pierwsze primo zaburzyłbym losowość eksperymentu (musiałbym bowiem zawsze wysiadać na ostatniej stacji, żeby sprawdzić kto gdzie wysiada), a po drugie primo zrobienie 20 tysięcy powtórzeń zajęłoby mi co najmniej z dziesięć lat, i to przy założeniu, że przeprowadziłbym się na dworzec. A tam dmucha i głodno…
Chłopaki w CERN też sobie robią własne bozony zamiast łapać te od czarnych dziur ("praca w terenie"). Tylko że oni mają ciut większe możliwości finansowe 🙂
Heroiczna praca.
Ale wiesz że można to policzyć w znacznie łatwiejszy sposób?
Aby zaszło wydarzenie opisane w treści zadania, pierwszy pasażer może wysiąść gdziekolwiek, drugi na 5 z 6 przystanków a trzeci na 4 z 6.
Czyli 1*5/6*4/6=5/9 🙂
Zgadza się. Gdybym jednak napisał po Twojemu, nadawałoby się to bardziej na Twittera niż na blog. A ja mam wyrobioną markę, mnóstwo ludzi używa mojego blogu jako środka nasennego (aczkolwiek póki co nieoficjalnie, aktualnie walczę o przyznanie blogowi miejsca na liście leków dopuszczonych do publicznego obrotu) więc artykuł musi mieć swoją objętość…