torstai 28. syyskuuta 2017

Kuinka monta bussipysäkkiä?

Syystien bussipysäkki kesän viimeisenä päivänä.

Jokaisella Helsingin bussipysäkillä on numero; myös sillä, jolla vietän suhteettoman paljon aikaa (harrastan etuajassa olemista). Bussia odotellessa ehtii miettiä kaikenlaista, kuten klassista tilastotieteen pulmaa: panssarivaunuongelmaa.

Toisessa maailmansodassa liittoutuneita kiinnosti tietää, montako panssarivaunua Saksa tuotti, ja yhtenä keinona he arvioivat lukua tankkien sarjanumeroiden perusteella. Minua puolestaan kiinnostaa tietää, montako bussipysäkkiä Helsingissä on — tai ainakin, mikä on suurin pysäkinnumero.

Aineistona minulla on kolme jokseenkin satunnaista pysäkkiä:

  • H2041 Rautatientori (vähän kaiken keskellä),
  • H3207 Syystie (jonka ohitse kävelin ihanana varhaissyksyn päivänä),
  • H3597 A.I. Virtasen aukio (siisti tiedepaikka).

En ole tähän mennessä keksinyt logiikkaa numeroinnin taustalla, mutta tuhannen alapuoliset numerot näyttävät olevan kisko- ja lauttaliikenteelle varattuja. Numeroiden välissä on selvästi tyhjiä koloja, joten siksi pysäkkien määrä ja isoin numero eivät ole sama asia.

Ihan ensi alkuun voidaan olettaa, että isoin numero on vähintään 3597. Mutta voimmeko arvata tarkemmin?

Se pyörii sittenkin

Ihan ensimmäiseksi esittelen kaikkein nopeimman, mutta epätarkan tavan. Siihen riittää tietää yhden pysäkin numero. Miinuksena se ei anna kuin todennäköisen välin, jolla oikea vastaus on.

Kopernikaaninen periaate tarkoittaa sellaista maailmankuvaa, jossa me emme ole mitenkään erityisiä: Maa ei ole maailman napa ja niin edelleen. Samaa voi soveltaa tähänkin: jos olisin nähnyt ainoastaan Rautatientorin pysäkin, todennäköisesti se ei olisi mitenkään erityinen (tästä voisi olla eri mieltä, jos ei tietäisi sen numeroa). Silloin 50 % todennäköisyydellä se kuuluu keskimmäisiin kahteen neljännekseen Helsingin pysäkeistä.

Jos pysäkki on ensimmäisen neljänneksen rajalla, isoin pysäkki on numeroltaan nelinkertainen eli $8164$. Jos se on viimeisen neljänneksen rajalla, pysäkkejä on $4/3$ numerosta eli $2721$. Aika ikävän laaja väli, mutta luultavasti se jossain siellä on... ainakin 50 % todennäköisyydellä. Ehkä vähän todennäköisemminkin, kun asiaa ajattelee tarkemmin!

Sivumennen sanoen tätä temppua on yritetty käyttää myös ihmislajin tulevaisuuden ennusteluun. Voit itse kokeilla, kuinka menetelmä toimii, kun tähän mennessä maailmaan arvioidaan syntyneen 100 miljardia ihmistä ja vuosittain syntyy ehkä 80 miljoonaa lisää. Lisäpisteitä saat 90 % välin laskemisesta. Älä kokeile, mikäli koet eksistentiaalista pelkoa!

Monta HSL-havaintoa

Entäpä kun hyödynnetään tietoa kaikista kolmesta pysäkistä? Nyt voidaan saada jo järkevä luku ja mikä parasta, lisää pysäkkejä etsimällä luku tarkentuu.

Oletus on, että pysäkit ovat satunnaisesti valittuja — ainakin ne ovat lievästi eri puolilta kaupunkia. Ja jos valitaan satunnaisia pysäkkejä, niiden keskiarvon odotusarvo on jotakuinkin numeroiden puolessavälissä. Näiden pysäkkien keskiarvo on $2948$ ja tuplat siitä on $5896$.

Pieni ajatuskoe osoittaa yhden ongelman tässä menetelmässä: kuvitellaan pysäkit 1, 2 ja 12. Kaksi kertaa niiden keskiarvo on 10 — mutta se on oikeaa suurinta numeroa pienempi! Silti keskiarvometodissa on selvästi oikeaa ajatusta. Hienosäädetään sitä vähän.

Lasketaankin väliinjäävien numeroiden määrää. Nollan ja Rautatientorin välillä on $2040$ pysäkkiä, Rautatientorin ja Syystien välillä $1165$, Syystien ja kampuksen välissä $389$ kappaletta ja lopuksi $y$ numeroa kampuksen ja Viimeisen pysäkin™ välissä. Tunnettujen väliinjääjien keskiarvo on $1198$. Voimme aika hyvin olettaa, että viimeinen väli on suunnilleen sitä luokkaa. Siispä suurin numero olisi $3597+1198 \approx 4800$.

Vieläkin kiinnostavampia menetelmiä on olemassa, mutta niissä on se vika, että ne ylittävät oman tilastotieteen ymmärrykseni. Sen tiedän, että ne antavat yksittäisen arvauksen sijasta todennäköisyyksiä, mikä on paljon järkevämpää vaikkakin vaikeammin tulkittavaa. Palataan asiaan muutaman kurssin kuluttua!

Yksi pieni Fermi-arvio

Ennen lopullista tulosjulkistusta tehdään vielä valistunut arvaus. Helsingissä asuu noin $630~000$ asukasta, mikäli Wikipediaan on uskominen. Nopealla verkkohaulla löysin myös väitteen, että noin 40 % prosenttia matkoista tehtäisiin julkisilla. Tämä luku kelpaa, koska arviomme on tarkoituskin olla kaukana eksaktista. Jos matkat ja käyttäjät ovat suoraan verrannollisia, joukkoliikennettä käyttää päivittäin suunnilleen $250~000$ asukasta.

Ajatellaan aamun paria ruuhkaista tuntia. Sovitaan, että kaikki nämä ihmiset matkustavat juuri silloin töihin/kouluun/kuka minnekin. Jos keskimääräisen pysäkin vuoroväli on vaikkapa seitsemän minuuttia ja joka pysäkillä nousee vaikka viisi matkustajaa, yksi pysäkki pystyy palvelemaan

\[ \frac{120 \cdot 5}{7} \approx 85 \]

matkustajaa ruuhka-ajan kuluessa. Jaetaan matkustajien kokonaismäärä tällä luvulla ja saadaan arvioksi hieman vajaat $3000$ pysäkkiä. Oikeasti pysäkkejä on vähemmän tai enemmän, olivathan lähtöarvomme pelkkiä nopeita heittoja, mutta luultavasti kovin kaukana oikeasta ei olla. Mutta se ei vastaa kysymykseen, mikä on suurin pysäkinnumero, joten jatketaan oikeaan vastaukseen...

Ja oikea vastaus on...

Itse asiassa en ole ihan varma. Latasin HSL:n pysäkkilistan, mutta data oli niin sekalaista ja rikkinäistä, etten usko saaneeni järkevää vastausta. Toiseksi parhaana temppuna kopioin saman laitoksen sivujen aakkosellisen listan manuaalisesti maalaamalla (miten sinä käytit maanantai-iltasi?). Sen perusteella pysäkkejä olisi $2760$ kappaletta ja niistä isoin numero olisi $5501$.

Ensinnäkin Fermi-arvio pysäkkien kokonaismäärästä osui yllättävän lähelle, hyvä valistuneet arvaukset! Toisekseen veikkaukset isoimmasta numerosta ($5896$, $4800$) eivät olleet aivan kaukana, jos nyt eivät ihan lähelläkään. Syynä tietenkin on se, että laskin arvaukseni ainoastaan kolmen pysäkin perusteella. Enemmän aineistoa keräämällä pääsisi lähemmäs oikeaa tulosta... mutta se olisikin jo vuoroväliä pidempi juttu.

2 kommenttia:

  1. [Siirretty kommentti Kommentointi-sivulta oikeaan paikkaan]
    Anonyymi kommentoi 30.9.2017 klo 15:16:
    Nuo pysäkkitiedot pitäisi löytyä Liikenneviraston Digiroadista: http://www.liikennevirasto.fi/avoindata/digiroad/aineisto/pysakkiaineisto#.Wc-K_dBORnE

    VastaaPoista
    Vastaukset
    1. Tuossa muuten on aika loistava resurssi, jos tykkää leikkiä datalla. Pidetään mielessä!

      Poista

Kommentit ovat moderoituja — yritän hyväksyä kommenttisi mahdollisimman pian. Voit kirjoittaa kommenttiin LaTeX-koodia tai yksinkertaista HTML-merkintää: lue lisää Kommentointi-sivulta.