Jalkapallotilastotieteen perusteet

Kirjoittaja on 1907 laukausta -blogin ylläpitäjä. Jos futistilastot kiinnostavat, käy tsekkaamassa 1907-blogi!

Konservatiivisemmat suomifutiksen ystävät saattoivat hieman hieraista silmiään, kun SJK:n kerrottiin toukokuussa palkanneen taustatiimiinsä tilasto-osaaja Axel Storbackan. Mihin pohjanmaalainen futisseura voi tarvita data-analyytikkoa?

Jalkapalloon liittyvien tilastojen hyödyntäminen ja niiden analysoiminen on viime vuosina lisääntynyt ja herättänyt aiempaa laajempaa kiinnostusta. Julkaistavat tilastot koostuvat erityisesti Suomessa silti yhä pääosin maaleista, kulmapotkuista, korteista, pallon hallinnasta ja muista niin sanotuista “perustilastoista”.

Pelin syvällisempää analysointia varten nämä perustilastot tarjoavat hyvin rajalliset lähtökohdat, ja sen vuoksi niiden rinnalla on alettu koota koko ajan kasvavaa määrää yksityiskohtaisempia ja monipuolisempia tilastoja. Voidaan sanoa, että jalkapallossakin on alettu hakea etua baseball-seura Oakland Athleticsin tapaan money ball -tyylisesti tilastoja tutkimalla. Erilaisten tilastojen kysynnän lisäännyttyä sekä seurojen ja analyytikoiden kiinnostuksen herättyä markkinoille on tullut useita dataa kerääviä ja myyviä yrityksiä, kuten Opta, InStat ja Stratabet.

Tilastojen analysoinnin tekee kuitenkin haastavaksi se, että kaikilla näillä on omat tapansa kerätä dataa ja tilastoida tapahtumia. Esimerkiksi saman ottelun tilastoissa voi Stratabetin ja Optan keräämän aineiston perusteella olla merkittäviä eroja. Veikkausliigasta kunnollista dataa on saatavilla vain itse keräämällä tai käyttämällä InStatin tilastoja, jotka eivät valitettavasti ole kovinkaan laajalti raportoituja saatikka helposti saatavilla edes Veikkausliigan omilla sivuilla.

Expected goals – mitä häh?

Yksi askel kohti kehittyneemmän tilastoinnin laajempaa hyväksyntää ja käyttöä tapahtui syksyllä 2017, kun brittiläinen Sky Sports alkoi raportoimaan niin sanottuja expected goals -tilastoja lähetyksissään. Expected goals eli tuttavallisemmin xG on tämän hetken puhutuimpia, mutta myös ristiriitaisimpia jalkapalloon liittyviä suureita. xG pyrkii mittaamaan maalipaikan tai laukauksen todennäköisyyttä mennä maaliin: arvo vaihtelee nollan ja yhden välillä. Hieman toisistaan poikkeavia xG-malleja on nykyään kymmenillä eri toimijoilla, ja useat tahot raportoivat omat lukunsa julkisesti Twitterissä tai muissa medioissa.

Otetaan esimerkki. Yksittäisen ottelun xG:t ovat 1.3 kotijoukkueelle ja 2.7 vierasjoukkueelle. Tällöin voidaan todeta, että ottelun päätyttyä 1-1 oli vierasjoukkue xG-mallin perusteella epäonnekas, kun se joutui tyytymään tasapeliin. Käytännössä xG toimii paremmin hieman pidemmällä otannalla, joten esimerkiksi viiden ottelun jälkeen voidaan jo kohtuullisella varmuudella löytää onnekkaimmat ja epäonnekkaimmat joukkueet.

Kuva – @Stats.com

Puhtaasti tilastoihin perustuvissa xG-malleissa on omat heikkoutensa, sillä todennäköisyydet perustuvat suureen määrään suunnilleen vastaavanlaisia maalipaikkoja. Malleissa on käytännössä jonkin verran eroavaisuuksia, mutta kaikissa on sama perusperiaate: xG-mallit pyrkivät antamaan laukauksille todennäköisyyden mennä maaliin perustuen sellaisiin aiempiin laukauksiin, jotka ovat lähteneet samasta tai suunnilleen samasta kohdasta kentällä.

Ongelmana on se, että pelaajan asentoa, tasapainoa, lähellä olevien puolustajien määrää tai häirintää ei voida pelkillä laukaisutilastoilla huomioida riittävästi. xG-mallit eivät myöskään yleensä huomioi lainkaan tilanteita, joista ei tullut laukausta, vaikka muutoin itse tilanne olisi ollut erittäin vaarallinen. Puutteistaan ja rajallisuudestaan huolimatta xG-mallit ennustavat selvästi paremmin joukkueiden tulevaa menestystä kuin vaikkapa maaleihin tai laukauksiin perustuvat mallit. Toisin sanoen xG-mallit tuovat lisäarvoa verrattuna perinteisiin tilastoihin, vaikka ne eivät täydellisiä olekaan.

Mihin jalkapallossa tarvitaan tilastoja?

Tilastoista voivat hyötyä niin seurajohtajat, valmentajat kuin pelaajatkin. Lisäksi esimerkiksi vedonlyöjät ovat jo pidempään hyödyntäneet tilastoja pyrkiessään voittamaan vedonvälittäjät. Brentfordin ja Midtjyllandin omistaja Matthew Benham on tehnyt omaisuutensa vedonlyönnillä, ja hänen yhtiönsä Smartodds tekee ja myy edelleen analyysejaan ja tilastojaan ammattimaisille vedonlyöjille. Myös Brightonin omistaja Tony Bloomilla on oma tilastoja hyödyntävä vedonlyöntianalyysiyhtiö nimeltään Starlizard. Erityisesti Benham on tuonut tilastoihin perustuvan ajattelunsa myös käytäntöön omistamissaan seuroissa ja vieläpä erittäin menestyksekkäästi.

Tilastojen avulla voidaan saada parempi kuva joukkueiden todellisesta tasosta ja niiden menestyksen takana olevista tekijöistä kuin pelkästään katsomalla sarjataulukkoa. Viisas johtoporras ei anna potkuja valmentajalleen, jonka joukkueella on ollut alkukaudesta heikko tuuri, mutta peliesitykset ovat olleet muuten kohtuullisia tai hyviä joukkueen odotettuun tasoon nähden. Tällaisessa tapauksessa potkut luultavasti näyttäytyisivät jälkikäteen hyvänä ratkaisuna, koska joukkueen pistetahti alkaa potkujen jälkeen pidemmässä juoksussa vastaamaan sen peliesityksiä. Muutosta parempaan ei usein kuitenkaan selitä uusi valmentaja, vaan niin sanottu “regression to the mean” eli alkukauden huonon tuurin normalisoituminen.

Tilastojen avulla joukkueen valmennus voi myös opettaa pelaajille, minkälaisia laukauksia se haluaa nähdä kentällä ja mihin tämä valmennuksen toive perustuu. Suomessa esimerkkinä on usein käytetty VPS:ää Petri Vuorisen ja Jani Sarajärven valmennuksessa. VPS pyrkii mieluummin jatkamaan pallonhallintaa kuin laukomaan epätodennäköisistä paikoista. Toisin sanoen VPS pyrkii välttämään matalan xG:n laukauksia ja pyrkii laukomaan mieluummin vain parhaista maalintekosektoreista.

Analytiikan avulla voidaan myös tutkia tulevien vastustajien taktiikkaa syöttökarttojen ja niin sanottujen xG-ketjujen avulla. Niiden avulla voidaan visualisoida, miten vastustajat rakentavat peliään ja kuka heidän pelaajistaan on avainasemassa vaarallisissa hyökkäyksissä.

Tim Sparvin tilastoinen tie

Tilastoja voidaan hyödyntää myös pelaajien merkitystä ja tasoa arvioitaessa. Yksi selkeä hyödyntämismahdollisuus näille uusille tilastoille ovatkin pelaajahankinnat. Parhaimmillaan joukkueet välttyvät tilastojen avulla ostamasta edelliskauden parasta maalintekijää, mikäli osoittautuu, että pelaajalla oli ollut poikkeuksellista tuuria. Hyödyntämällä xG:tä voidaan tutkia, eroaako pelaajan maalimäärä ja odotettu maalimäärä toisistaan, ja joukkue voi välttyä maksamasta ylihintaa pelaajasta, jonka onnistumiset ovat olleet enemmän onnen kuin taidon aikaansaannoksia.

Tilastojen hyödyntämisen ei tarvitse rajoittua myöskään vain maalintekijöihin – esimerkiksi Huuhkajien keskikenttäpelaaja Tim Sparv hankittiin seurajoukkueeseensa, yllämainittuun Benhamin Midtjyllandiin juuri tilastoanalyysien perusteella.  Tilastot yksin eivät ole avain onneen, mutta ne kertovat asioita, joita ihmissilmä ei välttämättä muuten pysty kunnolla huomioimaan.

Yleinen tapa tarkastella tilastoja on yhteismitallistaa pelaajien tilastot joko käyttämällä per 90 minuuttia- tai per 100 possessions -tilastoja. Tavoitteena on pystyä vertailemaan pelaajia minuuttimääristä ja joukkueiden pelitavoista riippumatta. Mikäli kaksi pelaajaa ovat molemmat tehneet 10 maalia, mutta toinen on pelannut 30 peliä ja toinen 10 peliä, on aika selvää, että jälkimmäinen suoritus on kovempi. Useimmiten myös rangaistuspotkumaalit jätetään pois tarkastelusta, koska ne ovat suorituksina täysin erilaisia kuin muut pelitilanteet ja vääristävät pelaajien vertailua. Näiden “korjattujen” tilastojen avulla on helpompi vertailla pelaajien esityksiä riippumatta heidän peliminuuteistaan ja asemastaan joukkueen rangaistuspotkujen nokkimisjärjestyksessä.

Voidaanko skouttauksesta luopua kokonaan?

Euroopan suurissa sarjoissa on havaittu nuorten pelaajien syöttötaidon (assists ja key passes) ennustavan erittäin hyvin heidän tulevaa menestystään hyökkäyspään pelaajina. Erilaisista tilastoista voidaan pyrkiä rakentamaan malleja, jotka ennustavat pelaajien kehitystä ja menestystä ja mahdollistavat aliarvostettujen pelaajien ostamisen seuroihin ennen kuin muut seurat ovat samoilla apajilla kilpailemassa näistä nuorista lahjakkuuksista.

Tällainen toiminta vaatii rohkeutta ja erilaista ajattelua, mutta myös vahvaa analyysiosaamista onnistuakseen. Palkinto ennusteiden onnistumisesta voi olla taloudellisesti ja urheilullisesti erittäin merkittävä, joten tulevaisuudessa tulemme luultavasti näkemään enemmän seuroja, jotka luottavat tilastoihin perustuviin malleihin osana rekrytointiprosessejaan.

Perinteisesti jalkapalloseurat ovat käyttäneet pelaajatarkkailijoita, kun ne metsästävät uusia messejään. Vaikka tilastojen käyttö on yleistynyt huomattavasti, tilastot eivät missään tapauksessa korvaa tai poista pelien katsomisesta saatavan informaation arvoa. Tilastoista voidaan kuitenkin nähdä pidemmän aikavälin kehitystä sekä saada isompi otos pelaajan taidoista kuin tarkkailemalla muutama peli katsomosta.

Tilastoista on oikein käytettynä mahdollista saada monenlaista lisäarvoa ja uusia ajatuksia. Se, että tilastot eivät tee pelien ja pelaajien tarkkailusta turhaa, ei tarkoita sitä, että tilastot olisivat turhia. Parhaaseen lopputulokseen päästään, kun yhdistetään tilastoista saatava informaatio näköhavaintoihin ja muihin pelaajan ominaisuuksien, myös henkisten, arviointiin.

 

Suomi-jalkapallotilasto-suomi

Possession = pallonhallinta (prosenteissa tai minuuteissa)

TSR = Total shots ratio = omat laukaukset / vastustajan laukaukset (yli 0,5 = joukkueella ollut enemmän laukauksia kuin vastustajilla)

SoT = Shots on target = laukaukset kohti maalia

SoTR = Shots on target ratio = omat laukaukset kohti maalia / vastustajan laukaukset kohti maalia (yli 0,5 = joukkueella ollut enemmän laukauksia maalia kohti kuin vastustajilla)

S% = sh% = shooting % = kuinka monta prosenttia kaikista laukauksista meni kohti maalia

Scoring % = kuinka monta prosenttia maalia kohti suuntautuneista laukauksista meni maaliin

Save % = torjuntaprosentti, eli kuinka monta prosenttia maalia kohti suuntautuneista vastustajan laukauksista torjuttiin

PDO = scoring % + save % = kuvastaa “onnen vaikutusta”, eli jos PDO on selvästi yli yhden, on todennäköistä, että se tulee tippumaan (eli joko maalintekotehot tai torjuntaprosentti tulee heikkenemään)

Conversion % = kuinka monta prosenttia kaikista laukauksista (tai yrityksistä) meni maaliin

Dribbling / dribbles = kuljetukset (olen myös nähnyt käytettävän suomenkielistä termiä haastot)

Key passes = syötöt, jotka johtavat laukaukseen riippumatta siitä tuleeko laukauksesta maalia (tarkoituksena on antaa parempi kuva syöttötaidoista, sillä se tuleeko syötöstä maali vai esimerkiksi torjunta on enemmän laukojan taidoista kiinni)

NPG = non-penalty goals = “ei-rankkarimaalit” (rangaistuspotkut jätetään usein pois analyyseistä, koska ne sotkevat aineistoa. Lisäksi rangaistuspotkut vaativat osittain erilaista osaamista kuin maalinteko yleisesti)

A = assist = maaliin johtanut syöttö

Scoring contribution = NPG + A = syötöt ja maalit (useimmiten ei-rangaistuspotkuja ja per 90 minuuttia)

Padj = possession adjusted = pallonhallinnalla korjatut luvut (esimerkiksi pelaajalla, jonka joukkueella oli ottelussa pallo 70 prosenttia ajasta, on vähemmän mahdollisuuksia tehdä katkoja tai taklauksia kuin vastustajan pelaajilla)

xG / shot = maaliodotus / laukaus (kuvastaa laukausten laatua)

Touches in box = pallokosketukset boxissa

OP = open play = ei huomioi erikoistilanteita vaan pelkästään pelitilanteet