Tyrėjai prognozuoja 2018 metų Pasaulio Taurės laimėtoją
Ru­si­jo­je pra­si­dė­ju­si 2018 me­tų Pa­sau­lio Tau­rė ti­kriau­siai bus vie­nas iš žiū­ri­miau­sių spor­to įvy­kių, po­pu­lia­ru­mu len­kian­tis ne­tgi Olim­pia­dą. Tad ga­li­mi fut­bo­lo čem­pio­na­to lai­mė­to­jai ti­krai ke­lia ne­men­ką su­si­do­mė­ji­mą.

Tikėtinus rezultatus galima įvertinti, žvelgiant lažybų tarpininkų siūlomus koeficientus. Šiose kompanijose profesionalūs statistikai tikėtinas rungtynių baigtis įvertina, analizuodami dideles duomenų bazes. Taip bukmekeriai gali pateikti visų šias kelias savaites vyksiančių rungtynių tikėtinus laimėtojus.

Dar geriau vertinti, apjungiant daugelio lažybų kompanijų tikimybes. Taip aiškus šio čempionato favoritas yra Brazilija (laimėjimo tikimybė 16,6 %), Vokietija (12,8 %) ir Ispanija (12,5 %).

Bet pastaraisiais metais tyrėjai sukūrė ir mašininio mokymosi technikas, kurios potencialiai gali nurungti įprastą statistinį vertinimą. Ir kokiai gi komandai šios naujos technikos prognozuoja 2018 m. Pasaulio Taurę?

Atsakymas pateikiamas Andreaso Grollo iš Dortmundo Technikos universiteto ir dar kelių kolegų darbe. Kad nustatytų kitą labiausiai tikėtiną laimėtoją, jie apjungė mašininį mokymąsi ir įprastinę statistiką vadinamuoju random forest (angl. – atsitiktinio miško) metodu.

Iš pradžių šiek tiek pasiaiškinkime. Atsitiktinio miško metodas pastaraisiais metais tapo galingu didelių duomenų analizavimo būdu, neturinčių kai kurių kitiems duomenų apdorojimo metodams būdingų spragų. Esminė jo mintis – būsimi įvykiai gali būti numatyti sprendimų medžiu, kurio rezultatas skaičiuojamas, kiekvienoje šakoje panaudojant treniravimo duomenis.

Tačiau sprendimų medžiams būdinga gerai žinoma problema. Vėlesnėse šakojimosi proceso stadijose sprendimus gali smarkiai iškreipti treniravimo duomenys, kurių nedaug ir kurie gali smarkiai varijuoti – pertaikymo (overfitting) problema .

Atsitiktinio miško būdas – kitoks. Užuot skaičiavęs kiekvienos šakos rezultatą, šis procesas skaičiuoja atsitiktinai pasirinktų šakų rezultatus. Ir daro tai daug kartų, kiekvieną kartą su skirtingu atsitiktinai pasirinktomis šakomis. Galutinis rezultatas yra visų šių atsitiktinai sukurtų sprendimų medžių vidurkis.

Toks būdas turi svarbių pranašumų. Pirmiausia, jam nekyla pertaikymo problema, kamuojanti įprastus sprendimų medžius. Be to, jis atskleidžia, kurie faktoriai svarbiausi rezultatui.

Taigi, jei konkrečiame sprendimų medyje daugybė parametrų, lengva pastebėti, kurie daro didžiausią įtaką, o kurie – nelabai svarbūs. Ateityje į tokius mažiau svarbius parametrus galima neatsižvelgti.

Grollas su kolegomis, modeliuodami 2018 metų Pasaulio Taurę, naudojo būtent šį metodą. Jie modeliavo visų tikėtinų komandų kiekvieno susitikimo baigtį ir rezultatus panaudojo, konstruodami labiausiai tikėtiną turnyro eigą.

Jie pradėjo nuo plataus potencialių faktorių spektro. Tai tokie ekonominiai faktoriai, kaip šalies BVP ir gyventojų skaičius, šalies komandų FIFA reitingas, ir pačių komandų savybės, – vidutinis amžius, turimų Čempionų Lygos žaidėjų skaičius, ar turi namų pranašumą, ir taip toliau.

Įdomu, kad naudodami atsitiktinio miško būdą, Grollas su kolegomis galėjo įtraukti ir kitus vertinimus, pavyzdžiui, naudojamus lažybų tarpininkų.

Sudėjus viską į modelį, galima atlikti įdomias įžvalgas. Pavyzdžiui, svarbiausi faktoriai pasirodo esantys kitais metodais – lažybų bendrovių, FIFA, kt. – sukurti komandų vertinimai.

Kiti svarbūs faktoriai – BVP ir Čempionų Lygos žaidėjų skaičius komandoje. Nesvarbūs faktoriai – šalies gyventojų skaičius, trenerio tautybė, ir taip toliau.

Šiuo procesu gautos prognozės skiriasi nuo kitų. Atsitiktinio miško metodu labiausiai tikėtinas laimėtojas yra Ispanija, su 17,8 procentų tikimybe.

Tačiau šiose prognozėse svarbus faktorius yra ir paties turnyro struktūra. Jei Vokietija grupėje išvengs konkurencijos, labiau tikėtina, kad susidurs su stipresne konkurencija 16 komandų atkrentamosiose varžybose. Todėl atsitiktinio miško metodas Vokietijos patekimo į ketvirtfinalį šansus vertina 58 %. Tuo tarpu Ispanija vargu ar sutiks rimtą pasipriešinimą šešioktfinalyje, tad jos galimybės pasiekti ketvirtifinalį yra 73 procentai.

Jei abi komandos pasieks ketvirtifinalį, laimėjimo tikimybės daugmaž vienodos. „Ispanijos šansai kiek didesni, nes Vokietijos šansai iškristi šešioktfinalyje palyginti dideli,“ sako Grollas su kolegomis.

Bet yra dar viena įdomybė. Naudojant atsitiktinio medžio metodą,galima simuliuoti visą turnyrą ir gauti skirtingus rezultatus.

Grollas su kolegomis visą turnyrą simuliavo 100 000 kartų. „Kaip rodo labiausiai tikėtina turnyro eiga, Pasaulio Taurę turėtų laimėti vokiečiai, o ne ispanai,“ teigia jie.

Žinoma, dėl daugybės žaidimo kintamųjų, tokia eiga tebėra itin menkai tikėtina. Grollas su kolegomis vertina juos kaip 1 iš 100 000.

Taigi, turnyrui prasidedant, Grollas su kolegomis didžiausius laimėjimo šansus teikia Ispanijos komandai. Bet jei pateks į ketvirtfinalį, lydere taps Vokietijos vienuolikė.

Turnyras prasidea šiandien, šeimininkės Rusijos ir Saudo Arabijos rungtynėmis. Deja, šių komandų tikimybės pakliūti į ketvirtfinalį labai jau menkos.