Hokej v číslech: Predikce zápasů a zbytku sezony díky Game Score

Foto: Lukáš Filipec, hcocelari.cz

Nejen pokročilé statistiky v hokeji, ale data všeobecně se, kromě popisu již proběhlých událostí, dají samozřejmě použít i ve vztahu k budoucnosti. Mohou nám pomoci načrtnout, co se na základě zjištěných čísel bude odehrávat v následujících zápasech.

O Kapku lepší hokej

V minulém článku jsme si představili náš extraligový model nazvaný Game Score, který na základě několika statistik spojených v jednu hodnotu ukazuje výkony hráčů v zápasech, potažmo pak v celé sezoně.

Hlavní motivací v přenesení modelu z NHL do extraligového prostředí byla především zmíněná predikce. A to na základě výkonů hráčů v již odehraných zápasech. Díky tomu můžeme pomocí statistických metod odhadnout, jaké výkony by mohli hráči a týmy podávat v zápasech následujících.

Od výsledků k prognózám

V extralize máme k dispozici data od roku 2018, pro tuto sezonu tedy pracujeme s daty za předchozí dva ročníky. Ty jsou váženy podle jejich stáří, sezona 2019-2020 má tedy větší váhu než ročník 2018-2019, a pomocí lineární regrese je každá ze statistik projektována zvlášť. Dohromady potom všechny statistiky dávají výslednou projekci čísla Game Score každého z hráčů.

Větší problém pak tvoří hráči, kteří přicházejí do extraligy z jiných soutěží, což je oproti NHL v Evropě mnohem častější záležitostí. Částečně to řeší takzvané ‚NHLe‘, které udává koeficienty jednotlivých soutěží ve vztahu právě k NHL a ukazuje odhad zisku bodů hráče. Díky tomu se tak dají přepočítat předpokládané body i mezi ostatními soutěžemi. Projekce takových hráčů jsou pak podrobeny mnohem větší regresi směrem k průměru. Může tedy v jejich případě dojít velmi často k podhodnocení, než nasbírají dostatečný vzorek odehraných utkání v extralize.

Na základě projekcí výkonů jednotlivých hráčů a jejich zaražení do sestav získáme celkovou sílu týmu. Tu v našem případě značí hodnota xWin%, tedy v předkladu očekávané procento výher týmu v porovnání s ostatními celky. To si můžeme uvést na příkladu současného lídra, Sparty:

Hodnotu každého hráče určuje kolonka GS, tedy Game Score. To je přepočteno na herní čas hráčů, a zahrnuje v sobě všechny dříve zmíněné statistiky. U brankářů je pak jejich hodnota Game Score závislá na statistice GSAA, se kterou jsme se už několikrát potkali. Jedná se o góly chycené brankářem navíc v porovnání s průměrem extraligy.

Celkový součet všech hodnot hráčů a brankářů je pak přepočítán právě na hodnotu očekávaného procenta výher – xWin%.

Predikce zápasů

Hodnota xWin% pak hraje hlavní úlohu v prvotním motivu, ke kterému směřujeme. A to je predikce budoucích zápasů. Faktorem je také domácí prostředí. Díky tomu, že je model založený na sestavách jednotlivých mužstev, může pružně reagovat na změny v kádru, ať už z důvodu zranění, nebo výměn.

Výsledky každého zápasu jsou pak podrobeny 50 000 simulacím a konečná procenta na výhru týmů v daném zápase jsou určeny na základě těchto simulovaných zápasů. Takto například vypadá predikce posledního ligového kola před reprezentační přestávkou:

V tomto kole model správně predikoval pět ze šesti vítězů utkání. Dohromady byl v této sezoně model použitý na 208 zápasů, a ve 136 z nich vyhrál tým považovaný za favorita:

V téměř dvou třetinách zápasů tak zvítězil podle modelu lepší tým. Pro představu, originální Game Score pro NHL se pohybuje mezi 58-60 procenty. Nutno však zmínit, že NHL je přeci jen vyrovnanější soutěží.

Dobře, pokud dokážeme predikovat s poměrně solidní přesností jednotlivé zápasy, můžeme to posunout ještě o další krok dál.

Jak dopadne základní část?

Predikce zbytku sezony, pak probíhají na podobném principu. Opět se bere do úvahy síla týmu, ve které v tomto případě kromě samotné sestavy hraje roli i aktuální forma týmů, a domácí prostředí. Na základě toho jsou opět určeny šance na výhru v daných zápasech. To vše je pak zakomponováno do extraligového rozpisu, kdy je „dohrána“ sezona.

Tento proces je opakován hned 10 000 krát. Tím dostaneme průměrné výsledky, které nejvíce odpovídají pravděpodobnému scénáři, a díky tomu co nejvíce eliminujeme faktor náhody, který je v hokeji poměrně vysoký.

Z těchto simulací si pak můžeme spočítat kolikrát daný tým dokázal postoupit do play off, případně se umístil mezi první čtyřkou, která letos zaručuje postup přímo do čtvrtfinále. A také se dostaneme k průměrnému počtu získaných bodů týmů, počtu výher a proher.

To je víceméně celý proces, který nám může pomoci zorientovat se, jak jsou na tom jednotlivé týmy. Je však potřeba si uvědomit, že to rozhodně neznamená, že sezona takto opravdu dopadne. Jedná se opravdu o průměr desítky tisíc simulací, a automaticky to tak neznačí, že Sparta opravdu získá první místo o tři body před Třincem nebo že Mladá Boleslav s Libercem uhájí pozice v první čtyřce před Plzní.

Je to však ten nejpravděpodobnější scénář na základě toho, co o týmech víme díky našemu modelu Game Score.

RSS | Kontakt | Podmínky užití | Všeobecné obchodní podmínky a pravidla | Reklama - Provozovatel BPA sport marketing a.s. ve spolupráci s eSports.cz, s.r.o.

ISSN 1214-5718 | dotazy na redakci: redakce@hokej.cz, obchod/reklama: obchod@hokej.cz, technický provoz: webmaster@hokej.cz