Český a československý fotbal v číslech

EPA - trochu jiný pohled na ligové střelce

20.7.2017 - #faktavčíslech

EPA. Ne, nejedná se o žádný nový typ krevního dopingu. EPA je zkratkou pro anglický výraz Expected Points Added – koncept, který má kořeny v americkém fotbale a snaží se přinést bližší a objektivnější pohled na to, jak góly jednotlivých střelců přispívají k bodovému zisku týmu.

Koncept vychází ze skutečnosti, že ne všechny góly mají totožný dopad na získaný počet bodů ze zápasu. Vstřelení rozhodující branky dvě minuty před koncem za nerozhodného stavu zpravidla učiní šťastného střelce na celý příští týden hrdinou fanoušků, neboť jeho gól s vysokou pravděpodobností týmu přinesl ze zápasu dva body navíc. Naopak pokud střelec ve stejné minutě vsítí pátou branku svého týmu a zvýší tak na 5:0, zřejmě si tolik slávy neužije, neboť jeho gól přinesl již jen kosmetickou úpravu skóre a o tříbodovém vítězství jeho týmu bylo v té době již dávno rozhodnuto.

Koncept EP/EPA začal být popularizován v americkém fotbale již v osmdesátých letech a s postupným rozšiřováním analytických postupů do evropského fotbalu se jej čas do času někdo pokusí aplikovat i na fotbal evropský. My jsme se tím inspirovali a zaměřili se na nejvyšší českou soutěž - pokusili jsme se pomocí EPA změřit přínos jednotlivých střelců k bodovému zisku týmu a zjistit, jak koresponduje s klasickou tabulkou střelců.

Výpočet EPA

Na základě databáze zápasů nejvyšší české soutěže a posloupnosti vstřelených branek jsme vytvořili pravděpodobnostní model zohledňující jednak stav skóre, jaký panoval v době dosažení branky, dále tým, který gól vstřelil (domácí či hosté) a také minutu, ve které gól padl. Pro tento model jsme využili zápasy od sezony 1994/95, od které se za vítězství udělují tři body. Pro snazší pochopení suché teorie bude jistě lepší praktický příklad.

Představme si, že právě skončila například 67. minuta zápasu a stav je vyrovnaný. Pohledem do databáze zápasů zjistíme, že tato situace nastala od sezony 1994/95 přesně v 1 820 případech. Na základě konečných výsledků těchto zápasů jsme pak schopni vypočítat statistickou pravděpodobnost konečného výsledku a tím i pravděpodobný počet získaných bodů obou týmů. V tomto konkrétním případě zjistíme, že v zápase, který byl po 67 minutách hry nerozhodný, zvítězil nakonec domácí tým v 526 případech (28,9 %), nerozhodně skončilo utkání v 1022 případech (56,2 %) a v 272 případech zápas vyhráli hosté (14,9 %). Pravděpodobný počet bodů (neboli Expected Points) domácího týmu ze zápasu, jenž je po 67 minutách vyrovnaný, pak činí 1,429 bodu (3 body ⨯ 0,289 + 1 bod ⨯ 0,562 + 0 bodů ⨯ 0,149).

Nyní si představme, že v 67. minutě zápasu vstřelí domácí branku, jež je posune do jednogólového vedení. Provedeme-li totožné matematické cvičení pro případ, kdy po 67 minutách vede domácí tým o jeden gól, zjistíme z databáze zápasů, že domácí dokázali takový zápas vyhrát v 1111 případech (80,6 %), v 227 případech takové utkání skončilo remízou (16,5 %) a 40 krát se nakonec radovali hosté (2,9 %). Pravděpodobný počet bodů domácího týmu v zápase, v němž vede po 67. minutě o jeden gól, tak činí 2,583 (3 body ⨯ 0,806 + 1 bod ⨯ 0,165 + 0 bodů ⨯ 0,029).

Nyní tak již můžeme jednoduše spočítat přidanou hodnotu takto vstřeleného gólu, neboli…EPA, a přiřadit ji konkrétnímu střelci. Rozdílem hodnoty po vstřelené brance a hodnoty před vstřelenou brankou dostáváme EPA 1,154 (tedy 2,583 – 1,429). Gól vstřelený domácím týmem v 67. minutě za nerozhodného stavu tak na základě statistické pravděpodobnosti odvozené z minulých zápasů nejvyšší české soutěže přinese domácímu týmu dodatečných 1,154 bodu. Pro porovnání – pokud by stav při vstřelení branky nebyl nerozhodný, ale domácí v 67. minutě zvýšili například z 2:0 na 3:0, pak by hodnota EPA takového gólu činila pouze 0,059. Jeho přínos k bodovém zisku by tak již byl výrazně nižší, což je poměrně intuitivní závěr - dvoubrankové vedení 23 minut před koncem domácí tým zpravidla neztrácí, a proto třetí gólová pojistka ve většině případů z hlediska rozdělení bodů již nic neřeší.

Čím více se blížíme devadesáté minutě, tím hodnota gólu vstřeleného za nerozhodného stavu roste – soupeř má v takovém případě logicky méně času na vyrovnání a vítězství je s přibývajícím časem pravděpodobnější. Opak platí pro trvající nerozhodný stav - s přibývajícím časem je stále méně pravděpodobnější, že se týmu podaří skórovat a pravděpodobný počet bodů ze zápasu se přibližuje jedné (tedy jednomu bodu za remízu). To je ostatně patrné i z následujícího grafu, který znázorňuje průběh funkce pravděpodobného bodového zisku domácího týmu pro případ trvajícího nerozhodného stavu.

Podobné funkce jsme vytvořili i pro další možné stavy skóre zvlášť pro domácí a hostující tým a na základě výsledných hodnot jsme pak pro všechny vstřelené góly od sezony 1994/95 určili hodnotu EPA. U prvních minut hry, pro které není v databázi dostatečný počet pozorování pro vyšší rozdíly skóre (jen zřídkakdy jdou například týmy v prvních pěti minutách do dvougólového vedení), jsme funkce pomocí jednoduché statistické metody vyhladili.

EPA a sezona 2016/17

Nyní už nám tak nic nebrání v pohledu na tabulku střelců uplynulé sezony 2016/17. Titul krále střelců si rozdělili David Lafata ze Sparty a Milan Škoda ze Slavie, kteří vstřelili shodně 15 gólů. Podíváme-li se však na jejich hodnotu EPA, pak je jednoznačně vidět, že branky Milana Škody byly pro bodový zisk Slavie výrazně důležitější než góly Davida Lafaty pro Spartu.

Sezona 2016/17

HráčGólyEPAØ EPA
David Lafata156.150.410
Milan Škoda1511.230.748
Muris Mešanovič1210.650.887
Michael Krmenčík106.430.643
Michal Škoda107.940.794
Jan Chramosta94.570.508
Davis Ikaunieks95.060.562
Marek Bakoš86.100.762
Martin Doležal84.400.550
Martin Fillo86.190.774
Golgol Mebrahtu85.890.736
Tomáš Pilík86.260.783
Lukáš Budínský75.860.836
Jan Holenda75.070.724
Ondřej Mihálik73.450.493
Jakub Řezníček75.750.822
David Vaněček74.930.705
Tomáš Wágner74.880.697
Jaromír Zmrhal74.130.590

Souhrnná hodnota EPA dosáhla u Milana Škody dle našeho modelu 11,23; interpretace tohoto čísla je taková, že při zohlednění času vstřelení jeho branek a stavu, za kterého góly vstřelil, zvýšily jeho branky pravděpodobný bodový zisk Slavie o 11,23 bodů. Čísla druhého krále střelců Davida Lafaty jsou výrazně nižší - jeho zásahy zvýšily pravděpodobný bodový zisk Sparty jen o 6,15 bodu. Zatímco Milan Škoda až na výjimky šetřil s brankami v situacích, kdy bylo o výsledku rozhodnuto, David Lafata si například připsal hattrick v zápase s Příbramí, jenž skončil vysokým vítězstvím 4:0, či v poslední minutě korigoval již jistou prohru v Jablonci. Další slávista Muris Mešanovič si pak svými důležitými brankami v zápasech s Karvinou, v Karviné či s Jabloncem vysloužil nejvyšší průměrnou hodnotu EPA ze všech střelců (s minimálně 7 vstřelenými góly).

Statistika EPA tak může být zajímavým doplněním pohledu na ligové střelce, neboť ve velmi koncentrované podobě dokáže ocenit přínos jejich gólů k bodovému zisku týmu. Je však třeba zdůraznit, že hodnoty jsou založeny na statistické pravděpodobnosti. Fakt, že střelec zaznamená "hodnotnou" branku, kterou v danou chvíli výrazně zvýší pravděpodobnost týmu na vyšší bodový zisk, ještě neznamená, že tým skutečně nějaké body ze zápasu získá… Demonstrovat si to můžeme na gólu karvinského Lukáše Budínského v jarním zápase s Plzní, když v 75. minutě poslal Karvinou do vedení 2:1 (EPA 1,35), ale Plzeň nakonec zápas ještě dokázala otočit.

Na příkladu Davida Lafaty je pak vidět i další jisté omezení této statistiky. Tím, že sparťanský kanonýr vsítil pár minut před koncem třetí a čtvrtou branku v rozhodnutém zápase s Příbramí, si připsal dva góly, ale hodnota EPA u těchto branek byla minimální (u čtvrté dokonce nulová). Podobně tomu bylo i při jeho trefě v Jablonci v poslední minutě za rozhodnutého stavu. Zejména jeho průměrná hodnota EPA těmito góly utrpěla a otázka samozřejmě je, zda by měl být David Lafata takto "trestán", když v podstatě neudělal nic špatně - jen vstřelil góly…

Průměrná EPA od 1994/95

Jakub Řezníček0.822
Karel Piták0.761
Marek Bakoš0.753
Rudolf Otepka0.740
Jan Nezmar0.728
...
Marek Kincl0.608
Horst Siegl0.591
Miroslav Baranek0.571
Zbyněk Pospěch0.561
Jan Chramosta0.550
Pozn.: od sezony 1994/95, jen hráči s min. 50 góly

Proto je třeba na statistiku hledět s určitou opatrností a v souvislostech - EPA mírně znevýhodňuje hráče, kteří dlouhodobě nastupují za úspěšné kluby, jež častěji vyhrávají vyšším rozdílem. Při větším počtu vícególových vítězství tak nevyhnutelně dojde k tomu, že hráč častěji zaznamená branky, které již na výsledek zápasu a rozdělení bodů nemají žádný vliv (podobně jako David Lafata s Příbramí) a jeho průměrná EPA se tím snižuje.

Statistiku EPA považujeme za zajímavou a doplnili jsme ji, i přes výše uvedená omezení, do celkových hráčských statistik, ke každé sezoně počínaje 1994/95 a budeme ji sledovat i v sezonách následujících.

Vyhledávání

Vyhledávání ligových zápasů