[0:25]Qualsiasi sia lo sport che seguite, sia che siate tifosi sfegatati o semplice appassionati, di certo avrete notato una cosa: nello sport, dati, numeri e statistiche sono ovunque.
[0:47]E non parliamo solo di dati classici, come gli esiti degli incontri, le statistiche dei gol o dei canestri segnati o il numero di punti giocati in un incontro di tennis. Ormai sono disponibili dati molto più complessi che permettono applicazioni in quasi tutti i settori del mondo sportivo, spaziando dall'analisi della performance di un atleta o di una squadra, ai modelli di previsione sull'esito di una gara o di un torneo, dalla definizione dei migliori schemi di gioco fino all'analisi di mercato per le società sportive. La quantità e la varietà di dati disponibili sono così ampie e così diversificate che hanno dato vita ad una disciplina specifica, detta Sport Analytics. Con questo termine si intende un approccio allo sport basato sulla rilevazione di dati e sull'utilizzo di metodologie statistiche e probabilistiche per analizzarli ed estrarre da essi informazioni operativamente utili. In questo contesto, quindi, l'utilità dei dati non sta tanto nei numeri in sé, ma piuttosto nella possibilità di produrre risultati spendibili operativamente. È dunque molto importante che, nelle analisi, l'obiettivo da perseguire sia chiaro e che le domande alle quali i dati devono rispondere siano ben formulate e provengano da chi conosce bene lo specifico sport. Ma quali sono i dati a disposizione di chi si occupa di sport analytics? I dati più semplici e comuni sono quelli usualmente forniti dai siti ufficiali delle Federazioni sportive o dalle associazioni dei giocatori. Ma ci sono anche dati molto più sofisticati che provengono da dispositivi tecnologici, come videocamere o sensori GPS o da quelle tecnologie cosiddette wearable, in grado di rilevare i movimenti del corpo e vari parametri fisiologici.
[3:45]La raccolta e la sistematizzazione delle informazioni, per qualche aspetto di interesse, potrebbe rappresentare già di per sé il risultato finale. In realtà, molto più spesso è solo il punto di partenza da cui si sviluppa l'intero processo di analytics, il cui obiettivo, ricordiamolo, è di supportare chi deve prendere delle decisioni, sia su un coach, il management sportivo, basandosi su dati oggettivi. Inoltre, uno dei punti di forza del processo di analytics risiede proprio nella capacità di ottenere informazioni che non sono direttamente visibili o percepibili guardando ai dati grezzi. Dopo aver ben definito gli obiettivi e aver raccolto i dati, solo allora entrano in gioco le metodologie statistiche che possono includere vari tipi di modelli statistici, analisi multivariate, tecniche di data mining o di machine learning, metodi di simulazione Monte Carlo e vari altri tipi di algoritmi. Il compito dello statistico, in questo contesto, è quello di individuare gli strumenti metodologici più adatti per rispondere al problema posto. Di analizzare i dati ed interpretare i risultati delle analisi, rendendoli poi accessibili e comprensibili anche ai non esperti, siano essi coach, atleti, management o analisti sportivi.
[6:17]Le applicazioni della statistica allo sport sono ormai davvero moltissime, così come le tecniche di analisi utilizzate. Per darvi un'idea di quello che si può fare utilizzando l'approccio della sport analytics, vedremo ora due esempi concreti: uno relativo al calcio e all'analisi dei degli expected goal e uno relativo al tennis e all'impatto di un cambio di regole sulla durata degli incontri. Partiamo dal primo esempio. Di recente è stato suggerito di analizzare e monitorare le prestazioni delle squadre e dei singoli giocatori mediante i cosiddetti expected goal. Gli expected goal sono una misura della probabilità che un tiro ha di diventare un gol, quando questo viene calciato da una determinata posizione, con un certo angolo e in un certo momento della partita. Sono analisi che arrivano a basarsi su migliaia di tiri e che fanno sì che ogni tipo di tiro abbia una sua probabilità di trasformarsi in gol. Per esempio, un calcio di rigore ha mediamente circa l'80% di probabilità di diventare un gol.
[8:21]L'analisi degli expected goal aiuta a capire il reale rendimento di una squadra, al di là dei risultati e delle posizioni di classifica, che possono essere spesso ingannevoli o determinati da singoli episodi. Consideriamo, ad esempio, il rapporto R tra i gol fatti da un giocatore o anche da una squadra in campionato e la somma degli expected goal di tutti i tiri in porta effettuati. Tanto più questo indicatore è maggiore di uno, tanto più esso evidenzia un giocatore o una squadra capace di sfruttare tutte le occasioni che si presentano. Viceversa, tanto più R è inferiore a uno, tanto più forte è l'indicazione di un giocatore che crea sì tante occasioni, ma ne spreca anche moltissime.
[10:00]Il secondo la seconda applicazione che di cui vi voglio parlare riguarda il tennis ed è stata sviluppata da me e dal collega Matteo Grigoletto del Dipartimento di Scienze Statistiche dell'Università di Padova. In questo caso, il quesito di partenza riguarda un possibile cambio di regole che riduca la probabilità di avere incontri molto lunghi. Come quello epico tra Isner e Mahut a Wimbledon 2010 o anche quello tra Federer e Djokovic a Wimbledon 2019, ma che, contemporaneamente, non stravolga l'attuale sistema dei set e dei game. In tal senso, due possibilità sono l'abolizione del secondo servizio e l'abolizione di vantaggi dopo i 40 pari. Ma di quanto si ridurrebbe in questi due casi la probabilità di avere un match molto lungo? Rispondere a questa domanda non è facile, perché, al momento, non ci sono tornei professionistici giocati con queste regole. Quindi, apparentemente, non ci sono nemmeno dati da analizzare.
[12:00]Per superare il problema, abbiamo fatto ricorso a metodi di simulazione Monte Carlo. Abbiamo iniziato esplodendo la durata complessiva di un incontro nelle sue diverse componenti, che sono il tempo in cui la palla è in gioco, il tempo che intercorre tra il primo e il secondo servizio, se questo è necessario, quello che intercorre tra un punto e l'altro, il tempo di riposo previsto ai cambi di campo e il tempo dovuto ad ogni altro evento occasionale che concorre alla durata totale. Per ciascuna di queste componenti è stata stimata, partendo dai dati osservati, una distribuzione di probabilità che tenga conto della sua variabilità. Sono stati poi giocati migliaia di incontri, attribuendo i punti secondo schemi probabilistici che descrivono ogni evento che si verifica in un match. Per esempio, è stata stimata la probabilità che ciascun giocatore ha di fare il punto sul proprio servizio, quella di mettere dentro la prima palla o la seconda palla, la probabilità di fare un doppio fallo e così via. Durante lo sviluppo degli incontri simulati, ad ogni fase del gioco abbiamo attribuito un intervallo di tempo utilizzando le distribuzioni stimate precedentemente. In questo modo è stato prodotto un simulatore di durate.
[14:43]Infine, abbiamo utilizzato questo simulatore per giocare migliaia di match con le nuove regole. Tutto questo ci ha permesso di concludere che, se si eliminassero i vantaggi, la probabilità di avere un incontro al meglio dei cinque set che dura più di tre ore e mezza, sarebbe più che dimezzata, mentre, se si eliminasse il secondo servizio, la stessa probabilità diventerebbe circa un terzo. A dimostrazione del fatto che questi cambi di regole impatterebbero soprattutto sulla durata degli incontri molto lunghi, che è proprio quello che volevamo ottenere.



