Nou, het is weer die tijd van het jaar. Wanneer de laatste kreten van het zomerweer eindelijk voorbij zijn en iedereen alles pompoenkruiden begint te verkopen, zorg ik ervoor dat de magische elfen die in de eik in mijn achtertuin wonen, de ELfWAR-koekjes tevoorschijn halen. Szymborski shtick, Szymborski shtick, verwijzing naar popcultuur, en laten we nu eens kijken wat de ZiPS-projecties zijn, hoe ze werken en wat ze betekenen. Je zult de komende twee maanden immers 30 ZiPS-teamartikelen zien.
ZiPS is een computerprojectiesysteem dat ik in eerste instantie in 2002-2004 heb ontwikkeld. Het ging officieel live voor het publiek in 2005, nadat het een niveau van niet-onzin had bereikt waar ik tevreden mee was. De oorsprong van ZiPS is vergelijkbaar met Marcel the Monkey van Tom Tango en komt voort uit discussies die ik eind jaren negentig had met Chris Dial, een van mijn beste vrienden (bij onze eerste interactie noemde Chris mij een vloek!) en een mede-statistieknerd. ZiPS evolueerde snel van zijn oorspronkelijke iteratie naar een redelijk eenvoudig projectiesysteem, en doet nu veel meer en gebruikt veel meer gegevens dan ik twintig jaar geleden ooit voor ogen had. In de kern voert het echter nog steeds twee hoofdtaken uit: inschatten wat de basisverwachting voor een speler is op het moment dat ik op de knop druk, en vervolgens inschatten waar die speler naartoe gaat met behulp van grote cohorten van relatief vergelijkbare spelers.
Dus waarom heet ZiPS ZiPS? Destijds waren de theorieën van Voros McCracken over de interactie tussen werpen, verdedigen en ballen in het spel vrij nieuw, en omdat ik enkele van zijn bevindingen wilde integreren, besloot ik dat de naam van mijn systeem zou rijmen met DIPS (defense-independent pitching). statistieken), met zijn zegen. Ik hield niet van SIPS, dus ging ik voor de volgende letter van mijn achternaam, Z. Oorspronkelijk noemde ik mijn werk ZiPs als een knipoog naar CHiPs, een van mijn favoriete programma's om als kind naar te kijken. Ik heb ZiPs verkeerd getypt als ZiPS toen ik de projecties openbaar maakte, en aangezien mijn huidige collega Jay Jaffe al over ZiPS had gerapporteerd voor zijn Futility Infielder-blog, heb ik ervoor gekozen om er gewoon mee door te gaan. Ik had nooit verwacht dat dit alles voor iemand anders dan voor mij nuttig zou zijn; als ik dat had gedaan, zou ik het zeker op een minder bizarre manier hebben genoemd.
ZiPS maakt gebruik van meerjarige statistieken, waarbij recentere seizoenen zwaarder wegen; In het begin kregen alle statistieken jaarlijks dezelfde weging, maar uiteindelijk werd dit op basis van aanvullend onderzoek gevarieerder. En onderzoek is een groot onderdeel van ZiPS. Elk jaar voer ik honderden onderzoeken uit naar verschillende aspecten van het systeem om hun voorspellende waarde te bepalen en de basislijnen van de speler beter te kalibreren. Wat begon met de beschikbare gegevens in 2002 is aanzienlijk uitgebreid. Basisgegevens over treffers, snelheid en toonhoogte begonnen vanaf 2013 een grotere rol te spelen, terwijl gegevens afgeleid van Statcast de afgelopen jaren zijn opgenomen omdat ik grip heb gekregen op de voorspellende waarde ervan en de impact van die getallen op bestaande modellen. Ik geloof in een voorzichtig, conservatief ontwerp, dus gegevens worden pas opgenomen als ik vertrouwen heb in hun verbeterde nauwkeurigheid, wat betekent dat er altijd builds van ZiPS zijn die nog een paar jaar verwijderd zijn. Aanvullende interne ZiPS-tools zoals zBABIP, zHR, zBB en zSO worden gebruikt om de basisverwachtingen voor spelers beter vast te stellen. Deze statistieken werken op dezelfde manier als de verschillende smaken van “x”-statistieken, waarbij de z staat voor iets waarvan ik durf te wedden dat je het al geraden hebt.
Hoe projecteert ZiPS de toekomstige productie? Ten eerste stelt ZiPS, op basis van zowel recente speelgegevens met aanpassingen voor zStats, als andere factoren zoals park, competitie en kwaliteit van de competitie, een basisschatting vast voor elke speler die wordt geprojecteerd. Om een idee te krijgen van waar de speler naartoe gaat, vergelijkt het systeem die basislijn met de basislijnen van alle andere spelers in zijn database, ook berekend op basis van de beste gegevens die beschikbaar zijn voor de speler in de context van zijn tijd. De huidige ZiPS-database bestaat uit ongeveer 145.000 basislijnen voor werpers en ongeveer 180.000 voor slagmensen. Voor slagmensen is dit, afgezien van het kennen van de gespeelde positie, alleen een overtreding; hoe goed een speler verdedigend is, levert geen informatie op over hoe een speler op de plaat zal verouderen.
Met behulp van een heleboel statistieken, informatie over vorm en spelerskenmerken vindt ZiPS vervolgens een groot cohort dat het meest op de speler lijkt. Ik gebruik hiervoor uitgebreid Mahalanobis afstand. Een paar jaar geleden Brandon G. Nguyen Ik heb geweldig werk geleverd, waarin ik in grote lijnen heb laten zien hoe ik dit doe terwijl hij computerwetenschappen/wiskunde studeerde aan Texas A&M, hoewel de gebruikte variabelen niet identiek zijn.
Als voorbeeld zijn hier de top 50 aanvallende vergelijkingen van bijna leeftijd voor de World Series MVP Freddie Vrijman nu. Het totale cohort is veel groter dan dit, maar 50 zou genoeg moeten zijn om je een idee te geven:
Top 50 ZiPS-aanvallende spelercomposities voor Freddie Freeman
Idealiter zou ZiPS er de voorkeur aan geven dat spelers van dezelfde leeftijd zijn en op dezelfde positie spelen, maar aangezien we ongeveer 180.000 basislijnen hebben, en niet 180 miljard, moet ZiPS vaak genoegen nemen met spelers van bijna dezelfde leeftijd en positie. De exacte mix werd hier bepaald door uitgebreid testen. De grote groep vergelijkbare spelers wordt vervolgens gebruikt om on-the-fly een ensemblemodel te berekenen voor de toekomstige carrièrevooruitzichten van een speler, zowel goede als slechte.
Een van de principes van projecties die ik volg, is dat wat de ZiPS-projectie ook zegt, de projectie ook is. Zelfs als het inbrengen van mijn mening een specifieke projectie zou verbeteren, ben ik daar filosofisch tegen. ZiPS is het nuttigst als mensen weten dat het puur op data is gebaseerd, en niet op een onbekende mix van gegevens en mijn mening. Ik denk graag dat ik door de jaren heen een slimme aanpak heb gekozen om meer dingen in data om te zetten – bijvoorbeeld het gebruik van basisinformatie over blessures door ZiPS – maar sommige dingen zitten gewoon niet in het model. ZiPS weet niet of een werper zijn slider niet mocht gooien nadat hij terugkwam van een blessure, of dat een linksvelder in juli een familietragedie kreeg. Dat soort dingen vallen buiten het bereik van een projectiesysteem, ook al kunnen ze de prestaties op het veld beïnvloeden.
Het is ook belangrijk om te onthouden dat de uiteindelijke projectie, in termen van de leek, slechts een middelpunt is. Je verwacht niet dat elke speler dat middelpunt bereikt; Van 10% van de spelers wordt verwacht dat ze er niet in slagen hun voorspelling van het 10e percentiel te halen en 10% van de spelers wordt verondersteld hun voorspelling van het 90e percentiel te halen. Dit punt kan verrassend veel verwarring veroorzaken. ZiPS gaf prognoses van het slaggemiddelde van .300 aan twee spelers in 2024: Luis Arraez En Ronald Acuna jr. Maar dat is niet hetzelfde als ZiPS denkt dat dat alleen het geval zou zijn zijn twee .300 slagmensen. Gemiddeld dacht ZiPS dat er 22 hitters zouden zijn met minstens 100 slagbeurten om .300 te overschaduwen, niet twee. Uiteindelijk waren het er vijftien (ZiPS schatte voor het tweede jaar op rij hoog in op de BA-omgeving).
Een ander cruciaal ding om in gedachten te houden is dat de basisprojecties van ZiPS geen voorspellers van de speeltijd zijn; door het ontwerp heeft ZiPS geen idee wie er in 2025 daadwerkelijk in de majors zal spelen. Met dit in gedachten maakt ZiPS zijn projecties alleen voor hoe spelers zouden presteren in fulltime Major League-rollen. Door ZiPS te laten vertellen hoe iemand zou presteren als fulltime speler in de grote competities, is het gebruik van een projectiesysteem veel interessanter dan wanneer het mij zou vertellen hoe diezelfde persoon zou presteren als parttime speler of als minderjarige. leider. Voor de dieptegrafieken die in elk artikel live gaan, gebruik ik de FanGraphs Depth Charts om de speeltijd voor individuele spelers te bepalen. Omdat we het over teamconstructie hebben, kan ik ZiPS voor een toepassing als deze niet aan zijn lot overlaten. Het is dezelfde reden waarom ik aangepaste dieptegrafieken gebruik voor teamprojecties tijdens het seizoen. Er zit een probabilistisch element in de ZiPS-dieptekaarten: soms speelt Joe Schmo een heel seizoen, soms mist hij speeltijd en moet Buck Schmuck ingrijpen. Maar het basisconcept is heel eenvoudig.
Wat is er nieuw in 2025? Afgezien van de talloze kalibratie-updates waren veel van de toevoegingen onzichtbaar voor het publiek: dingen over de kwaliteit van leven waarmee ik de projecties sneller en met meer flexibiliteit op de inputs kan uitvoeren. Een gevolg hiervan is dat ik voor de eerste keer ooit een update voor het voorseizoen kan doen die de prestaties van de voorjaarstraining weerspiegelt. Het betekent niet een ton, maar het betekent een klein beetje, en het is iets waar Dan Rosenheck van is De Econoom zo'n tien jaar geleden aangetoond. Nu ik in minder dan 36 uur een hele reeks ZiPS op twee computers kan uitvoeren, kan ik deze binnen een redelijke tijd omdraaien en op FanGraphs zetten, waardoor het een haalbare taak wordt. Een kleine verbetering is beter dan geen!
De andere verandering is dat relievers, te beginnen met eventuele projecties die tijdens de voorjaarstraining worden uitgevoerd, veilige projecties in ZiPS zullen hebben. Eén ding waar ik veel tijd aan heb besteed, is het ontwikkelen van een machine learning-aanpak voor saves, die zich richt op eerdere rollen, contractinformatie, tijd doorgebracht met het team en andere werpers die beschikbaar zijn op de selectie. Dit stond al een tijdje op mijn to do lijstje en ik ben blij dat ik er aan heb kunnen beginnen. Het is gewoon onpraktisch om met deze teamrundowns buiten het seizoen om te gaan, omdat de selecties de komende vier maanden in beweging zullen zijn.
Heeft u vragen, suggesties of opmerkingen over ZiPS? Ik zal proberen zoveel mogelijk te beantwoorden als ik redelijkerwijs kan beantwoorden in de reacties hieronder. Als de projecties nu of in het verleden waardevol voor u zijn geweest, zou ik u ook willen aansporen dat te doen overweeg om een FanGraphs-lid te wordenmocht u daartoe de mogelijkheid hebben. Het is dankzij uw voortdurende en zeer gewaardeerde steun dat ik een groot deel van dit werk al zoveel jaren gratis beschikbaar kan houden voor het publiek. Het verbeteren en onderhouden van ZiPS is een tijdrovende onderneming en de ondersteuning van de lezers geeft mij de flexibiliteit om een obsceen aantal uren in de ontwikkeling ervan te steken. Het is moeilijk te geloven dat ik nu al bijna de helft van mijn leven ZiPS aan het ontwikkelen ben! Hopelijk hebben de voorspellingen en de dingen die we over honkbal hebben geleerd je een rendement op je investering opgeleverd, of op zijn minst een kleine mate van entertainment, of het nu gaat om blijheid of woede.