Een eerste blik op de gestolen basisklassementen van Statcast


Kim Klement-USA TODAY Sports

Maandag zette Statcast de laatste stap in de richting van het doel om alle honkbalgegevens te consolideren op één website die zo onvoorstelbaar groot is dat zelfs Joey Gallo‘s slaggemiddelde kan aan zijn zwaartekracht ontsnappen. Baseball Savant heeft verbeterde klassementen voor honklopen onthuld, als aanvulling op het klassement voor extra honken die met een aparte basis kunnen worden ingenomen leaderboard voor basisstelenen er ook een toevoegen die de twee combineert tot een algemeen waardeklassement voor basisloop. (In een veel stillere zet die zelfs nog meer gevolgen zou kunnen hebben voor de super-duper data sukkels in je leven, introduceerde Baseball Savant ook schakelaars voor de eerste en tweede helft van het seizoen in zijn zoekfunctie.) Ik heb de afgelopen dagen naar de cijfers gekeken om te zien hoe deze nieuwe informatie ons begrip van het vak van honklopen zou kunnen veranderen, en ik zou graag mijn eerste gedachten willen delen.

Ik denk dat het grote voordeel van deze gegevens is dat ze ons veel zullen leren over hoe bepaalde spelers doen wat ze doen. MLB.com’s David Adler hebben een aantal leuke features van de nieuwe klassementen op een rijtje gezet, en als dat jouw ding is, zijn er inderdaad genoeg leuke features om je over te verbazen. Als je rond het klassement surft, kun je die on-base machine zien Juan Soto Het was niet verrassend dat alle spelers dit seizoen met 1.324 kansen een honk konden stelen. Dat kun je zien Mookie Betts krijgt uitstekende sprongen als hij steelt, waarbij hij 1,80 meter aflegt tussen het moment van de eerste zet van de werper en het moment van loslaten, de grootste afstand in het spel. Je ziet hoe anachronistisch dit is Laan Thomas‘s 26-uit-40 gestolen basisseizoen was echt waar.

Tot nu toe heb ik echter niets gevonden dat een revolutie zal teweegbrengen in de manier waarop we de waarde van honklopen als geheel zien. Dat is niet de schuld van Statcast; het is alleen zo dat de beschikbare gegevens al redelijk goed zijn, en dat de waarde van een gestolen basis al een tijdje bekend is. FanGraphs gebruikt al de extra bases van Statcast; ze staan ​​vermeld onder XBR op het geavanceerde tabblad van ons batting-klassement. We combineren dat aantal met wSB (gewogen gestolen honken en gevangen stelen runs boven het gemiddelde) om je BsR te geven, de totale boekhouding van het honklopen van een speler. Statcast laat u nu hetzelfde zien, wat resulteert in een algemene Baserunning Run Value-metriek, of BRV. Sinds 2016 hebben 528 verschillende spelers minstens 1.000 slagbeurten gemaakt. De correlatiecoëfficiënt tussen hun BsR en hun BRV is 0,99, of vrijwel identiek. De correlatie tussen BRV en HonkbalprospectusDe verdiende runs op basisstatistiek is .91. Dus als je naar de totale cijfers kijkt, zijn de drie bestaande statistieken voldoende vergelijkbaar om uitwisselbaar te zijn.

Als we alleen kijken naar de nieuwe gegevens voor runs die zijn gemaakt op basis van gestolen basispogingen, hebben de nieuwe metriek van Statcast en onze wSB nog steeds een correlatiecoëfficiënt van .94. Ze zullen duidelijk minder consistent zijn over een bepaald seizoen, maar over onze negenjarige steekproef lopen de cijfers min of meer op dezelfde lijn. Er is maar één speler wiens honken stelen volgens het ene systeem minstens 2,5 runs waard is, maar zijn team volgens het andere systeem runs kost. Dames en heren, maak kennis met het enigma dat bekend staat als Tommy Pham.

Op de een of andere manier geven onze cijfers aan dat Pham’s honksteling 5,9 runs waard is, terwijl Statcast hem op -3,0 runs heeft staan. Die discrepantie heeft een uiterst bevredigende symmetrie: in dit voorbeeld met 528 spelers staat Pham in onze cijfers op de 50e plaats van boven, maar in de cijfers van Statcast staat hij op de 50e plaats van onderen. Hoe kan er zo’n groot verschil bestaan ​​als de totale aantallen zo op elkaar lijken? En als dit soort verschillen mogelijk zijn, hoe komt het dan dat dit slechts bij één speler gebeurt?

Je kunt lezen hoe we de wSB berekenen in onze bibliotheek, maar de korte versie is dat we berekenen hoeveel runs elke speler maakt per kans op een steal, en dit vervolgens vergelijken met het competitiegemiddelde. Statcast doet hetzelfde, maar ze splitsen de gegevens gedetailleerder op, waarbij ze rekening houden met de situatie en het verwachte succespercentage “gebaseerd op de succeskans van al die gestolen basiskansen.” Als je op een speler klikt, kun je zien hoeveel runs hij/zij op zichzelf heeft gekregen – de standaard 0,2 runs per gestolen honk en -0,45 runs voor het worden uitgegooid – samen met de toegekende runs op basis van de werper, catcher en veldspeler. De cijfers van Pham kloppen niet zoals ik had verwacht – ze komen uit op -0,68 runner runs, -0,50 op basis van de werpers, -0,60 op basis van de catchers en -4,20 op basis van de velders, voor een totaal van -5,98, en niet het totale getal van -3,0 dat hem wordt toegeschreven – dus ik doe hier duidelijk iets verkeerd.

Met welke factoren rekening wordt gehouden, weet ik ook niet, maar het is niet moeilijk te raden. Heeft de werper een slechte controle over het lopende spel? Als dat zo is, krijgt u mogelijk minder krediet voor een gestolen basis, of wordt u mogelijk zelfs nog meer aangemeerd niet stelen. Als gevolg hiervan zou een speler het systeem kunnen bespelen door achteraan te staan ​​bij dubbele steals, te stelen in de eerste en derde situatie, of gewoon andere echt goede plekken te kiezen waar de kans om eruit te worden gegooid uiterst onwaarschijnlijk is. Onze cijfers zouden hen alleen maar crediteren voor het nemen van de extra bases, terwijl Statcast ze misschien een beetje zou kunnen docken omdat hun succespercentage niet veel hoger was dan je zou verwachten op basis van de situatie. Zoals ik al zei, dit zijn slechts gissingen, en zelfs als sommige correct zijn, weet ik niet zeker welk getal ik het meest zou vertrouwen. Vermoedelijk zal de moeilijkheidsgraad van de kansen van een speler in de loop van de tijd gelijk worden, maar Pham’s sterbeurt als uitschieter geeft aan dat dit niet altijd het geval zal zijn.

Ik ben nog niet klaar met het verkennen van de gegevens en er zijn allerlei splitsingen die moeten worden onderzocht. Als u bijvoorbeeld de Statcast-gegevens in een CSV plaatst, ziet u dat ze de gegevens opsplitsen voor extra bases, onderverdeeld in drie categorieën met uiterst pakkende namen: Swipes, Snipes en Freezes. Ik hoop dat deze tijdens het spel aanslaan. Maar zoals zo vaak het geval is, is het grote voordeel van Statcast het op een nieuwe manier begrijpen van waarschijnlijkheden. Ik weet niet zeker hoe gedetailleerd het wordt, en ik weet niet zeker hoeveel context teveel zou zijn. Stel dat je een basis steelt op een curveball in de modder. Moet je wat krediet verliezen omdat het een makkelijke worp is om op te stelen, of moet je wat krediet verdienen omdat je wijselijk een makkelijke worp hebt gekozen om op te stelen? Vermoedelijk zijn de zaken in evenwicht als de steekproefomvang groot genoeg is, dus misschien is een eenvoudiger aanpak het beste.

Hoe dan ook, het is leuk om te weten, zoals Adler opmerkte, dat Elly De La Cruz En Bobby Witt jr. beide maken bijzonder slechte sprongen, wat logisch is omdat ze zo snel zijn dat ze nooit de moeite hebben hoeven nemen om goede sprongen te maken. Als ik de Reds of de Royals zou coachen, zou ik zeker blij zijn om te weten dat er zo’n eenvoudige manier is waarop mijn sterspeler zijn spel zou kunnen verbeteren. Tot nu toe is dat mijn grootste afhaalpunt. Afhankelijk van de situatie is een gestolen honk gewoon een gestolen honk, maar door rekening te houden met het vermogen van de werper en de catcher om lopers vast te houden, kunnen de voorsprong, de worp, de sprong, de aangooi, het tikken en de brandslang van Statcast-gegevens worden bepaald. schets een beeld van de moeilijkheidsgraad. Ik weet zeker dat hier bruikbare gegevens zullen zijn, maar voorlopig helpen de cijfers het verhaal op een nieuwe manier te vertellen.



Source link