官方微博
关注微信公众号 关注微信公众号

当前位置: 福建体育彩票官网 > 三垒安打 >

这代表两名球员的AVG不存在差异

2018-08-20 17:01 - 织梦58 - 查看:
在现实糊口中,我们想晓得的是实在的参数而不是鸿沟,因而,贝叶斯可托区间是更合适的选择。在这种环境下,我们只对球员的实在AVG感乐趣。安打率 计算 在Rasmus Bth的另一篇文章中,比力了分位数区间和最高密度区间,并供给了简单了了的对比图。以下是六种分

  在现实糊口中,我们想晓得的是实在的参数而不是鸿沟,因而,贝叶斯可托区间是更合适的选择。在这种环境下,我们只对球员的实在AVG感乐趣。安打率 计算

  在Rasmus Bth的另一篇文章中,比力了分位数区间和最高密度区间,并供给了简单了了的对比图。以下是六种分歧后验分布中的众数和笼盖了95%的概率密度的最高密度区间。

  若是按照球员的冲击率(AVG)陈列,你能够看到第一名是Dominic Smith(DS),而Gavin Cecchini(GC)则排第二。那他们是优良球员吗?我不晓得。但若是仅看AVG,DS以1.000的AVG 值位于榜首。

  生成模子就是当给定参数作为输入时生成数据的模子。这些输入参数用于生成一个概率分布。例如,若是晓得平均值和尺度差,则能够通过运转以下代码轻松生成所选数据集的正态分布数据。稍后我们会看到其他类型的分布在贝叶斯阐发中的使用。

  就DS和GC的AVG来看,它们的众数和中位数看起来并没有多大区别,若现实环境确实如斯,两位选手AVG的HPD区间和分位数区间该当也大致不异。让我们看看它们到底长什么样。

  若是我们收集一个新样本,计较相信区间,并多次反复这个过程,那么我们计较出的95%的相信区间将包含实在的AVG值。

  棒球统计数据包含良多目标,有些目标的定义很直观,有些则比力复杂。我选择察看的丈量目标是冲击率 (Batting Average,AVG)。在棒球中,冲击率由安打(Hits,安打是棒球活动中的一个名词)次数除以打数来定义,凡是切确到小数点后三位。

  贝叶斯概率反映了人的客观信念。按照这种理论,我们能够认为实在参数处于可托区间内的概率是可丈量的。这种说法很吸惹人,由于它使我们可以或许间接用概率对参数进行描述。

  计较的成果及生成的图形显示出这两名球员AVG的差别在-0.162到0.033之间(我们用DvG(DS-GC)暗示他们AVG的差别,若是DvG为正暗示DS更好,反之则GC更好)。

  有了上面的后验分布,我有95%的把握断定DS线之间。安打率 计算但这个范畴太大了。换句话说,在没有先验学问而且在只察看了一次试验的环境下,我不太确定DS的实在AVG是几多。

  在场景三中,我剔除了所有生成的成果与察看数据不分歧的参数,然后进行模仿采样。可是这品种型的随机样本生成和过滤计较量很大,而且运转迟缓。

  在谷歌上搜了一下,我发觉“近年来,全联盟的平均击打率凡是在0.260摆布”。若是是如许,那么DS和GC的AVG似乎太高了。通过进一步察看两位选手的打数(AB)和安打(H),明显DS只要1个AB而GC有7个。而且在查看其他选手的AB后发觉,2018年最高的AB为13,而2017年纽约大城市队的最高AB为60。

  有人质疑冲击率的感化,但正如C. Trent Rosecrans所说,“虽然如斯,冲击率相较于其他统计数据而言确实是有汗青和布景意义。我们都晓得AVG为0.300打者的程度怎样样,我们也晓得AVG为0.200打者有多糟,以及AVG为0.400打者有多棒。”

  本文将通过贝叶斯理论来阐发棒球选手的射中率,手把手教你若何操纵贝叶斯理论进行阐发。说实话,我不是一个别育迷,也很少看体育角逐。

  有人说棒球可能是世界上数据记实得最细致的活动。汗青上曾经累积了近百年来的棒球统计数据。

  也许有了更多的数据后,我能够确定他们之间的差别。终究,这就是贝叶斯理论的精髓地点。并不是说本相不具有,而是领会本相的过程很迟缓,跟着手艺的不竭前进,我们能做的就是不竭批改我们的认知。

  起首我将定义一个从Fox Sports抓取球员数据的函数,然后抓取球员的春季锻炼或常规赛季的击球统计数据。

  相信区间:当我们用这类数据计较相信区间时,有95%的相信区间会包含AVG的实在值。

  Beta分布是一个持续概率分布,它有两个参数,alpha和beta。Beta分布最常见的用处之一是对一个尝试的成功概率的不确定性进行建模。

  最初,先验概率是手印型在处置数据之前就已有的消息。好比,事务能否等概率?能否有一些先前的数据能够操纵?能否能够做出有根据的猜测?

  在这个场景中,假设我不只有2017年春季锻炼的统计数据,还有2017年常规赛的统计数据。那么这会若何影响后验成果和结论呢?

  在美国职业棒球大联盟(MLB)中,春季锻炼是在常规赛季起头之前的一系列操练和表演赛。

  最大后验密度(Highest Posterior Density,HPD)区间是我们能够对后验密度函数利用的另一种可托区间。HPD区间会选择包罗众数在内的最大后验概率密度值地点的最窄区间。

  分位数区间包含中位数,中位数落在区间左侧的概率是50%,落在右侧的概率也是50%,同时以95%的可托区间为例,落在区间肆意一侧的概率是2.5%。

  在其他体育活动,特别是足球和篮球活动中,球员统计数据的意义可能会因球场内其他处所发生的主要事务而被淡化。而棒球这项活动中,统计数据在比力球员表示上阐扬了主要感化。

  因而,我们能够借助一些东西使采样器在高概率的区域破费更多的时间以提高效率。像Pymc3如许的概率编程东西能够通过利用诸如HMC-NUTS之类的巧奇谋法来无效地处置采样过程。

  本文次要是遭到了RasmusBth在Youtube上的系列节目“贝叶斯数据阐发入门”的开导。RasmusBth很是长于让你直观地舆解贝叶斯阐发,不是抛各类复杂的公式给你,而是指导你一步步去思虑。

  “非论你领会与否,但棒球的魅力就在于切确度。没有其他活动像棒球如许完全依赖于活动数据的持续性,统计性和有序性。棒球球迷比注册会计师还要关心数字。”

  很多人认为这个概念是理解概率区间的一种更天然地体例,也很容易注释。相信区间使你能判断某区间能否包含实在的参数。

  然而,一般来说AVG跨越0.300曾经是优良的打者了,这里对AVG的估量意味着这名球员能够是最差或是最好的打者。所以我们需要更多的数据来缩小可托区间的范畴。

  从成果来看区间包罗了0.000,这代表两名球员的AVG不具有差别。因而,即便有证据表白GC比DS更优良(由于DvG的后验分布在负值区域的面积比在正值区域的面积更大),可是我有95%的把握鉴定这两名球员的AVG并无差别。

  我们将从定义的平均分布中随机拔取一个概率值,并将此概率用作生成模子的参数。假设我们随机挑选的概率值为0.230,这意味着在二项分布中成功的概率为23%。

  留意两者的区别,可托区间是在给定固定鸿沟环境下对参数值的概率描述,相信区间是在给定固定参数值环境下的鸿沟概率。

  因而,这意味着我对球员一窍不通,以至无法对AVG做任何合理的猜测。我假设AVG是0.000和AVG是1.000的概率不异,或者等于AVG值为0和1之间任何数值的概率。

  试验次数为1(DS有1个AB),若是生成模子的成果与我们察看到的成果相婚配(DS有1个H),那么概率值为0.230连结不变。若是我们反复这个过程并进行过滤,最终将获得一个概率分布,由它所获得的成果与我们察看到的成果不异。

  问题是,我想按照AVG来判断谁是更好的球员,目前看来,我还不克不及确定。至多我有95%的把握鉴定这两名球员的AVG相差无几。

  在数据科学或统计学范畴的浩繁话题傍边,我感觉既风趣但又难理解的一个就是贝叶斯阐发。在一个课程中,我无机会进修了贝叶斯统计阐发,但我还需要对它做一些回首和强化。

  出格地,在已知n次试验中察看到k次成功的前提下,X的前提分布是一个alpha=k+1、beta=n- k+1的Beta分布。

  举例来说,在完成一次打数(At Bats,是棒球活动中的一个成就计较名词,指击球手完成冲击的次数)过程中,谁在外野打球对于击球手能否能够击中本垒打影响甚微。

  假设我对球员们过去的表示一窍不通,2018年春季锻炼是独一的数据来历,因而我不并晓得AVG的取值范畴。那么,我该当若何解读2018年春季锻炼的统计数据?

  从小我概念出发,我就是想更好地舆解贝叶斯理论,以及若何将它使用于现实糊口中。

  在进入代码内容之前,我会简要引见一下Rasmus Bth在他的视频中所讲的内容。

  然而,仅仅收集统计数据并不会让棒球在统计方面变得风趣,也许更主要的是这项活动本身的特点。

  除了文中所附的代码块,你也能够在文末找到整个法式在Jupyter Notebook上的链接。

  此刻我们察看到的数据表白当有1个AB和1个H时,AVG是1.000,这能够用二项分布来暗示。具有二项式分布的随机变量X暗示在n次独立的是/非试验序列中成功的次数,此中每次试验成功的概率是p。

  我想比力两名选手,看看谁在AVG方面表示得更好。我察看的数据来自2018年春季锻炼,先验学问是2017年的春季锻炼和常规赛。此刻我要比力DS和GC这两名选手的冲击率。

上一篇:上一篇:当投手取得2好球时           下一篇:下一篇:取得本季新高的四连胜