第一章 引 言 §1 序
一、先修课程 1.线性代数 2.概率论 3.数理统计 4.相应的统计软件 二、参考书目
1.张尧庭:《定性资料的统计分析》,广西师范大学出版社出版,1991、11; 2.易丹辉:《非参数统计——方法与应用》,中国统计出版社,1996、3; 3.S.西格耳著:《非参数统计》,科学出版社,1986、8;
4.袁卫、易丹辉、何晓群等:《新编统计学教程》,经济科学出版社,1999、2; 5.陆璇:《数理统计基础》,清华大学出版社,1998、9; 6.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;
7.洪楠等:《STATISTICA for Windows统计与图表分析教程》,清华大学出版社&北方交通大学出版社,2002、10。 三、几点要求
1.复习数理统计的有关内容; 2.及时消化课件的内容; 3.按时完成作业; 四、简单回顾
在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。
矩
点估计
估 计
区间估计
统计推断
正态参数
假设检验
其它单参数分布族
图1-1 统计推断内容
在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t—检验,F—检验,和最大似然比检验等.
然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。然而,在总体的分布族已知的情况下,不需要任何先验知识就成为它的缺点;因为它没有充分利用已知的关于总体分布的信息,所做出的结论就不如参数方法得到的精确.
五、假设检验的回顾
第 页
1
2LS ML 位置参数 尺度参数
1.有关概念
假设、检验、第Ⅰ类错误(弃真错误,概率为P、第Ⅱ类错误(存伪错误,概率为P、(xD1),0)(xD0),1)尾概率、势(power)
势:在H1正确时,拒绝H0的概率,即P(xD1),11P(xD0),1。
注:①一般地,势越大,则检验越有效;②势的大小信赖于许多因素:显著性水平、参数和真值、样本容量、检验统计量:③一般地利用信息越多的统计量,势越大。
2.检验步骤 ①提出原假设; ②选取统计量; ③构造小概率事件; ④判断。
3.连续性修正(continuity corrections)
在实践中,由于离散型分布的概率往往不好求,常用连续性分布来近似它(常用的为正态分布),但在近似时用到一个修正。如:
P(Xx)P(x11Xx)22● P(Xx)1P(Xx)2图1-2 连续性修正
【例1-1】设X~Bin(n,p),则P(Xx)可由(x1/2npnp(1p))来近似。
【例1-2】设X服从超几何分布,即P(Xm)中pm/N。
注:连续性修正还有其它的方法,详见教材P8。 六、测量及测量的层次 1.概念
mnmCMCNMnCN,则P(Xx)可由(x1/2npnp(1p)(Nn)/(N1))来近似,其
所谓测量,就是根据一定的法则,给事物或事件分配一定的数字或符号。如测量职工对所从事职业的满意程度,可以分配0到10的数字,不满意给0分,很满意给10分,介于二者之间的分配中间的数字。于是,0至10这些抽象的数字符号就依据上述规定的法则,表示职工对所从事职业的满意程度。
2.作用
测量的作用在于准确的描述事物的类型、性质、状态,同时对事物之间的差异进行准确度量和比较。事物只有通过测量,才有可能选择适当的统计模型或公式,进行一系列的统计分析。
3.类型
目前,广泛采用的测量层次为四种类型的尺度:定类尺度、定序尺度、定距尺度和定比尺度。 4.性质
测量时,无论哪一种测量层次,都必须具有完备性和互斥性。完备性,是指用这种尺度测量某事物时,必须对这一事物所包括的各种情况都能进行测量。如测量性别时,应包括性别的各种情况:男、女,不能有遗漏。互斥性,是指用这种尺度测量时,不能有任一被测量对象跨越类别,即事物的各种情况具有互相排斥的不同值。如测量性别时,分为互斥的两类:男、女,某人或属于男,或属于女,不能既能属于男又属于女。测量层次的完备性和互斥性,可以保证测量的准确无误。
第 页
2
(一)定类尺度 1.概念
定类尺度是按照事物的某些特征辨别和划分它们异同的一种测量层次,也被称作类别尺度、名义尺度。如性别、职业、民族等,都是按照事物的性质、类别区分的,均属定类尺度。
定类尺度只能将事物分类,不能用以反映事物的数量状况,有时,为了识别不同的类别,也用一定的数字和符号表示某类事物。如职工对所从事的职业是否满意,可以用“0”表示不满意。用“1”表示满意,这仅仅是人们赋予的识别标志,并不说明事物的数量。
2.适合的运算
定类尺度是最低一个层次的测量尺度,它不能进行算术运算,而只能进行“=”或“≠”的逻辑运算。 3.常用的特征量
定类测量数据的描述性统计量有:众数、频数等。 (二)定序尺度 1.概念
定序尺度是按照事物的某种特征依顺序和级别进行排列的一种测量层次,也称作顺序尺度、等级尺度。例如,测量职工的文化程度可以采用定序尺度,分为:大专以上、中专或高中、初中、小学,显然前面的类别要比后面的类别高,即前面的文化程度最高,依次降低。定序尺度不仅能够区分事物,即对事物进行分类,而且可以反映事物在高低、大小、强弱上的差异,也就是使类别之间具有次序比较关系。
2.适合的运算
定序尺度是比定类尺度高一层次的测量,它不仅能进行“=”或“≠”的运算,还能进行“>”、“<”的运算。 3.常用的特征量
最适合描述定序尺度中数据集中趋势的统计量是中位数,反映离散程度的是分位数。 (三)定距尺度 1.概念
定距尺度是不仅能将事物区分类别和等级,而且可以确定其之间的数量差别、间隔距离的一种测量层次,也称作间隔尺度、区间尺度。
【例1-3】对学生学习成绩的测量,甲为90分,乙为85分,甲乙学生成绩间距为90一85=5分,这一测量就是定距尺度。定距尺度没有绝对的零点,也就是说,在这种测量中,任何两个间隔的差异与零点无关。例如,某门课程成绩的百分制测量,0分不表示某考生没有这门课方面的知识,90一85=5分,只表明甲生比乙生在这门课考试成绩中多5分,并不能说明甲生掌握的这方面知识是乙生的大约1.06倍(90/85)。定距尺度在实际应用中较为普遍,象温度、智商等都是定距测量。定距尺度是一种定量的测量层次,它不仅能反映事物的类别和顺序,而且能反映事物的具体数量和数量之间的距离。
2.适合的运算
它是比定序尺度又高一层次的测量,不仅能进行“=”、“≠”,“>”、“<”的运算,还能进行“十”、“一”的运算。 3.常用的特征量
定距尺度中描述性统计量,除了反映集中趋势的众数、中位数、均值外,还有反映离散程度的方差、标准差等,一般的定量统计方法都可以在这一测量层次应用。
(四)定比尺度 1.概念
定比尺度是在定距尺度上增加绝对零点的一种测量层次,也称作等比尺度、比率尺度。例如对职工年龄的测量。这里0岁是非任意的,一个人年龄不可能比0岁更小,这一测量尺度对所有人都一样。若甲为40岁,乙为20岁,则甲的年龄是乙的2倍,这就是定比尺度的测量。是否具有实际意义的零点存在,是定比尺度与定距尺度的唯一区别。
2.适合的运算
定比尺度由于有一绝对零点存在,因而比定距尺度更利于反映事物之间的比例或比率关系,它是所有测量层次中最高一层的测量,不仅能进行“=”、“≠”,“>”、“<”,“十”、“一”的运算,而且能进行“×”、“÷”的运算。
3.常用的特征量
在定比测量中,描述性统计量不仅有算术平均的均值,还有几何平均的均值,不仅有方差、均方差,还有变异系数等。 (五)四种测量尺度的关系
四种测量尺度有着不同的特点,其主要表现在作用和运算性质上,但它们之间又有较为密切的关系。
第 页
3
首先,这些测量尺度之间有着包含关系,即高一层次的测量尺度总是包含低层次的测量尺度。定序尺度包含了定类尺度所有运算性质,定距尺度包含了定序、定类尺度所有运算性质,而定比尺度则包含了所有测量层次的运算性质。
其次,四种测量尺度之间,低级的测量尺度往往能用较高级的测量尺度形式表示。
【例1-4】对学生考试成绩的测量,进行定类测量可分为及格、不及格;若将及格的成绩高低排序,可分为优、良、中、及格,这是定序尺度;若再将各顺序级给出等级分,则按百分制测量,优:90分以上,良:80一90分,中:70—80分,及格:60一70分。对同一事物的测量可以用多种尺度时,为避免信息的丢失,应尽量将低层次测量尺度变成较高层次的尺度来测量。
由于不同的测量层次具有不同的数学性质,因而在统计资料的收集、整理、分析过程中,往往需要采用不同的统计方法,也就是说,统计方法的运用总是与所选择的测量尺度相联系。在实际应用时,要首失弄清统计方法适用的测量尺度与所获得的资料采用的测量尺度是否一致。
七、参数统计与非参数统计的比较
非参数统计是数理统计学的一个分支,顾名思义,这个分支是与“参数统计”相比较而存在的。因此,我们将通过一些常见的统计问题的参数与非参数的提法的对比,以及解决这些问题的参数与非参数方法的对比,来回答“什么是非参数统计和非参数统计方法”的问题。我们将概述这个分支的一些基本特点,更确切地说,这无非就是关于参数与非参数方法优劣对比的问题。不难想像到,这优劣性大体上是互补的:—者的优点往往就是另一者的弱点。
此外,我们也应注意到:非参数统计的范围也不能截然明确地界定。因为存在一些不很典型的情况。 【例1-5】设X1,X2,,Xm和Y1,Y2,,Yn分别是从具体分布F和G的一维总体中抽出的简单样本,且假定“混合样本”H0:FG H1:FG
(0.1)
(X1,X2,
,Xm,Y1,Y2,,Yn)全体相互。要依据这些样本去检验“两总体具有相同分布”这个原假设H0,即:
在数理统计学中,习惯上称这个检验问题为“两样本问题”。我们来分别考虑这个问题的几种情况: 情形一:设根据问题的实际背景,我们有理由假定F和G为具有相同方差的正态分布,即
F~N(a,2),G~N(b,2)
(0.2)
其中,a,b,2都未知,ab,20,这时检验问题(1.1)转化为
H0:FGH0:ab
2(0.3)
在这个假定下,总体分布(F,G)只依赖于三个未知参数a,b,。与此相对应,检验问题(1.1)归结为检验这些未知参数是否满足某种条件,即(1.3)。在数理统计中,对那些其总体分布族(或称统计模型)只依赖于有限个实参数的问题,通称为“参数统计问题”。本例在假定(1.2)之下,是一个典型的参数统计问题。
处理检验问题(1.3)最常用的方法,是所谓“两样本双侧t检验”,学过基本统计的读者都清楚它,故其细节不在此赘述. 情形二:如果我们对问题的背景所知甚少,以致不能对总体分布F和G的类型作何假定,则我们只好认为F和G都完全未知.也许我们可以对F和G施加某些一般性的假定,如F与G都在(,)处处连续之类。在这样宽广的假定下,我们再不能使用通常的两样本t检验因为它所规定的检验水平不再适用于如此宽广的原假设,而且对某些对立假设(F、G),其功效可以非常之低。
处理这个问题的一个方法是:
检验:分别以Fm和Gn记X1,X2,,Xm和Y1,Y2,,Yn的经验分布函数:
(0.4) (0.5)
Fm(x)#{i:1im,Xix}/m,x Gn(x)#{i:1im,Xix}/n,x
Fm和Gn分别是F和G的估计。故可以设想:当原假设H成立,即FG时,Fm和Gn应趋向于接近。以TsupFm(x)Gn(x)作为衡量Fm与Gn接近程度的一个指标,而得出如下的检验:当TC时否定H0,不然就接受H0,常
x数C根据样本大小m,n及给定的检验水平定出。
在本问题中,总体分布(F,G)不能用有限个实参数去刻划(不论你把参数个数取得多大)。这样的问题就称为非参数统计问题。所谓非参数统计,就是讨论非参数统计问题的数理统计学分支。
情形三:现在我们讨论一种中间情况。设想X是一种产品在一定生产工艺下的质量指标,而Y是该产品在另一生产工艺下的质量指标。设有理由认为,改变生本工艺不影响指标的概率分布,而只能使此分布发生一个平移。也就是说,若以F(x)记X的分布,则Y的分布为F(x),这里是一个未知常数。在这个假定下,“X、Y同分布”的假设相当于0。因此(1.1)归结为:
H0:0,H1:0
第 页
(0.6)
(1.6)是一个很重要的假设检验问题,有关其处理方法有不少讨论。要注意的是在本模型中,我们假定F未知(当然,也可以讨
4
论F已知的情况。总是未知的),因而比正态模型(1.2)为广。另一方面,这模型又比为对后者而言,两分布F、G之间毫无关系,而在此F、G之间有关系G(x)F(x)。
检验中的模型窄一些,因
虽然表面上看,(1.6)象是一个参数检验问题:假设中只涉及而它是一个实参数,其实不然。因为总体分布与F和都有关,而分布F可以任意(或受到一些一般性的,如连续、有概率密度f以至f可导之类)。故按前面提出的标准,(1.6)应视为一个非参数检验问题.如果摆得仔细一点,我们可以这样说:总体分布(即统计模型)中包含两个成分:一个是分布函数F,它是非参数性的(不能用有限个实参数去刻划);一个是,它是一个实参数,这部分是参数性的.近来有些学者(如P.J.Bickel)把这种两者得兼的模型称为“半参数模型”。从这个名称看,更多的是着重这模型的参数性质。因为在应用上,我们关心的主要对象就是,它反映两种生产工艺下产品质量的平均差距,因此我们也可以考虑的估计问题。例如,在F的期望有限的条件下,的一个无偏估计是
1n1mˆYiXi
ni1mi1ˆmed(Y,Y,12(0.7)
在分布F有“厚尾”的情况下,这个估计的统计性质不一定好,这里可考虑改用样本中位数:
,Yn)med(X1,X2,,Xm)
(0.8)
1.参数统计与非参数统计(Non Parameter Statistics)
在数理统计学中,统计检验的种类很多,而每一种统计检验都与一种模型和一种测量要求相联系,只有在一定的条件下,某种统计检验才是有效的,而模型和测量要求则具体规定了那些条件。对那些其总体分布族或称统计模型只依赖于有限个实数的问题,通常称为“参数统计问题”,也就是说,总体分布服从正态分布或总体分布已知条件下的统计检验,称为参数检验,研究这一问题的统计分支称为参数统计。参数统计的大部分方法要求所分析的数据至少是定距尺度测量的结果。如统计学中的t检验、F检验等,都属于参数检验。
当总体分布不能由有限个实数参数所刻划的统计检验,称为非参数检验,也就是说,统计检验的正确、有效并不依赖于总体的一个特定的统计模型即并不取决于总体分布时,称为非参数检验。非参数检验通常认为是总体分布不要求遵从正态分布或总体分布未知条件下的统计检验,研究这一问题的分支称为非参数统计。非参数统计方法可以适用低于定距尺度测量的数据。目前,关于什么样的统计技术准确地说是非参数统计技术并没有一个普遍性的一致认识。上面的论述是本书所用的定义范围。
从上面的论述可以看到,非参数检验的假定条件要比参数检,验宽松得多,不仅对总体分布,而且对数据的测量层次。因而,其应一用的范围要比参数检验广泛。表l—l概括了各种测量层次的数学性质及常用的描述统计量和统计检验种类。
表1-1 四种测量层次及适宜的统计量 测量层次 数学性质 描述统计量 众 数 定类尺度 =、≠ 频 率 列联系数 =、≠ 定序尺度 <、> =、≠ 定距尺度 <、> +、- =、≠ 定比尺度 <、> +、- ×、÷
2.“非参数”的含义(和参数相比)
第 页
5
中位数 百分位数 Kendall τ Spearman r 平均值 方 差 Pearson r 几何均值 标准差系数 多重相关系数 适合的统计检验 非参数检验 参数检验与非参数检验 (1)首先是非参数模型(模型不同)
参数模型是指总体或样本的分布能够由有限个参数确定,即分布的模式已经知道,而其中的一些具体细节未知。 非参数模型是总体或样本的分布不能由有限个参数确定,或关于总体分布的信息一无所知。 (2)和参数统计中面临的问题不同(问题不同) 参数统计中主要面临的是模型参数如何估计的问题。 非参数统计中则主要面临:
①一组的样本是否是同分布的; ②两个变量是否; ③两组样本是否取自同一总体。 (3)使用的统计量不同(统计量不同)
其统计量应该具有“分布无关性(distrbution-free)”,值得注意的是这里的与分布无关,指的是与总体的分布无关,而不是指与所有的分布无关。如:广泛使用秩统计量。
3.非参数统计的优点
非参数统计是相对于参数统计而出现的,其优点也应在与参数统计的对比中考察。
(1)适用面广。从表1—1可以看出,非参数统计方法的适用面较参数统计广。它不仅可以用于定距、定比尺度的数据,进行定量资料的分析研究,还可以用于定类、定序尺度的数据,对定性资料进行统计分析研究。如利用问卷调查资料,进行居民对某几种商品质量满意程度是否相等的分析研究;利用测验,分析研究居民对几种房改方案的支持率是否有差异等等。而这些方面的研究是参数统计方法所不能及的,只有应用非参数统计方法。
(2)假定条件较少。经典的参数统计要求被分析的数据的总体遵从正态分布,或至少要遵从某一特定分布且为已知。而非参数统计假设条件比较少,并不要求总体分布遵从什么具体形式,有时甚至不需要什么假定,因此更适合一般的情况。
(3)具有稳健性。稳健性(Robustness)反映这样一种性质:当真实模型与假定的理论模型有不大的偏离时,统计方法仍能维持较为良好的性质,至少不会变得很坏。参数统计方法是建立在严格假设条件基础上,一旦假定条件不符合,其推断的正确性就会不存在。非参数统计方法由于都是带有最弱的假设,对模型的很少,因而天然地具有稳健性。这是非参数统计方法常被使用的一个理由。
4.非参数统计的缺点
(1)当定距或定比尺度测量的数据能够满足参数统计的所有假设时,非参数统计方法虽然也可以使用,但效果远不如参数统计方法。这时,如果要采用非参数统计方法,唯一可以补救的办法就是增大样本容量,用大样本,弥补由于采用非参数统计方法而带来的损失。譬如说,通过90次观察获取的数据足以保证参数统计所要达到的精度,而若用非参数统计方法,可能至少需要l00次地观察以获取数据。
(2)在一些定距或定比尺度测量的数据中可以广泛地应用的参数统计方法并没有与其相对应的非参数统计方法(从目前研究的成果还没有发现)。由于参数统计方法对数据有较强的假定条件,因而当数据满足这些条件时,参数统计方法能够从其中广泛地充分地提取有关信息。非参数统计方法对数据的较为宽松,因而只能从其中提取一般的信息。当数据资料允许使用参数统计方法时,采用非参数统计方法会浪费信息。
此外,大样本方法在非参数统计中起着极重要的作用。可以说绝大多数常用的非参数统计方法,都是基于有关统计量的某种极限性质。有的情况下,方法的建立在原则上并不一定需要大样本理论,但基于严格的小样本分布而作出的解,需要进行极大量的计算因而在事实上不甚可行。
八、秩统计量(rank statistics)
在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序.如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank).数据有多少个观察值,就有多少个秩.在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关.这样就可以进行所需要的统计推断。
注意,非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution—free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关.
1.定义1.1:将样本(或合样本)记为X1,X2,,Xn,相应的顺序统计量记为Xn1,Xn2,,Xnn,若XiXnj,则Rij为Xi在样本(或合样本)中的秩,i1,2,,n。(R1,R2,,Rn)就是秩统计量,又称“秩次统计量”。
注:①秩即为某一数据在整个数据中的位置或次序;
第 页
6
②具体做法:X(k)(i1,,ink1)maxmin(Xi1,,Xink1),构成从小到大的顺序统计量,其中取最大是对一切
(i1,,ink1)(1,2,,n)进行。
【例1-6】假定有一组容量为6的样本,其观测值如下:
x1
5
解:顺序统计量为
x2
3
x3
8
x4
6
x5
2
x6
4
x5
2
x2
3
x6
4
x1
5
x4
6
x3
8
秩统计量为:R14,R22,R36,R45,R51,R63。 ③存在“结(tie)”的情况,Xi1Xi2。
其一:Ri1 5 2.性质 (1)具有“分布无关性” 秩统计量(R1,R2,,Rn)的取值是(1,2,,n)的任一排列,共有n!个。当样本为同分布时,秩统计量(R1,R2,,Rn)取任一排列的概率是相等的,为1/ n!。 (2)对样本任一单调增的变换,秩统计量具有不变性 因为在任一单调增的变换下,样本分量的大小顺序是不会改变的。 Ri1Ri2 2【例1-7】假定有一组容量为6的样本,其观测值如下: x2 3 x3 8 x4 5 x5 2 x6 4 秩统计量为:R14.5,R22,R36,R44.5,R51,R63。 第 页 7 §2 χ2检验 2检验(Chi—Square Goodness—of—Fit Test)属于拟合优度检验,它可以用来检验样本内每一类别的实际观察数目与某种条件 下的理论期望数目是否有显著差异。 一、基本方法 若一个事件只有两个可能的结果,如产品或合格或不合格,对某房改方案或赞成或反对,那么通常可以用参数检验的方法判定其观察频数是否显著地背离期望频数。但当一个事件可能有两个以上,如k个结果出现时,采用2检验是最适合的。 若样本分为k类,每类实际观察频数为f1,f2,,fk,与其相对应的期望频数为e1,e2,,ek,则统计量Q可以测度观察频数与期望频数之间的差异。其计算公式为: (fiei)2(实际频数理论频数)21 Q e理论频数i1ik(0.9) 很显然,观察频数与期望频数越接近,Q值就越小,若Q=0,则(1-1)式中分子的每—项都必须是0,这意味着k类中每一类观察频数与期望频数完全一样,即完全拟合。Q统计量可以用来测度实际观察频数与理论期望频数之间的紧密程度即拟合程度。 若零假设为观察频数充分地接近期望频数,即对于i1,2,,k,fi与ei无显著差异,则由于样本容量n充分大时,Q统计量 2(k1)。若近似地服从自由度dfk1的2分布,因而,可以根据给定的显著性水平,在临界值表中查到相应的临界值2(k1),则拒绝H,否则不能拒绝H。 Q00 二、应用 2检验运用的领域很多,在单样本问题中大致可以用来解决下面几类问题。 1.检验某个已知比例的假设 当假设总体的比例为某数值时,需要利用从总体中抽取的样本来检验这个假设是否成立,2检验是一种适用的方法。 【例1-8】某企业大批量连续生产某产品,要求不合格品率不大于5%。现从产品总体中,抽取100个进行检查,不合格品有12个,试以5%的显著性水平检验该批产品的不合格品率是否为5%。 分析:因为检验的是产品不合格品率是否为5%这一已知比例,因此是双尾检验。建立假设组为 H0:P0.05 H1:P0.05 在这批产品中期望的不合格品数为l00×0.05=5,合格品的期望数为95,即f1=l2,f2=88,e1=5,e2=95。于是由(1.9)式计算的Q统计量为: Q=(12—5)2/5十(88—95)2/95=10.316 2=3.841。由于Q=10.316>2=3.841,则根据显著性水平=0.05,自由度dfk1=1,查2分布表,得到0.050.05拒绝H0,这表明在5%的显著性水平上,不能认为该批产品合格率为95%,即不合格品率为5%。 NOTE:如果样本一开始分类就为两类,而其中一类的期望频数小于5,那么最好不用2检验而采用二项检验。 2.检验某种已知比例的假设 很多的现象之间往往会表现为某种比例关系,例如对同一种疾病,不同药物治愈的比率,不同类型贷款的偿还比率等等,为了检验某种预期的比例是否成立,可以来用2检验。 【例1-8】某金融机构的贷款偿还类型有A、B、C、D四种,各种的预期偿还率为80%、12%、7%和1%。在一段时间的观察记录中,A型按时偿还的有380笔,B型有69笔,C型有43笔,D型有8笔。问在5%显著性水平上,这些结果与预期的是否一致。 分析:这个问题属于要检验每一类型的出现概率与预期概率是否相等,即 H0:PiPi0H1:PiPi0其中P1P2Pk1 对于一切i1,2,,k 对于一切i1,2,,k 它仍可采用2检验,通过实际观察频数与理论期望频数是否有显著差异作出判断。 其中ei=nPi,这种方法是在n极限状态下导出的,故应用时,n应该足够大,Pi较小,即分组数k应较大,nPi不能太小。一 般要求:n≥50,nPi≥5,否则可以合并一些组进行。 8 第 页 1 H0:A:B:C:D类型偿还贷款的标准比率为80:12:7:1 H1:偿还贷款是一些其它比率 在观察的已偿还的500笔贷款中,A的预期偿还数为500×0.8=400,其它的以此类推。表1—2给出了计算Q统计量的过程及结果。 表1—2 Q统计量计算表 类 型 A B C D 合 计 fi 380 69 43 8 500 ei 400 60 35 5 500 fiei -20 9 8 3 —— (fiei)2 400 81 9 —— (fiei)2/ei 1.00 1.35 1.83 1.80 5.98 2=7.82,由于 根据给定的显著性水平=0.05,自由度df=k—l=4—1=3,查2分布表,得到0.052=7.82 Q=5.98<0.05表明在5%的显著性水平上不能拒绝H。,即观察比例与期望比例很为一致。 2检验也可以这样来判定:根据自由度df和计算的Q值,在2分布表上找到H。成立时的概率P,若P等于或小于,则 拒绝H。,否则不能拒绝H0。例1-8中,根据df=3,Q=5.98,查2分布表,Q值落在P=0.20和P=0.10所对应的4.与6.25二者之间,由于P=0.10>=0.05,不能拒绝H0。 公式(1.9)中,由于fin,ein,n为样本容量即各类观察频数之和,因而可以变形为: (fiei)2(f1e1)2(f2e2)2(fkek)2fk2f12f22Q(e1ek)2(f1fk)eeeeeeei1i12k12kkfi2/ein 其中,einPi0,Pi0为理论期望概率。 【例1-9】续例1-8,由于在例子中D类的期望频数等于5,较小,则应与邻近的类别合并(必须保证合并是合理的),从而减小k值而增加某些类别的ei值。若将C与D类合并,则A、B、C和D预期的概率分别为0.8,0.12,0.08。根据观察的结果,能否在5%的显著水平上,作出结论。 3.检验总体是否为某一分布 如果随机抽取的样本其数值为x1,x2,,xn来自概率密度函数未知的某一连续分布,将其总体的理论分布记作F0(x),实际观察数据的分布为F(x),检验总体是否为某一特定分布F0(x)的假设为: H0:F(x)F0(x) 对所有的x H1:F(x)F0(x) 对一些x 利用2检验可以作出判定。 将随机抽取的样本数据分为k组(要保证每组的期望频数至少是5,否则应将相邻组合并),以样本参数估计值作为总体特定分布的参数值(因为是大样本,故以样本值替代总体值),计算每一组的期望频数ei,再以(1.9)式计算Q统计量。由于某一特定分布可能有w个参数是固定的,因而Q统计量的自由度df=k一w一1。查2分布表,可以得到拒绝或不拒绝H。的结论。表1—3是拟合优度检验中几种分布的参数。 表1—3 拟合优度检验中几种分布的参数 分布 二项分布 (n次试验的) 泊松分布 正态分布 参数 一个试验成功的概率 估计值 ∑xf/n∑f w 1 1 2 df k-2 k-2 k-3 9 ,2 第 页 x x,s2 指数分布 F(x)1e-λx 1/λ 1/x 1 k-2 【例1-10】据以往经验,机床发生故障的频数服从均匀分布,某车间在一周内统计所有机床发生故障频数的资料如下: 星 期 故障次数 一 7 二 8 三 3 四 9 五 16 六 17 试问:故障频数是否服从均匀分布(0.05)? 分析:假设H0:一周内故障频数服从均匀分布。 表1—4 Q统计量计算表 周顺序 1 2 3 4 5 6 合计 Q=14.8,临界值6112实际频数ni 7 8 3 9 16 17 60 理论概率Pi 1/6 1/6 1/6 1/6 1/6 1/6 1 理论频数nPi 10 10 10 10 10 10 60 11.07,因此,拒绝原假设,认为不服从均匀分布。 【例1-11】两种不同牌号的茶哪个更好。 今有30人组成的品茶专家组,对A、B两种不同牌号的茶进行6种不同味道的检验。凡专家认为优者被记录下来,如表1—5。不同牌号的茶提供给专家品尝是随机的。 分析:两种不同牌号的茶中,A被选择是优的概率,可视为二项分布中一个试验成功的概率为多少的问题。由表1—5提供的方法,利用表中的数据,可以估计二项分布中的参数,即一个试验成功的概率,这里就是A被选择为优的概率。因此,判断A、B茶哪个更好,实际上就是判断表中的样本数据是否来自参数率越大,哪个牌号的茶更好。 Ho:F(x)为二项分布 H1:F(x)不是二项分布 由于对任何一个品尝专家来说,A牌号都能被选择l至6次,因此,按A被选择的次数整理数据,得到表1—6。其中,x表示A被一个专家选择的次数,f表示相应的专家人数,在这个问题中,对茶叶进行6个味道品尝检验,故n=6,参数的估计值就是 xfnf的二项分布总体。若是,则哪个牌号被选为优的概 xfnf=117/180=0.65。根据n=6,=0.65,查附表可得到Po,利用eNP0(N=∑f=30)计算期望频数,可以将实 际频数f与期望频数e比较,采用2检验判断观察频数与期望频数是否有显著差异,从而决定理论分布与实际分布是否一致,即是否服从二项分布。Q统计量计算过程如表1—7。 表1—5 专家检验茶叶味道结果统计表 专家 1 2 3 4 5 6 7 8 9 味 道 检 验 结 果 1 B B B A B A B B A 2 B B A A A B A B B 3 A B B A A A A A B 第 页 4 B B A A A A A B A 5 A A A A A A A A A 6 A A B A B A B A A A被选择的次数 3 2 3 6 4 5 4 3 4 10 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 A A A B B A B B A B B A A B A A B B B A A B A B A A B A B B A A A A B A B A B A B B B B B B B A A A A B B A A A B B A A B A B A A A A B B A A A A B A B B A B A B B A B A A A A A A A A A A A A A B A A A A A A A A A A A A A A A B A A A A A A A A A B A A 4 5 4 4 3 4 5 4 4 4 3 6 5 2 5 3 5 3 2 5 3 表1—6 数据整理 A被选择的次数(x) 0 1 2 3 4 5 6 合 计 频数(f) 0 0 3 8 10 7 2 30 2在表1-7中,由于第一、二、三组的期望频数均小于5,因此,将它们合并,计算结果Q=0.24720.057.82。所以不能拒 绝H。,换句话说,有95%以上的把握支持这批数据来自一个二项分布的假设,且参数估计值为0.65。这一结果表明,A、B两种牌号的茶叶中,A被选择是优的概率较大,因此,专家评价结果A茶更好。 表1—7 Q统计量计算表 第 页 11 第 页 12 §3 数据与数据变换 对于所取得的样本观测数据,虽然在非参数统计中无须知道有关其总体分布的任何信息,但我们应该充分挖掘样本数据的信息。 一、单样本模型(如果数据来自同一总体) 可以利用直方图2、盒子图(箱线图)3、茎叶图、Q-Q图4、P-P图5等看它的大概分布状况。观察其分布是否对称,是否有宽尾部,是否有离群点。 注:常用的图形还有:条形图、线图、面积图、圆图、高低图、帕累托图、控制图、误差条图、序列图、时序图(STATISTICA、EXCEL)。 二、多样本模型(数据来自不同的总体) 除了要作上面的讨论外,还要看这些样本的形状是否类似,样本之间的相关性。常用的图形有:雷达图,星座图等。 三、数据变换 在作非参数统计时,在不同的方法中,对总体分布的形状可能会有所要求。如:要求总体分布对称;要求两总体的位置参数(中心)相同;要求两总体的形状相同。当这些条件不满足时,就要作数据变换。 常用的是指数变换,其中最著名的是Box-Cox变换6。 1957年,Jukey给出的变换形式为:yx,0;式中不连续,19年Box-Cox对此进行了修正: lnx,0x1,0。 ylnx,0 2 直方图:反映数据分布频数或频率的图形。 3 描述数据分布,主要表示变量值的最大值、最小值、中位数、第25百分位数、第75百分位数。 4 Q—Q图:用来检验正态分布的一种图形,依据变量分布的分位数与正态分布的分位数作散点图,如果该散点基本呈一条直线,则可以认为该数据基本服从一个正态分布。注意原始数据必须按照升幂排列。 1首先将原成绩排序;计算标准正态分布的分位点[(i3/8)/(N1/4)];最后,以正态分布的分位点作为横坐标轴,以原始成 绩作为纵坐标轴,作出的散点图即为Q-Q图。最好同时作出这些散点的拟合直线。 5 P—P图:用来检验正态分布的一种图形,依据变量分布的累积百分比与正态分布的累积百分比建立的一个散点图,如果该散点基本呈一条直线,则可以认为该数据基本服从一个正态分布。注意原始数据必须按照升幂排列。 首先将原成绩排序;其次将其标准化计算各点x(i)对应的累积分布;正态分布各点x(i)的累积分布可用 i3/8来代替;最后,以 n1/4正态分布的累积分布为横坐标,以x(i)对应的累积分布为纵坐标画出的散点图即为P-P图。最好同时作出这些散点的拟合直线。 6 详见有关的学术论文。 第 页 13 §4 渐近相对效率(ARE);局部最优势(LMP)检验 一、渐近相对效率(ARE) 由Pitman,1984年提出,又称Pitman效率。 1.概念 对任意的检验T,理论上总能找到样本容量n使得该检验满足固定的和7,显然所需要的样本容量小的检验就比样本容量大的检验效率高。 如果达到同样的和,检验T1需要n1个观察值,而检验T2需要n2个观察值,则用n1/n2来表示T2对T1的相对效率。 定义1.2:当n1,有n2(维持相同的势),在一定的条件下,相对效率n1/n2存在极限。这个极限称为渐近相对效率。记为ARE(T2,T1)。 2.几种常用检验的ARE8 ARE(S,W)nWnnWntARE(W,t)snsntARE(S,t) 二、LMP检验 对于检验H0:0H1:0,如果存在0,使得对于0为UMP检验,则称该检验为LMP检验。 7 这里的和分别为犯第Ⅰ类错误和第Ⅱ类错误的概率。 8 详见教材P15。 第 页 14 §5 线性秩统计量简介 一、修整均值(trimmed mean) 对样本X1,X2,,Xn,按照升幂排序得到顺序统计量:X(1)X(2)X(n) nj定义1.3:T(j)ij1X(i)n2j,0j1n为修整均值。 2注:①它作为位置参数的估计量; ②参数j为求均值之前删掉的最大观察值或最小观察值的数目; ③若记删除观察值的比为,则当0时,修整均值就为均值;当50%时,修整均值就为中位数。 二、秩的分布 1.秩 Ri代表同分布样本X1,X2,,Xn中Xi的秩,表示Xi在顺序统计量X(1),X(2),,X(n)中的位置,它等于小于或等于Xi的样本点的个数,即 式中:I(•)2.秩的分布 例如: 原始观测值xi 秩 5.6 1.4 2.7 5.2 2.6 4.8 2.3 nRiI(XjXi) j1(0.10) 1当括号中的值大于0。 0当括号中的值小于等于07 1 4 6 3 5 2 2、秩统计量的分布和数字特征 ●R1,R2,,Rn的联合分布为:●Ri的概率分布为: pR(i1,i2,,in)1n1 n!p(Rir)(r1,2,3,4,,n) n1i1,2,,n 2(n1)(n1)●Ri的方差:Var(Ri)i1,2,,n 12●Ri的数学期望:E(Ri)【本章思考题】 1.“非参数”的含义是什么? 2.什么是秩以及秩统计量及其分布? 3.什么是渐近相对效率? 第 页 15
因篇幅问题不能全部显示,请点此查看更多更全内容