第一章 随机事件和概率

1 事件、样本空间、事件间的关系与运算

1.1.1 随机试验

定义 对随机现象进行观察或实验称为随机试验,简称试验,记作E。它具有如下特点:

  1. 可以在相同条件下重复进行
  2. 所得到可能结果不止一个,且所有可能结果都能事前已知
  3. 每次具体实验之前无法预知会出现哪个结果

例如,抛一枚硬币,记录其结果是正面向上还是反面向上

1.1.2 样本空间

定义 随机试验的每一可能结果称为样本点,记作ω\omega。由所有样本点全体组成的集合称为样本空间,记作Ω\Omega

注:显然,样本点是组成样本空间的元素

1.1.3 随机事件

定义 样本空间的子集称为随机事件,简称事件,常用字母A,B,C等表示

随机事件是由样本空间中的元素即样本点组成,由一个样本点组成的子集是最简单事件,称为基本事件。随机事件既然由样本点组成,因此,也可能将随机事件看成是由基本事件组成

如果一次试验的结果为某一基本事件出现,就称该基本事件出现或发生。如果组成事件A的一个基本事件出现或发生,也称事件A出现或发生

Ω\Omega看成一事件,则每次试验必有Ω\Omega中某一基本事件(即样本点)发生,也就是每次试验Ω\Omega必然发生,称Ω\Omega为必然事件

把不包含任何样本点的空集\varnothing看成一个时间,每次试验\varnothing必不发生,称\varnothing为不可能事件

1.1.4 事件的包含

定义 如果事件A发生必然导致事件B发生,则称事件B包含事件A,或称事件A包含于事件B,记为BAABB\supset A或A\subset B

1.1.5 事件的相等

定义 如果ABBAA\supset B与B\supset A同时成立,则称事件A与事件B相等,记作A=B

注:A=B表示事件A与事件B有完全相同的样本点

1.1.6 事件的交

定义 如果事件A与事件B同时发生,则称这样的一个事件为事件A与事件B的交或积,记为ABABA\cap B或AB

集合ABA\cap B是由同时属于A与B的所有公共样本点构成

事件的交可以推广到有限多个事件或可数无穷多个事件的情形:
i=1nAi=A1A2An,i=1+Ai=A1A2An\cap^n_{i=1}A_i=A_1\cap A_2\cdots\cap A_n,\cap^{+\infty}_{i=1}A_i=A_1\cap A_2\cap\cdots\cap A_n\cap\cdots

1.1.7 互斥事件

定义 如果事件A与事件B的关系为AB=AB=\varnothing,即A与B不能同时发生,则称事件A和事件B为互斥或互不相容

互斥的两事件没有公共样本点

事件的互斥可以推广到有限多个事件或可数无穷多个事件的情形

若n个事件A1,A2,,AnA_1,A_2,\cdots,A_n中任意两个事件均互斥,即AiAj=,ij,i,j=1,2,,nA_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n,则称这n个事件是两两互斥或两两互不相容

如果可数无穷个事件A1,A2,,An,A_1,A_2,\cdots,A_n,\cdots中任意两个事件均互斥,即AiAj=,ij,i,j=1,2,,n,A_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n,\cdots,则称这可数无穷个事件是两两互斥或两两互不相容

1.1.8 事件的并

定义 如果事件A与事件B至少有一个发生,则称这样一个事件为事件A与事件B的并或和,记为ABA\cup B

ABA\cup B是由属于A与B的所有样本点构成

事件的并可推广到有限多个事件或可数无穷多个事件的情形:
i=1nAi=A1A2An,i=1+Ai=A1A2An\cup^n_{i=1}A_i=A_1\cup A_2\cup\cdots\cup A_n,\cup^{+\infty}_{i=1}A_i=A_1\cup A_2\cup\cdots\cup A_n\cup\cdots

1.1.9 对立事件

定义 如果事件A与事件B有且仅有一个发生,即同时成立AB=Ω,AB=A\cup B=\Omega,且A\cap B=\varnothing,则称事件A与事件B为对立事件或互逆事件,记为Aˉ=BBˉ=A\bar{A}=B或\bar{B}=A

注:在样本空间中,集合Aˉ\bar{A}是由所有不属于事件A的样本点构成的集合

1.1.10 事件的差

定义 事件A发生而事件B不发生称为事件A与事件B的差,记为ABA-B

在样本空间中集合ABA-B是由属于事件A而不属于事件B的所有样本点构成的集合,显然AB=ABˉA-B=A\bar{B}

1.1.11 事件的运算规律

  1. 交换律 AB=BA,AB=BAA\cup B=B\cup A,A\cap B=B\cap A
  2. 结合律 A(BC)=(AB)CA\cup(B\cup C)=(A\cup B)\cup C
    A(BC)=(AB)CA\cap(B\cap C)=(A\cap B)\cap C
  3. 分配律 A(BC)=(AB)(AC)A\cap(B\cup C)=(A\cap B)\cup(A\cap C)
    A(BC)=(AB)(AC)A\cup (B\cap C)=(A\cup B)\cap(A\cup C)
  4. 对偶律 ABˉ=AˉBˉ,ABˉ=AˉBˉ\bar{A\cup B}=\bar{A}\cap\bar{B},\bar{A\cap B}=\bar{A}\cup \bar{B}
    i=1nAiˉ=i=1nAiˉ,i=1nAiˉ=i=1nAiˉ\bar{\cup^n_{i=1}A_i}=\cap^n_{i=1}\bar{A_i},\bar{\cap^n_{i=1}A_i}=\cup^n_{i=1}\bar{A_i}

2 概率、条件概率、独立性和五大公式

1.2.1 概率公理

设试验E的样本空间为Ω\Omega,称实值函数P为概率,如果P满足如下三条件:

  1. 对于任意事件A,有P(A)0P(A)\geq 0
  2. 对于必然事件Ω\Omega,有P(Ω)=1P(\Omega)=1
  3. 对于两两互斥的可数无穷个事件A1,A2,,An,A_1,A_2,\cdots,A_n,\cdots,有P(A1A2An)=P(A1)+P(A2)++P(An)+P(A_1\cup A_2\cdots\cup A_n\cup\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots,称P(A)为事件A的概率

1.2.2 条件概率

定义 设A,B为两事件,且P(A)>0P(A)>0,称
P(BA)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}
为在事件A发生的条件下事件B发生的条件概率

1.2.3 事件独立性

定义 设A,B两事件满足等式
P(AB)=P(A)P(B)P(AB)=P(A)P(B)
则称A与B相互独立

A1,A2,,AnA_1,A_2,\cdots,A_n是n个事件,如果对于任意k(1<kn)k(1<k\leq n),任意1i1<i2<<ikn1\leq i_1<i_2<\cdots<i_k\leq n满足等式
P(Ai1Ai2Aik)=P(Ai1)P(Ai2)P(Aik)P(A_{i_1}A_{i_2}\cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k})
则称A1,A2,,AnA_1,A_2,\cdots,A_n为相互独立的事件

注:n个事件相互独立需要Cn2+Cn3++Cnn=2nn1C^2_n+C^3_n+\cdots+C^n_n=2^n-n-1个等式成立

1.2.4 概率的性质

  1. P()=0P(\varnothing)=0
  2. 对于两两互斥的有限个事件A1,A2,,AnA_1,A_2,\cdots,A_n,有P(A1A2An)=P(A1)+P(A2)++P(An)P(A_1\cup A_2\cup\cdots\cup A_n)=P(A_1)+P(A_2)+\cdots+P(A_n)
  3. P(Aˉ)=1P(A)P(\bar{A})=1-P(A)
  4. AB,P(A)P(B)A\subset B,则P(A)\leq P(B)
  5. 0P(A)10\leq P(A)\leq 1

注:条件概率也是概率,条件概率也有概率相应的各性质

1.2.5 相互独立的性质

  1. A与B相互独立的充要条件是AABˉ\bar{B}Aˉ\bar{A}BBAˉ\bar{A}Bˉ\bar{B}相互独立
  2. 0<P(A)<10<P(A)<1时,A与B独立等价于P(BA)=P(B)P(B|A)=P(B)P(BA)=P(BAˉ)P(B|A)=P(B|\bar{A})成立
  3. A1,A2,,AnA_1,A_2,\cdots,A_n相互独立,则A1,A2,,AnA_1,A_2,\cdots,A_n必两两独立。反之,若A1,A2,,AnA_1,A_2,\cdots,A_n两两独立,则A1,A2,,AnA_1,A_2,\cdots,A_n不一定相互独立
  4. A1,A2,,AnA_1,A_2,\cdots,A_n相互独立时,它们的部分事件也是相互独立的

将相互独立的n个事件中任何几个事件换成它们相应的对立事件,则这新组成的n个事件也相互独立

1.2.6 五大公式

  1. 加法公式 P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(AB)
    P(ABC)=P(A)+P(B)+P(C)P(AB)P(BC)P(AC)+P(ABC)P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)

  2. 减法公式 P(AB)=P(A)P(AB)P(A-B)=P(A)-P(AB)

  3. 乘法公式
    当P(A)>0时,P(AB)=P(A)P(B|A);
    P(A1A2An1)>0P(A_1 A_2\cdots A_{n-1})>0时,
    P(A1A2An)=P(A1)P(A2A1)P(AnA1A2An1)P(A_1 A_2\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1 A_2\cdots A_{n-1})

  4. 全概率公式
    B1,B2,,BnB_1,B_2,\cdots,B_n满足i=1nBi=Ω,BiBj=(ij)\cup^n_{i=1}B_i=\Omega,B_i B_j=\varnothing(i\neq j)P(Bk)>0,k=1,2,,nP(B_k)>0,k=1,2,\cdots,n,则对任意事件A有
    P(A)=i=1nP(Bi)P(ABi)P(A)=\sum^n_{i=1}P(B_i)P(A|B_i)
    称满足i=1nBi=Ω\cup^n_{i=1}B_i=\OmegaBiBj=(ij)B_iB_j=\varnothing(i\neq j)B1,B2,,BnB_1,B_2,\cdots,B_nΩ\Omega的一个完备事件组

  5. 贝叶斯公式
    B1,B2,,BnB_1,B_2,\cdots,B_n满足i=1nBi=Ω,BiBj=(ij)\cup^n_{i=1}B_i=\Omega,B_iB_j=\varnothing(i\neq j)P(A)>0,P(Bk)>0,k=1,2,,nP(A)>0,P(B_k)>0,k=1,2,\cdots,n,则
    P(BjA)=P(Bj)P(ABj)i=1nP(Bi)P(ABi),j=1,2,,nP(B_j|A)=\frac{P(B_j)P(A|B_j)}{\sum^n_{i=1}P(B_i)P(A|B_i)},j=1,2,\cdots,n

注:

  1. 概率计算中常要结合对偶律应用性质P(Aˉ)=1P(A)P(\bar{A})=1-P(A)
  2. 计算相互独立事件的概率时,常将事件之间的“并”或“差”转化成“交”来计算。因为事件的独立性是用事件的交的概率来定义的。而将相互独立事件中某个或某几个事件换成相应的对立事件并不影响它们之间的相互独立性,所以讲“并”和“差”化成交后,常常会带来计算上的方便。例如,A和B独立时,
    P(AB)=1P(AˉBˉ)=1P(Aˉ)P(Bˉ)P(A\cup B)=1-P(\bar{A}\bar{B})=1-P(\bar{A})P(\bar{B})
    P(AB)=P(ABˉ)=P(A)P(Bˉ)P(A-B)=P(A\bar{B})=P(A)P(\bar{B})

题目中的定理

零概率事件与任何事件都相互独立。同样对概率为1的事件B,有P(Bˉ)=0P(\bar{B})=0,即Bˉ\bar{B}与任何事件相互独立,也就有B与任何事件相互独立

3 古典概型与伯努利概型

1.3.1 古典型概率

定义 当试验结果为有限n个样本点,且每个样本点的发生具有相等的可能性,如果事件A由nAn_A个样本点组成,则事件A的概率
P(A)=nAn=A所包含的样本点数样本点总数P(A)=\frac{n_A}{n}=\frac{A所包含的样本点数}{样本点总数}
称有限等可能试验中事件A的概率P(A)为古典型概率

1.3.2 几何型概率

定义 当试验的样本空间是某区域(该区域可以是一维、二维或三维等等),以L(Ω)L(\Omega)表示其几何度量(长度、面积、体积等等)。L(Ω)L(\Omega)为有限,且试验结果出现在Ω\Omega中任何区域的可能性只与该区域几何度量成正比。事件A的样本点所表示的区域为ΩA\Omega_A,则事件A的概率
P(A)=L(ΩA)L(Ω)=ΩA的几何度量Ω的几何度量P(A)=\frac{L(\Omega_A)}{L(\Omega)}=\frac{\Omega_A的几何度量}{\Omega的几何度量}
称这种样本点个数无限但几何度量上的等可能试验中事件A的概率P(A)为几何型概率

1.3.3 n重伯努利试验

定义 把一随机试验独立重复做若干次,即各次试验所联系的事件之间相互独立,且同一事件在各个试验中出现的概率相同,称为独立重复试验

如果每次试验只有两个结果AAˉA和\bar{A},则称这种试验为伯努利试验。将伯努利试验独立重复进行n次,称为n重伯努利试验

设在每次试验中,概率P(A)=p(0<p<1)P(A)=p(0<p<1),则在n重伯努利试验中事件A发生k次的概率,又称为二项概率公式:Cnkpk(1p)nk,k=0,1,2,,nC^k_n p^k(1-p)^{n-k},k=0,1,2,\cdots,n

题目中的定理

一般来说,如果一个概率同时可用有序和无序的样本空间来计算时,常常用无序要简单些;同时可用两种样本空间计算时,常常用较小的样本空间要简单些

ex=i=0+xii!e^x=\sum\limits^{+\infty}_{i=0}\frac{x^i}{i!}

第二章 随机变量及其概率分布

1 随机变量及其分布函数

2.1.1 随机变量

定义 在样本空间Ω\Omega上的实值函数X=X(ω),ωΩX=X(\omega),\omega\in \Omega,称X(ω)X(\omega)为随机变量,简记X
注:X(ω)X(\omega)的定义域是Ω\Omega,常用X,Y,Z等表示随机变量

2.1.2 分布函数

定义 对于任意实数x,记函数F(x)=P{Xx},<x<+F(x)=P\{X\leq x\},-\infty<x<+\infty,称F(x)为随机变量X的分布函数

分布函数F(x)是定义在(,+)(-\infty,+\infty)上的一个实值函数,F(x)的值等于随机变量X在区间(,x](-\infty,x]内取值的概率,即事件XxX\leq x的概率

有的书上将分布函数定义成F(x)=P{X<x}F(x)=P\{X<x\},考试大纲要求是F(x)=P{Xx}F(x)=P\{X\leq x\}

2.1.3 分布函数性质

  1. 0F(x)1;limxF(x)=0,记为F()=0;limx+F(x)=1,记为F(+)=10\leq F(x)\leq 1;\lim\limits_{x\to -\infty}F(x)=0,记为F(-\infty)=0;\lim\limits_{x\to +\infty}F(x)=1,记为F(+\infty)=1
  2. F(x)是单调非减函数,即当x1<x2x_1<x_2时,F(x1)F(x2)F(x_1)\leq F(x_2)
  3. F(x)是右连续的,即F(x+0)=F(x)F(x+0)=F(x)
  4. 对任意x1<x2x_1<x_2,有P{x1<Xx2}=F(x2)F(x1)P\{x_1<X\leq x_2\}=F(x_2)-F(x_1)
  5. 对任意的x,P{X=x}=F(x)F(x0)P\{X=x\}=F(x)-F(x-0)

由单调性和F()=0,F(+)=1F(-\infty)=0,F(+\infty)=1可以推出0F(x)10\leq F(x)\leq 1,所以性质1.,2.,3.可以简化为:F()=0,F(+)=1F(-\infty)=0,F(+\infty)=1;单调非减;右连续

这恰是函数F(x)成为某一随机变量的分布函数的充要条件

当F(x)在x处连续时,F(x)F(x0)=0F(x)-F(x-0)=0,根据性质5.,就有P{X=x}=0P\{X=x\}=0

2 离散型随机变量和连续性随机变量

2.2.1 离散型随机变量

定义 如果一个随机变量的可能取值是有限多个或可数无穷多个,则称它为离散型随机变量

2.2.2 离散型随机变量X的概率分布

定义 设离散型随机变量X的可能取值是x1,x2,,xn,x_1,x_2,\cdots,x_n,\cdots,X取各可能值的概率为
P{X=xk}=pk,k=1,2,P\{X=x_k\}=p_k,k=1,2,\cdots
称上式为离散型随机变量X的概率分布或分布律

分布律也有用列表方式给出的

2.2.3 连续型随机变量及其概率密度

定义 如果对随机变量X的分布函数F(x),存在一个非负可积函数f(x),使得对任意实数x,都有
F(x)=xf(t)dt,<x<+F(x)=\int^x_{-\infty}f(t)dt,-\infty<x<+\infty
称X为连续型随机变量,函数f(x)称为X的概率密度

注:连续型随机变量的分布函数F(x)必可表示成F(x)=xf(t)dtF(x)=\int^x_{-\infty}f(t)dt,所以这时的F(x)一定是(,+)(\infty,+\infty)上的连续函数,反之,不能说凡是连续的F(x)对应的X一定是连续型随机变量

连续型随机变量的F(x)必连续,但f(x)不一定是连续的

2.2.4 分布律性质

  1. pk0,k=1,2,p_k\geq 0,k=1,2,\cdots
  2. k=1+pk=1\sum\limits^{+\infty}_{k=1}p_k=1

2.2.5 概率密度f(x)的性质

  1. f(x)0f(x)\geq 0
  2. +f(x)dx=1\int^{+\infty}_{-\infty}f(x)dx=1
  3. 对任意实数x1<x2x_1<x_2,有P{x1<Xx2}=x1x2f(t)dtP\{x_1<X\leq x_2\}=\int^{x_2}_{x_1}f(t)dt
  4. 在f(x)的连续点处有F(x)=f(x)F'(x)=f(x)

函数f(x)成为某一连续型随机变量的概率密度充要条件是f(x)具有性质1和2

如果X是连续型随机变量,则显然有
P{x1<Xx2}=P{x1X<x2}=P{x1<X<x2}=P{x1Xx2}P\{x_1<X\leq x_2\}=P\{x_1\leq X<x_2\}=P\{x_1<X<x_2\}=P\{x_1\leq X\leq x_2\}

3 常用分布

2.3.1 0-1分布

定义 如果随机变量X有分布律

X 0 1
P 1-p p

0<p<1,则称X服从参数为p的0-1分布,或称X具有0-1分布

2.3.2 二项分布

定义 如果随机变量X有分布律
P{X=k}=Cnkpkqnk,k=0,1,2,,nP\{X=k\}=C^k_np^kq^{n-k},k=0,1,2,\cdots,n
其中0<p<1,q=1p0<p<1,q=1-p,则称X服从参数为n,p的二项分布,记作XB(n,p)X\sim B(n,p)

在n重伯努利试验中,若每次实验成功率为p(0<p<1),则在n次独立重复试验中成功的总次数X服从二项分布

当n=1时,不难验证二项分布就退化成0-1分布,所以0-1分布也可以记为B(1,p)

2.3.3 几何分布

定义 如果随机变量X的分布律为
P{X=k}=pqk1,k=1,2,P\{X=k\}=pq^{k-1},k=1,2,\cdots
其中0<p<1,q=1p0<p<1,q=1-p,则称X服从参数为p的几何分布,或称X具有几何分布

注:在独立地重复做一系列伯努利试验中,若每次试验成功率为p(0<p<1),则在第k次试验时才首次试验成功的概率服从几何分布

2.3.4 超几何分布

定义 如果随机变量X的分布律为
P{X=k}=CMkCNMnkCNn,k=l1,,l2P\{X=k\}=\frac{C^k_MC^{n-k}_{N-M}}{C^n_N},k=l_1,\cdots,l_2
其中l1=max(0,nN+M),l2=min(M,n)l_1=\max(0,n-N+M),l_2=\min(M,n),则称随机变量X服从参数为n,N,M的超几何分布

如果N件产品中含有M件次品,从中任意一次取出n件(或从中一件接一件不放回地取n件),令X=抽取的n件产品中的次品件数,则X服从参数为n,N,M的超几何分布

如果N件产品中含有M件次品,从中一件接一件有放回地取n次(即每次取出记录后就放回,再取下一个),则X服从B(n,MN)B(n,\frac{M}{N})

2.3.5 泊松分布

定义 如果随机变量X的分布律为P{X=k}=λkk!eλ,k=0,1,2,P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,\cdots,其中λ>0\lambda>0为常数,则称随机变量X服从参数为λ\lambda的泊松分布,记为XP(λ)X\sim P(\lambda)

注:在一段时间内电话总机接到的呼叫次数、候车的旅客数、保险索赔的次数等都服从泊松分布

2.3.6 均匀分布

定义 如果连续型随机变量X的概率密度为
f(x)={1ba,axb0,其他f(x)=\begin{cases}\frac{1}{b-a},& a\leq x\leq b\\ 0,& 其他\end{cases}
则称X在区间[a,b]上服从均匀分布,记作XU[a,b]X\sim U[a,b]

如果概率密度为
f(x)={1ba,a<x<b0,其他f(x)=\begin{cases}\frac{1}{b-a},& a<x<b\\ 0,& 其他\end{cases}
则称X在区间(a,b)上服从均匀分布,记作XU(a,b)X\sim U(a,b)

注:无论上述哪种情况,它们的分布函数均为
F(x)={0,x<axaba,ax<b1,bxF(x)=\begin{cases}0,& x<a\\ \frac{x-a}{b-a},& a\leq x<b\\ 1,& b\leq x\end{cases}

2.3.7 指数分布

定义 如果连续型随机变量X的概率密度为
f(x)={λeλx,x>0,0,x0λ>0f(x)=\begin{cases}\lambda e^{-\lambda x},& x>0,\\ 0,& x\leq 0\end{cases}\lambda>0
则称X服从参数为λ\lambda的指数分布,记作XE(λ)X\sim E(\lambda)

XE(λ)X\sim E(\lambda),则X的分布函数为
F(x)={1eλx,x>00,x0λ>0F(x)=\begin{cases}1-e^{-\lambda x},& x>0\\ 0,& x\leq 0\end{cases}\lambda>0
指数分布有很多应用,有许多种寿命的分布都近似地服从指数分布

2.3.8 正态分布

定义 如果随机变量X的概率密度为
f(x)=1sπσe(xμ)22σ2,<x<+f(x)=\frac{1}{\sqrt{s\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty
其中μ,σ\mu,\sigma为常数且σ>0\sigma>0,则称X服从参数为μ,σ\mu,\sigma的正态分布,记作
XN(μ,σ2)X\sim N(\mu,\sigma^2)
μ=0,σ2=1\mu=0,\sigma^2=1时,即XN(0,1)X\sim N(0,1),称X服从标准正态分布,此时用φ(x)\varphi(x)表示X的概率密度,即φ(x)=12πex22,<x<+\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<+\infty

XN(μ,σ2)X\sim N(\mu,\sigma^2),其分布函数为
F(x)=12πσxe(tμ)22σ2dtF(x)=\frac{1}{\sqrt{2\pi}\sigma}\int^x_{-\infty}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt

XN(0,1)X\sim N(0,1)时,分布函数用Φ(x)\Phi(x)表示
Φ(x)=12πxet22dt\Phi(x)=\frac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}dt

2.3.9 常用性质

  1. 泊松定理:在伯努利试验中,pnp_n代表事件A在试验中出现的概率,它与试验总数n有关,如果limnnpn=λ\lim\limits_{n\to\infty}np_n=\lambda,则
    limnCnkpnk(1pn)nk=λkk!eλ\lim_{n\to\infty}C^k_n p^k_n(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}
    注 应用泊松定理的要求:n较大(n100)(n\geq 100),p较小(p0.1)(p\leq 0.1),np不太大。这时有近似公式
    Cnkpk(1p)nK(np)kk!enpC^k_n p^k(1-p)^{n-K}\approx \frac{(np)^k}{k!}e^{-np}

  2. XU[a,b]X\sim U[a,b],则对ac<dba\leq c<d\leq b,有
    P{c<Xd}=dcbaP\{c<X\leq d\}=\frac{d-c}{b-a}
    即随机变量落入区间[c,d]的概率等于该区间长度与[a,b]长度之比

  3. XE(λ)X\sim E(\lambda),则有

    1. P{X>t}=t+λeλtdt=eλt,t>0P\{X>t\}=\int^{+\infty}_t \lambda e^{-\lambda t}dt=e^{-\lambda t},t>0
    2. P{X>t+sX>s}=P{X>t+s}P{X>s}=eλ(t+s)eλs=eλt=P{X>t},t,s>0P\{X>t+s|X>s\}=\frac{P\{X>t+s\}}{P\{X>s\}}=\frac{e^{-\lambda(t+s)}}{e^{-\lambda s}}=e^{-\lambda t}=P\{X>t\},t,s>0
      此性质称为指数分布具有“无记忆性”
  4. XN(μ,σ2)X\sim N(\mu,\sigma^2),其分布函数为F(x),则

    1. F(x)=Φ(xμσ)F(x)=\Phi(\frac{x-\mu}{\sigma})
    2. P{a<Xb}=Φ(bμσ)Φ(aμσ),a<bP\{a<X\leq b\}=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma}),a<b
    3. 概率密度f(x)关于x=μx=\mu对称,φ(x)\varphi(x)是偶函数
    4. Φ(x)=1Φ(x),Φ(0)=12\Phi(-x)=1-\Phi(x),\Phi(0)=\frac{1}{2}
    5. XN(0,1)X\sim N(0,1),有P{Xa}=2Φ(a)1P\{|X|\leq a\}=2\Phi(a)-1

第三章 多维随机变量及其分布

1 二维随机变量及其分布

3.2.1 二维随机变量

定义X=X(ω),Y=Y(ω)X=X(\omega),Y=Y(\omega)是定义在样本空间Ω\Omega上的两个随机变量,则称向量(X,Y)(X,Y)为二维随机变量,或随机向量

3.1.2 二维随机变量(X,Y)的分布

定义 F(x,y)=P{Xx,Yy},<x<+,<y<+F(x,y)=P\{X\leq x,Y\leq y\},-\infty<x<+\infty,-\infty<y<+\infty

3.1.3 二维随机变量的边缘分布

二维随机变量(X,Y)的分布函数为F(x,y),分别称FX(x)=P{Xx}F_X(x)=P\{X\leq x\}FY(y)=P{Yy}F_Y(y)=P\{Y\leq y\}为(X,Y)关于X和关于Y的边缘分布

注:显然,边缘分布FX(x)F_X(x)FY(y)F_Y(y)与二维随机变量F(x,y)F(x,y)有如下关系:
FX(x)=P{Xx}=P{Xx,Y<+}=F(x,+)F_X(x)=P\{X\leq x\}=P\{X\leq x,Y<+\infty\}=F(x,+\infty)
FY(y)=P{Yy}=P{X<+,Yy}=F(x,+)F_Y(y)=P\{Y\leq y\}=P\{X<+\infty,Y\leq y\}=F(x,+\infty)
这里F(x,+)F(x,+\infty)应理解为limy+F(x,y)\lim\limits_{y\to +\infty}F(x,y)

3.1.4 二维随机变量的条件分布

定义 如果对于任意给定的ε>0,P{yε<Yy+ε}>0\varepsilon>0,P\{y-\varepsilon<Y\leq y+\varepsilon\}>0
limε0+P{Xxyε<Yy+ε}=limε0+P{Xx,yε<Yy+ε}P{yε<Yy+ε}\lim_{\varepsilon\to 0^+}P\{X\leq x|y-\varepsilon<Y\leq y+\varepsilon\}=\lim_{\varepsilon\to 0^+}\frac{P\{X\leq x,y-\varepsilon <Y\leq y+\varepsilon\}}{P\{y-\varepsilon<Y\leq y+\varepsilon\}}
存在,则称此极限为在条件Y=y下X的条件分布,记作FXY(xy)F_{X|Y}(x|y)P{XxY=y}P\{X\leq x|Y=y\}
类似地可定义FYX(yx)F_{Y|X}(y|x)

3.1.5 二维离散型随机变量

定义 如果随机变量(X,Y)可能取值为有限个或可数无穷个(xi,yj),i,j=1,2,(x_i,y_j),i,j=1,2,\cdots,则称(X,Y)为二维离散型随机变量

3.1.6 二维离散型随机变量的概率分布

定义 二维离散型随机变量(X,Y)的可能取值为(xi,yj)(i,j=1,2,)(x_i,y_j)(i,j=1,2,\cdots)
P{X=xi,Y=yj}=pij,i,j=1,2,P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots
为二维离散型随机变量(X,Y)的概率分布或分布律

注:也可以用表格形式表示分布律

3.1.7 二维离散型随机变量的边缘分布

定义
pi=P{X=xi},i=1,2,p_{i\cdot}=P\{X=x_i\},i=1,2,\cdots
pj=P{Y=yj},j=1,2,p_{\cdot j}=P\{Y=y_j\},j=1,2,\cdots
分别称为(X,Y)关于X和关于Y的边缘分布

3.1.8 二维离散型随机变量的条件分布

定义 对给定的j,如果P{Y=yj}>0,j=1,2,P\{Y=y_j\}>0,j=1,2,\cdots,则称
P{X=xiY=yj}=P{X=xi,Y=yj}P{Y=yj}=pijpj,i=1,2P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{p_{ij}}{p_{\cdot j}},i=1,2\cdots
为在YyjY-y_j条件下随机变量X的条件分布

3.1.9 二维连续型随机变量及其概率密度

定义 如果对随机变量(X,Y)的分布F(x,y)存在非负函数f(x,y),使得对于任意实数x和y,都有
F(x,y)=xyf(u,v)dudv,<x,y<+F(x,y)=\int^x_{-\infty}\int^y_{-\infty}f(u,v)dudv,-\infty<x,y<+\infty
则称(X,Y)为二维连续型随机变量,函数f(x,y)称为(X,Y)的概率密度

对连续型随机变量(X,Y),设它的概率密度为f(x,y),由FX(x)=F(x,+)=x[+f(x,y)dy]dxF_X(x)=F(x,+\infty)=\int^x_{-\infty}[\int^{+\infty}_{-\infty}f(x,y)dy]dx知道,X也是一个连续型变量,且其概率密度为fX(x)=+f(x,y)dyf_X(x)=\int^{+\infty}_{-\infty}f(x,y)dy

3.1.10 二维连续型随机变量的边缘密度

定义 fX(x)=+f(x,y)dyf_X(x)=\int^{+\infty}_{-\infty}f(x,y)dyfY(y)=+f(x,y)dxf_Y(y)=\int^{+\infty}_{-\infty}f(x,y)dx
被分别称为(X,Y)关于X和关于Y的边缘密度

3.1.11 二维连续型随机变量的条件密度

定义 设f(x,y)在点(x,y)连续,fY(y)f_Y(y)连续且fY(y)>0f_Y(y)>0,则条件分布
FXY(xy)=xf(s,y)fY(y)dsF_{X|Y}(x|y)=\int^x_{-\infty}\frac{f(s,y)}{f_Y(y)}ds
其中f(x,y)fY(y)\frac{f(x,y)}{f_Y(y)}被称为在条件Y=y下的条件密度,记作fXY(xy)f_{X|Y}(x|y),即
fXY(xy)=f(x,y)fY(y),fY(y)>0f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)},f_Y(y)>0
类似地可定义,当fX(x)>0f_X(x)>0时,
fYX(yx)=f(x,y)fX(x)FYX(yx)=yf(x,s)fX(x)dsf_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}和F_{Y|X}(y|x)=\int^y_{-\infty}\frac{f(x,s)}{f_X(x)}ds

3.1.12 F(x,y)的性质

  1. 对任意x,y,均有0F(x,y)10\leq F(x,y)\leq 1
  2. F(,y)=F(x,)=F(,)=0F(-\infty,y)=F(x,-\infty)=F(-\infty,-\infty)=0
    F(+,+)=1F(+\infty,+\infty)=1
  3. F(x,y)关于x和关于y均单调不减
  4. F(x,y)关于x和关于y是油连续的
  5. P{a<Xb,c<Yd}=F(b,d)F(b,c)F(a,d)+F(a,c)P\{a<X\leq b,c<Y\leq d\}=F(b,d)-F(b,c)-F(a,d)+F(a,c)

3.1.13 P{X=xi,Y=yj}=pijP\{X=x_i,Y=y_j\}=p_{ij}的性质

  1. pij0,i,j=1,2,p_{ij}\geq 0,i,j=1,2,\cdots
  2. ijpij=1\sum\limits_i\sum\limits_j p_{ij}=1

3.1.14 f(x,y)的性质

  1. f(x,y)0f(x,y)\geq 0
  2. ++f(x,y)dxdy=1\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}f(x,y)dxdy=1
  3. 随机变量(X,Y)落在区域D内的概率
    P{(X,Y)D}=Df(x,y)dxdyP\{(X,Y)\in D\}=\iint_Df(x,y)dxdy

2 随机变量的独立性

3.2.1 随机变量的独立性

定义 如果对任意x,y都有
P{Xx,Yy}=P{Xx}P{Yy}P\{X\leq x,Y\leq y\}=P\{X\leq x\}P\{Y\leq y\}

F(x,y)=FX(x)FY(y)F(x,y)=F_X(x)F_Y(y)
则称随机变量X与Y相互独立

3.2.2 随机变量相互独立充要条件

  1. 离散型随机变量X和Y相互独立的充要条件:对任意i,j=1,2,i,j=1,2,\cdots成立
    P{X=xi,Y=yj}=P{X=xi}P{Y=yj}P\{X=x_i,Y=y_j\}=P\{X=x_i\}P\{Y=y_j\}
    pij=pipjp_{ij}=p_{i\cdot}p_{\cdot j}
  2. 连续型随机变量X和Y相互独立的充要条件:对任意的x,y,成立
    f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y)

注:可将两个随机变量的独立性推广到两个以上随机变量的情形

3 二维均匀分布和二维正态分布

3.3.1 二维均匀分布

定义 如果二维连续型随机变量(X,Y)的概率密度为
f(x,y)={1A,(x,y)G0,其他f(x,y)=\begin{cases}\frac{1}{A},& (x,y)\in G\\ 0,& 其他\end{cases}
其中A是平面有界区域G的面积,则称(X,Y)服从区域G上的均匀分布

3.3.2 二维正态分布

定义 如果二维连续型随机变量(X,Y)的概率密度为
f(x,y)=12πσ1σ21ρ2exp{12(1ρ2)[(xμ1)2σ22ρ(xμ1)(yμ2)σ1σ2+yμ2)2σ22]},<x<+,<y<+f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{y-\mu_2)^2}{\sigma^2_2}]\},-\infty<x<+\infty,-\infty<y<+\infty
其中μ1,μ2,σ1>0,σ2>0,1<ρ<1\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,-1<\rho<1均为常数,则称(X,Y)服从参数为μ1,μ2,σ1,σ2\mu_1,\mu_2,\sigma_1,\sigma_2ρ\rho的二维正态分布,记作
(X,Y)N(μ1,μ2;σ12,σ22;ρ)(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)

3.3.3 重要性质

  1. 设(X,Y)在G上服从均匀分布,D是G中的一个部分区域,记它们的面积分别为SDS_DSGS_G,则P{(X,Y)D}=SDSGP\{(X,Y)\in D\}=\frac{S_D}{S_G}
    如果设(X,Y)的概率密度为f(x,y),显然
    f(x,y)={1SG,(x,y)G0,其他f(x,y)=\begin{cases}\frac{1}{S_G},& (x,y)\in G\\ 0,& 其他\end{cases}
    P{(X,Y)D}=Df(x,y)dxdy=D1SGdxdy=SDSGP\{(X,Y)\in D\}=\iint_D f(x,y)dxdy=\iint_D \frac{1}{S_G}dxdy=\frac{S_D}{S_G}

  2. 对正态分布不加证明地要求记住下列性质:

    1. (X,Y)N(μ1,μ2;σ12,σ22;ρ)(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)时,X与Y均服从一维正态:
      XN(μ1,σ12),YN(μ2,σ22)X\sim N(\mu_1,\sigma^2_1),Y\sim N(\mu_2,\sigma^2_2)
    2. (X,Y)N(μ1,μ2;σ12,σ22;ρ)(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)时,X与Y相互独立的充分必要条件是ρ=0\rho=0
    3. (X,Y)服从二维正态时,行列式abcd0,(aX+bY,cX+dY)\begin{vmatrix}a&b\\c&d\end{vmatrix}\neq 0,(aX+bY,cX+dY)也服从二维正态,当然aX+bYaX+bY服从一维正态
    4. 约定:X与Y均服从一维正态,且相互独立,就是指(X,Y)服从二维正态,且ρ=0\rho=0

注:如果X与Y均服从一维正态,不能保证(X,Y)服从二维正态,也就不能保证aX+bYaX+bY服从一维正态;

如果X与Y均服从一维正态,且相互独立,则aX+bYaX+bY必正态(a2+b20)(a^2+b^2\neq 0)

4 两个随机变量函数Z=g(X,Y)Z=g(X,Y)的分布

3.4.1 X,Y均为离散型随机变量

Z的分布律的求法与一维离散型类似

3.4.2 X,Y均为连续型随机变量

FZ(z)F_Z(z)的求法,可用公式
FZ(z)=P{Zz}=P{g(X,Y)z}=g(x,y)zf(x,y)dxdyF_Z(z)=P\{Z\leq z\}=P\{g(X,Y)\leq z\}=\iint_{g(x,y)\leq z}f(x,y)dxdy
特别当Z=X+Y时,
FZ(z)=P{X+Yz}=x+yzf(x,y)dxdy=+dxzxf(x,y)dy(+dyzyf(x,y)dx)\begin{aligned} F_Z(z) &= P\{X+Y\leq z\}=\iint_{x+y\leq z}f(x,y)dxdy\\ &= \int^{+\infty}_{-\infty}dx\int^{z-x}_{-\infty}f(x,y)dy(或\int^{+\infty}_{-\infty}dy\int^{z-y}_{-\infty}f(x,y)dx) \end{aligned}
由此可得Z=X+Y的概率密度为
fZ(z)=+f(x,zx)dxf_Z(z)=\int^{+\infty}_{-\infty}f(x,z-x)dx
fZ(z)=+f(zy,y)dyf_Z(z)=\int^{+\infty}_{-\infty}f(z-y,y)dy
特别是当X和Y相互独立时,f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y),则
fZ(z)=+fX(x)fY(zx)dxf_Z(z)=\int^{+\infty}_{-\infty}f_X(x)f_Y(z-x)dx

fZ(z)=+fX(zy)fY(y)dyf_Z(z)=\int^{+\infty}_{-\infty}f_X(z-y)f_Y(y)dy
这两个公式成为卷积公式,记为fXfYf_X *f_Y

注:随机变量的简单函数通常包括线性函数、初等函数、最大值、最小值、绝对值等

3.4.3 X为离散型随机变量、Y为连续型随机变量

一般对离散型随机变量X的各种可能取值用全概率公式把它们展开,如下:

X x_1 x_2 \cdots x_i \cdots
P p_1 p_2 \cdots p_i \cdots

Y为连续型,Z=g(X,Y)Z=g(X,Y)
FZ(z)=P{Zz}=P{g(X,Y)z}=iP{X=xi}P{g(X,Y)zX=xi}=ipiP{g(xi,Y)zX=xi}\begin{aligned}F_Z(z) &= P\{Z\leq z\}=P\{g(X,Y)\leq z\}\\ &= \sum_i P\{X=x_i\}P\{g(X,Y)\leq z|X=x_i\}\\ &= \sum_i p_i P\{g(x_i,Y)\leq z|X=x_i\}\end{aligned}

第四章 随机变量的数字特征

1 随机变量的数学期望和方差

4.1.1 数字期望

定义

  1. 离散型随机变量的数学期望
    设随机变量X的概率分布为
    P{X=xk}=pk,k=1,2,P\{X=x_k\}=p_k,k=1,2,\cdots
    如果级数k=1+xkpk\sum\limits^{+\infty}_{k=1}x_kp_k绝对收敛,则称此级数为随机变量X的数学期望或均值,记作E(X)E(X),即E(X)=k=1+xkpkE(X)=\sum\limits^{+\infty}_{k=1}x_kp_k

  2. 连续型随机变量的数学期望
    设随机变量X的概率密度为f(x),如果积分+xf(x)dx\int^{+\infty}_{-\infty}xf(x)dx绝对收敛,则称此积分为随机变量X的数学期望或均值,记作E(X),即
    E(X)=+xf(x)dxE(X)=\int^{+\infty}_{-\infty}xf(x)dx

4.1.2 数学期望的性质

  1. 设C是常数,则有E(C)=C
  2. 设X是随机变量,C是常数,则有
    E(CX)=CE(X)E(CX)=CE(X)
  3. 设X和Y是任意两个随机变量,则有
    E(X±Y)=E(X)±E(Y)E(X\pm Y)=E(X)\pm E(Y)
  4. 设随机变量X和Y相互独立,则有
    E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

注:性质4要求X和Y的相互独立,可以减弱为X和Y不相关就有E(XY)=E(X)E(Y)。事实上E(XY)=E(X)E(Y)成立的充要条件是X和Y不相关

4.1.3 随机变量X的函数Y=g(X)的数学期望

  1. 设随机变量X的概率分布为
    P{X=xk}=pk,k=1,2,P\{X=x_k\}=p_k,k=1,2,\cdots
    如果级数k=1+g(xk)pk\sum\limits^{+\infty}_{k=1}g(x_k)p_k绝对收敛,则随机变量Y=g(X)的数学期望为
    E(Y)=E[g(X)]=k=1+g(xk)pkE(Y)=E[g(X)]=\sum^{+\infty}_{k=1}g(x_k)p_k

  2. 设随机变量X的概率密度为f(x),如果积分+g(x)f(x)dx\int^{+\infty}_{-\infty}g(x)f(x)dx绝对收敛,则随机变量Y=g(X)的数学期望为
    E(Y)=E[g(X)]=+g(x)f(x)dxE(Y)=E[g(X)]=\int^{+\infty}_{-\infty}g(x)f(x)dx

4.1.4 随机变量(X,Y)的函数Z=g(X,Y)的数学期望

  1. 设随机变量(X,Y)的概率分布为
    P{X=xi,Y=yj}=pij,i,j=1,2,P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots
    如果级数i=1+j=1+g(xi,yj)pij\sum\limits^{+\infty}_{i=1}\sum\limits^{+\infty}_{j=1}g(x_i,y_j)p_{ij}绝对收敛,则随机变量Z=g(X,Y)的数学期望为
    E(Z)=E[g(X,Y)]=i=1+j=1+g(xi,yj)pijE(Z)=E[g(X,Y)]=\sum\limits^{+\infty}_{i=1}\sum\limits^{+\infty}_{j=1}g(x_i,y_j)p_{ij}

  2. 设随机变量(X,Y)的概率密度为f(x,y),如果积分++g(x,y)f(x,y)dxdy\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}g(x,y)f(x,y)dxdy绝对收敛,则随机变量Z=g(X,Y)的数学期望为
    E(Z)=E[g(X,Y)]=++g(x,y)f(x,y)dxdyE(Z)=E[g(X,Y)]=\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}g(x,y)f(x,y)dxdy

4.1.5 方差

定义 设X是随机变量,如果数学期望E{[XE(x)]2}E\{[X-E(x)]^2\}存在,则称之为X的方差,记作D(X),即
D(X)=E{[XE(X)]2}D(X)=E\{[X-E(X)]^2\}
D(X)\sqrt{D(X)}为随机变量X的标准差或均方差,记作σ(X)\sigma(X),即σ(X)=D(X)\sigma(X)=\sqrt{D(X)}

4.1.6 方差计算公式

D(X)=E(X2)[E(X)]2D(X)=E(X^2)-[E(X)]^2

由于对任何随机变量X,D(X)0D(X)\geq 0,故恒有
E(X2)[E(x)]2E(X^2)\geq [E(x)]^2
有时在已知X的数学期望与方差时,还用此公式求E(X2)E(X^2)

4.1.7 方差的性质

  1. 设C是常数,则D(C)=0,反之,从D(X)=0中不能得出X为常数的结论
  2. 设X是随机变量,a和b是常数,则有
    D(aX+b)=a2D(X)D(aX+b)=a^2D(X)
  3. 设随机变量X和Y相互独立,则有
    D(X±Y)=D(X)+D(Y)D(X\pm Y)=D(X)+D(Y)
    注:性质3要求X和Y相互独立,可以减弱为X和Y不相关就有D(X±Y)=D(X)+D(Y)D(X\pm Y)=D(X)+D(Y)。事实上D(X±Y)=D(X)+D(Y)D(X\pm Y)=D(X)+D(Y)成立的充要条件是X和Y不相关

4.1.8 常用随机变量的数学期望和方差

  1. 0-1分布
    E(X)=p,D(X)=p(1p)E(X)=p,D(X)=p(1-p)
  2. 二项分布,XB(n,p)X\sim B(n,p)
    E(X)=np,D(X)=np(1p)E(X)=np,D(X)=np(1-p)
  3. 泊松分布,XP(λ)X\sim P(\lambda)
    E(X)=λ,D(X)=λE(X)=\lambda,D(X)=\lambda
  4. 几何分布,P{X=k}=p(1p)k1,k=1,2,,0<p<1P\{X=k\}=p(1-p)^{k-1},k=1,2,\cdots,0<p<1
    E(X)=1p,D(X)=1pp2E(X)=\frac{1}{p},D(X)=\frac{1-p}{p^2}
  5. 均匀分布,XU(a,b)X\sim U(a,b)
    E(X)=a+b2,D(X)=(ba)212E(X)=\frac{a+b}{2},D(X)=\frac{(b-a)^2}{12}
  6. 指数分布,XE(λ)X\sim E(\lambda)
    E(X)=1λ,D(X)=1λ2E(X)=\frac{1}{\lambda},D(X)=\frac{1}{\lambda^2}
  7. 正态分布,XN(μ,σ2)X\sim N(\mu,\sigma^2)
    E(X)=μ,D(X)=σ2E(X)=\mu,D(X)=\sigma^2

2 矩、协方差和相关系数

4.2.1 矩

定义

  1. 设X是随机变量,如果
    E(Xk),k=1,2,E(X^k),k=1,2,\cdots
    存在,则称之为X的k阶原点矩
  2. 设X是随机变量,如果
    E{[XE(X)]k},k=1,2,E\{[X-E(X)]^k\},k=1,2,\cdots
    存在,则称之为X的k阶中心矩
  3. 设X和Y是两个随机变量,如果
    E(XkYl),k,l=1,2,E(X^kY^l),k,l=1,2,\cdots
    存在,则称之为X和Y的k+l阶混合矩
  4. 设X和Y是两个随机变量,如果
    E{[XE(X)]k[YE(Y)]l},k,l=1,2,E\{[X-E(X)]^k[Y-E(Y)]^l\},k,l=1,2,\cdots
    存在,则称之为X和Y的k+l阶混合中心矩

4.2.2 协方差

定义 对于随机变量X和Y,如果E{[XE(X)][YE(Y)]}E\{[X-E(X)][Y-E(Y)]\}存在,则称之为X和Y的协方差,记作Cov(X,Y)Cov(X,Y),即
Cov(X,Y)=E{[XE(X)][YE(Y)]}Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}

4.2.3 相关系数

定义 对于随机变量X和Y,如果D(X)D(Y)0D(X)D(Y)\neq 0,则称Cov(X,Y)D(X)D(Y)\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}为X和Y的相关系数,记为ρXY\rho_{XY},即
ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
如果D(X)D(Y)=0D(X)D(Y)=0,则ρXY=0\rho_{XY}=0

4.2.4 不相关

定义 如果随机变量X和Y的相关系数ρXY=0\rho_{XY}=0,则称X和Y不相关

4.2.5 协方差的公式和性质

  1. Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y)=E(XY)-E(X)E(Y)
  2. D(X±Y)=D(X)+D(Y)±2Cov(X,Y)D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)
  3. 协方差性质
    1. Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)
    2. Cov(aX,bY)=abCov(X,Y)Cov(aX,bY)=abCov(X,Y),其中a,b是常数
    3. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)

4.2.6 相关系数性质

  1. ρXY1|\rho_{XY}|\leq 1
  2. ρXY=1|\rho_{XY}|=1的充分必要条件是存在常数a和b,其中a0a\neq 0,使得
    P{Y=aX+b}=1P\{Y=aX+b\}=1

4.2.7 独立与不相关

  1. 如果随机变量X和Y相互独立,则X和Y必不相关;反之,X和Y不相关时,X和Y却不一定相互独立
  2. 对二维正态随机变量(X,Y),X和Y相互独立的充分必要条件是ρ=0\rho=0
  3. 对二维正态随机变量(X,Y),X和Y相互独立与X和Y不相关是等价的

第五章 大数定律和中心极限定理

5.1 切比雪夫不等式

设随机变量X的数学期望E(X)E(X)和方差D(X)D(X)存在,则对任意的ε>0\varepsilon>0,总有
P{XE(X)ε}D(X)ε2P\{|X-E(X)|\geq \varepsilon\}\leq \frac{D(X)}{\varepsilon^2}

5.2 依概率收敛

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots是一个随机变量序列,A是一个常数,如果对任意ε>0\varepsilon>0,有
limn+P{XnA<ε}=1\lim_{n\to+\infty}P\{|X_n-A|<\varepsilon\}=1
则称随机变量序列X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots依概率收敛于常数A,记作XnPAX_n\xrightarrow{P}A

5.3 切比雪夫大数定律

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots为两两不相关的随机变量序列,存在常数C,使D(Xi)C(i=1,2,)D(X_i)\leq C(i=1,2,\cdots),则对任意ε>0\varepsilon>0,有
limnP{1ni=1nXi1ni=1nE(Xi)<ε}=1\lim_{n\to\infty}P\left\{\left|\frac{1}{n}\sum^n_{i=1}X_i-\frac{1}{n}\sum^n_{i=1}E(X_i)\right|< \varepsilon\right\}=1

5.4 伯努利大数定律

设随机变量XnB(n,p),n=1,2,X_n\sim B(n,p),n=1,2,\cdots,则对于任意ε>0\varepsilon>0,有
limn+P{Xnnp<ε}=1\lim_{n\to+\infty}P\left\{\left|\frac{X_n}{n}-p\right|<\varepsilon\right\}=1

5.5 辛钦大数定律

设随机变量X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots独立同分布,具有数学期望E(Xi)=μ,i=1,2,E(X_i)=\mu,i=1,2,\cdots,则对任意ε>0\varepsilon>0
limn+P{1ni=1nXiμ<ε}=1\lim_{n\to+\infty}P\left\{\left|\frac{1}{n}\sum^n_{i=1}X_i-\mu\right|<\varepsilon\right\}=1

5.6 棣莫弗——拉普拉斯中心极限定理

设随机变量XnB(n,p)(n=1,2,)X_n\sim B(n,p)(n=1,2,\cdots),则对于任意实数x,有
limn+P{Xnnpnp(1p)x}=Φ(x)\lim_{n\to+\infty}P\left\{\frac{X_n-np}{\sqrt{np(1-p)}}\leq x\right\}=\Phi(x)
其中Φ(x)\Phi(x)是标准正态的分布函数

注:定理表明当n充分大时,服从B(n,p)的随机变量XnX_n经标准化后得Xnnpnp(1p)\frac{X_n-np}{\sqrt{np(1-p)}}近似服从标准正态分布N(0,1),或者说XnX_n近似服从N(np,np(1-p))

5.7 列维——林德伯格中心极限定理

设随机变量X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots独立同分布,具有数学期望与方差,E(Xn)=μ,D(Xn)=σ2,n=1,2,E(X_n)=\mu,D(X_n)=\sigma^2,n=1,2,\cdots,则对于任意实数x,有
limnP{i=1nXinμnσx}=Φ(x)\lim_{n\to\infty}P\left\{\frac{\sum\limits^n_{i=1}X_i-n\mu}{\sqrt{n}\sigma}\leq x\right\}=\Phi(x)

注:定理表明当n充分大时i=1nXi\sum\limits^n_{i=1}X_i的标准化i=1nXinμnσ\frac{\sum\limits^n_{i=1}X_i-n\mu}{\sqrt{n}\sigma}近似服从标准正态分布N(0,1),或者说i=1nXi\sum\limits^n_{i=1}X_i近似地服从N(nμ,nσ2)N(n\mu,n\sigma^2)

第六章 数理统计的基本概念

1 总体、样本、统计量和样本数字特征

6.1.1 总体

定义 数理统计中所研究对象的某项数量指标X的全体称为总体

注:X是一个随机变量,称X的概率分布为总体分布,X的数字特征为总体数字特征,总体中的每个元素称为个体

6.1.2 样本

定义 如果X1,X2,,XnX_1,X_2,\cdots,X_n相互独立且都与总体X同分布,则称X1,X2,,XnX_1,X_2,\cdots,X_n为来自总体的简单随机样本,简称为样本。n为样本容量,样本的具体观测值x1,x2,,xnx_1,x_2,\cdots,x_n称为样本值,或称总体X的n个独立观测值

如果总体X的分布为F(X),则样本X1,X2,,XnX_1,X_2,\cdots,X_n的分布为
Fn(x1,x2,,xn)=i=1nF(xi)F_n(x_1,x_2,\cdots,x_n)=\prod\limits^n_{i=1}F(x_i)
如果总体X有概率密度f(x),则样本X1,X2,,XnX_1,X_2,\cdots,X_n的概率密度为
fn(x1,x2,,xn)=i=1nf(xi)f_n(x_1,x_2,\cdots,x_n)=\prod\limits^n_{i=1}f(x_i)
如果总体X有概率分布P{X=aj}=pj,j=1,2,P\{X=a_j\}=p_j,j=1,2,\cdots,则样本X1,X2,,XnX_1,X_2,\cdots,X_n的概率分布为
P{X1=x1,X2=x2,,Xn=xn}=i=1nP{Xi=xi}P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod^n_{i=1}P\{X_i=x_i\}
其中xix_ia1,a2,a_1,a_2,\cdots中的某一个数

6.1.3 统计量

定义 样本X1,X2,,XnX_1,X_2,\cdots,X_n的不含未知参数的函数T=T(X1,X2,,Xn)T=T(X_1,X_2,\cdots,X_n)称为统计量

注:作为随机样本的函数,统计量本身也是一个随机变量
如果x1,x2,,xnx_1,x_2,\cdots,x_n时样本X1,X2,,XnX_1,X_2,\cdots,X_n的样本值,则数值T(x1,x2,,xn)T(x_1,x_2,\cdots,x_n)为统计量T(X1,X2,,Xn)T(X_1,X_2,\cdots,X_n)的观测值

下面所列的样本数字特征、顺序统计量都是最常用的统计量

6.1.4 样本数字特征

X1,X2,,XnX_1,X_2,\cdots,X_n是来自总体X的样本,则称

  1. 样本均值 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum\limits^n_{i=1}X_i
  2. 样本方差 S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2
    样本标准差 S=1n1i=1n(XiXˉ)2S=\sqrt{\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2}
  3. 样本k阶原点距 Ak=1ni=1nXik,k=1,2,A1=XˉA_k=\frac{1}{n}\sum\limits^n_{i=1}X^k_i,k=1,2,A_1=\bar{X}
  4. 样本k阶中心距 Bk=1ni=1n(XiXˉ)k,k=1,2,B2=n1nS2S2B_k=\frac{1}{n}\sum\limits^n_{i=1}(X_i-\bar{X})^k,k=1,2,B_2=\frac{n-1}{n}S^2\neq S^2

6.1.5 样本数字特征的性质

  1. 如果总体X具有数学期望E(X)=μE(X)=\mu,则
    E(Xˉ)=E(X)=μE(\bar{X})=E(X)=\mu
  2. 如果总体X具有方差D(X)=σ2D(X)=\sigma^2,则
    D(Xˉ)=1nD(X)=σ2n, E(S2)=D(X)=σ2D(\bar{X})=\frac{1}{n}D(X)=\frac{\sigma^2}{n},\ E(S^2)=D(X)=\sigma^2
  3. 如果总体X的k阶原点距E(Xk)=μk,k=1,2,E(X^k)=\mu_k,k=1,2,\cdots存在,则当nn\to\infty
    1ni=1nXikPμk,k=1,2,\frac{1}{n}\sum^n_{i=1}X^k_i\xrightarrow{P}\mu_k,k=1,2,\cdots

2 常用统计抽样分布和正态总体的抽样分布

6.2.1 χ2\chi^2分布

定义 设随机变量X1,X2,,XnX_1,X_2,\cdots,X_n相互独立且均服从标准正态分布N(0,1),则称随机变量χ2=X12+X22++Xn2\chi^2=X^2_1+X^2_2+\cdots+X^2_n服从自由度为n的χ2\chi^2分布,记作χ2χ2(n)\chi^2\sim\chi^2(n)

注:n个相互独立标准正态随机变量的平方和χ2=X12+X22++Xn2\chi^2=X^2_1+X^2_2+\cdots+X^2_n又称为χ2(n)\chi^2(n)的典型模式,必须熟记

6.2.2 χ2\chi^2分布的性质

  1. χ2χ2(n)\chi^2\sim\chi^2(n),对给定的a(0<a<1)a(0<a<1),称满足条件
    P{χ2>χα2(n)}=χα2(n)+f(x)dx=αP\{\chi^2>\chi^2_\alpha(n)\}=\int^{+\infty}_{\chi^2_\alpha(n)}f(x)dx=\alpha
    的点χα2(n)\chi^2_\alpha(n)χ2(n)\chi^2(n)分布上α\alpha分位点。对不同的α\alpha和n,χα2(n)\chi^2_\alpha(n)通常通过查表求得
  2. χ2χ2(n)\chi^2\sim\chi^2(n),则E(χ2)=n,D(χ2)=2nE(\chi^2)=n,D(\chi^2)=2n
  3. χ12χ2(n1),χ22χ2(n2)\chi^2_1\sim\chi^2(n_1),\chi^2_2\sim\chi^2(n_2),且χ12\chi^2_1χ22\chi^2_2相互独立,则χ12+χ22χ2(n1+n2)\chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2)

6.2.3 t分布

定义 设随机变量X和Y相互独立,且XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi^2(n),则称随机变量
T=XY/nT=\frac{X}{\sqrt{Y/n}}
服从自由度为n的t分布,基座Tt(n)T\sim t(n)

注:满足X,Y独立,XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi^2(n)三条件的T=XY/nT=\frac{X}{\sqrt{Y/n}}称为t(n)的典型模式

6.2.4 t分布的性质

  1. t分布的概率密度f(x)是偶函数,即f(x)=f(-x),且当n充分大时,t(n)分布近似于N(0,1)分布
  2. Tt(n)T\sim t(n),对给定的α(0<α<1)\alpha(0<\alpha<1),称满足条件
    P{T>tα(n)}=ta(n)+f(x)dx=αP\{T>t_\alpha(n)\}=\int^{+\infty}_{t_a(n)}f(x)dx=\alpha
    的点ta(n)t_a(n)为t(n)分布上α\alpha分位点
  3. 由于t(n)分布的概率密度为偶函数,可知t分布的双侧α\alpha分位点tα/2(n)t_{\alpha/2}(n),即
    P{T>tα/2(n)}=αP\{|T|>t_{\alpha/2}(n)\}=\alpha

显然t1α(n)=tα(n)t_{1-\alpha}(n)=-t_{\alpha}(n)

6.2.5 F分布

定义 设随机变量X和Y相互独立,且Xχ2(n1),Yχ2(n2)X\sim \chi^2(n_1),Y\sim\chi^2(n_2),则称随机变量
F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2}

服从自由度为(n1,n2)(n_1,n_2)的F分布,基座FF(n1,n2)F\sim F(n_1,n_2),其中n1n_1n2n_2分别称为第一自由度和第二自由度

注:满足X,Y独立,Xχ2(n1),Yχ2(n2)X\sim \chi^2(n_1),Y\sim \chi^2(n_2)三条件的F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2}称为F(n1,n2)F(n_1,n_2)的典型模式

6.2.6 F分布的性质

  1. FF(n1,n2)F\sim F(n_1,n_2),对给定的α(0<α<1)\alpha(0<\alpha<1),称满足条件
    P{F>Fα(n1,n2)}=Fα(n1,n2)+f(x)dx=αP\{F>F_{\alpha}(n_1,n_2)\}=\int^{+\infty}_{F_\alpha(n_1,n_2)}f(x)dx=\alpha
    的点Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2)分布的上α\alpha分位点

  2. 如果FF(n1,n2)F\sim F(n_1,n_2),则1FF(n2,n1)\frac{1}{F}\sim F(n_2,n_1),且有
    F1α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}

6.2.7 一个正态总体的抽样分布

设总体XN(μ,σ2),X1,X2,,XnX\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n是来自总体的样本,样本均值为Xˉ\bar{X},样本方差为S2S^2,则有:

  1. XˉN(μ,σ2n),U=Xˉμσ/nN(0,1)\bar{X}\sim N(\mu,\frac{\sigma^2}{n}),U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)
  2. Xˉ\bar{X}S2S^2相互独立,且χ2=(n1)2S2σ2χ2(n1)\chi^2=\frac{(n-1)^2S^2}{\sigma^2}\sim \chi^2(n-1)
  3. T=XˉμS/nt(n1)T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)
  4. χ2=1σ2i=1n(Xiμ)2χ2(n)\chi^2=\frac{1}{\sigma^2}\sum\limits^n_{i=1}(X_i-\mu)^2\sim \chi^2(n)

6.2.8 两个正态总体的抽样分布

设总体XN(μ1,σ12)X\sim N(\mu_1,\sigma^2_1)和总体YN(μ2,σ22),X1,X2,,Xn1Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}Y1,Y2,,Yn2Y_1,Y_2,\cdots,Y_{n_2}是分别来自总体X和Y的样本且相互独立,样本均值分别为Xˉ\bar{X}Yˉ\bar{Y},样本方差分别为S12S^2_1S22S^2_2,则有

  1. XˉYˉN(μ1μ2,σ12n1+σ22n2),U=(XˉYˉ)(μ1μ2)sqrtσ12n1+σ2n1N(0,1)\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}),U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2}{n_1}}}\sim N(0,1)

  2. 如果σ12=σ22\sigma^2_1=\sigma^2_2,则
    T=XˉYˉ(μ1μ2)Sω1n1+1n2t(n1+n22)T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)
    其中Sω2=(n11)S12+(n21)S22n1+n22S^2_\omega=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}

  3. F=S12/σ12S22/σ22F(n11,n21)F=\frac{S^2_1/\sigma^2_1}{S^2_2/\sigma^2_2}\sim F(n_1-1,n_2-1)

题目中的定理

概率统计中常涉及积分0+x2exdx\int^{+\infty}_0 x^2e_{-x}dx,或更一般地要计算积分0+xnexdx\int^{+\infty}_0 x^n e^{-x}dx我们不难推导0+xnexdx=n0+xn1exdx==n!\int^{+\infty}_0 x^ne^{-x}dx=n\int^{+\infty}_0 x^{n-1}e^{-x}dx=\cdots=n!

第七章 参数估计

1 点估计

7.1.1 点估计

定义 用样本X1,X2,,XnX_1,X_2,\cdots,X_n构造的统计量θ^(X1,X2,,Xn)\hat{\theta}(X_1,X_2,\cdots,X_n)来估计未知参数θ\theta称为点估计。统计量θ^(X1,X2,,Xn)\hat{\theta}(X_1,X_2,\cdots,X_n)称为估计量

注:估计量是随机变量,它所取得的观测值θ^(x1,x2,,xn)\hat{\theta}(x_1,x_2,\cdots,x_n)称为估计值。有时将θ\theta的估计量和估计值统称为θ\theta的估计

7.1.2 无偏估计量

定义θ^\hat{\theta}θ\theta的估计量,如果E(θ^)=θE(\hat{\theta})=\theta,则称θ^=θ^(X1,X2,,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)是未知参数θ\theta的无偏估计量

7.1.3 更有效估计量

定义θ^1\hat{\theta}_1θ^2\hat{\theta}_2都是θ\theta的无偏估计量,且D(θ^1)D(θ^2)D(\hat{\theta}_1)\leq D(\hat{\theta}_2),则称θ^1\hat{\theta}_1θ^2\hat{\theta}_2更有效,或θ^1\hat{\theta}_1θ^2\hat{\theta}_2更有效估计量

7.1.4 一致估计量

定义θ^(X1,X2,,Xn)\hat{\theta}(X_1,X_2,\cdots,X_n)θ\theta的估计值,如果θ^\hat{\theta}依概率收敛于θ\theta,则称θ^(X1,X2,,Xn)\hat{\theta}(X_1,X_2,\cdots,X_n)θ\theta的一致估计量

2 估计量的求法和区间估计

7.2.1 矩估计法

定义 用样本矩估计响应的总体矩,用样本矩的函数估计总体矩相应的函数,然后求出要估计的参数,称这种估计法为矩估计法

7.2.2 矩估计法步骤

设总体X的分布含有未知参数θ1,θ2,,θk,αl=E(Xl)\theta_1,\theta_2,\cdots,\theta_k,\alpha_l=E(X^l)存在,显然它是θ1,θ2,,θk\theta_1,\theta_2,\cdots,\theta_k的函数,记作αl(θ1,θ2,,θk),l=1,2,,k\alpha_l(\theta_1,\theta_2,\cdots,\theta_k),l=1,2,\cdots,k。样本的l阶原点矩为Al=1ni=1nXilA_l=\frac{1}{n}\sum\limits^n_{i=1}X^l_i,令
αl(θ1,θ2,,θk)=Al,l=1,2,,k\alpha_l(\theta_1,\theta_2,\cdots,\theta_k)=A_l,l=1,2,\cdots,k
从这k个方程组中,可以解得θ1,θ2,,θk\theta_1,\theta_2,\cdots,\theta_k

矩估计法不需要知道总体的具体分布数学形式,只要知道各阶矩存在

如果不同原点矩,而用中心矩也可以求解:用样本中心距等于总体中心距来建立方程组

求k个参数的估计一般就列出以借据到k阶矩的方程。考试大纲只要求最多两个参数的估计,故一般最多两个方程

g(α1,α2)g(\alpha_1,\alpha_2)是一阶矩α1\alpha_1和二阶矩α2\alpha_2的函数,而α^1\hat{\alpha}_1α^2\hat{\alpha}_2分别为α1\alpha_1α2\alpha_2的矩估计,则g(α^1,α^2)g(\hat{\alpha}_1,\hat{\alpha}_2)就是g(α1,α2)g(\alpha_1,\alpha_2)的矩估计

7.2.3 最大似然估计法

X1,X2,,XnX_1,X_2,\cdots,X_n是来自总体X的样本,x1,x2,,xnx_1,x_2,\cdots,x_n是样本值,θ\theta是待估参数

1 似然函数

定义 对于离散型总体X,设其概率分布为P{X=αi}=p(αi,θ),i=1,2,P\{X=\alpha_i\}=p(\alpha_i,\theta),i=1,2,\cdots,称函数
L(θ)=L(X1,X2,,Xn;θ)=i=1np(Xi;θ)L(\theta)=L(X_1,X_2,\cdots,X_n;\theta)=\prod^n_{i=1}p(X_i;\theta)
为参数θ\theta的似然函数
对于连续型总体X,概率密度为f(x;θ)f(x;\theta),则称函数
L(θ)=L(X1,X2,,Xn;θ)=i=1nf(Xi;θ)L(\theta)=L(X_1,X_2,\cdots,X_n;\theta)=\prod^n_{i=1}f(X_i;\theta)为参数θ\theta的似然函数

2 最大似然估计法

定义 对于给定的样本值(x1,x2,,xn)(x_1,x_2,\cdots,x_n),使似然函数L(x1,x2,,xn;θ)L(x_1,x_2,\cdots,x_n;\theta)达到最大值的参数值θ^=(^x1,x2,,xn)\hat{\theta}=\hat(x_1,x_2,\cdots,x_n)称为未知参数θ\theta的最大似然估计值,相应的使似然函数L(X1,X2,,Xn;θ)L(X_1,X_2,\cdots,X_n;\theta)达到最大值的参数值θ^=θ^(X1,X2,,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)称为θ\theta的最大似然估计量。一般统称为θ\theta的最大似然估计。称这种估计法为最大似然估计法

7.2.4 最大似然估计法步骤

如果L(θ)L(\theta)lnL(θ)\ln L(\theta)关于θ\theta可微,值θ^\hat{\theta}往往可以从方程
dL(θ)dθ=0dlnL(θ)dθ=0\frac{dL(\theta)}{d\theta}=0或\frac{d\ln L(\theta)}{d\theta}=0
中求解,称这两个方程为似然方程

如果要估计的参数是两个,θ1\theta_1θ2\theta_2,则得似然方程组
{L(θ)θ1=0L(θ)θ2=0{lnL(θ)θ1=0lnL(θ)θ2=0\begin{cases}\frac{\partial L(\theta)}{\partial \theta_1}=0\\ \frac{\partial L(\theta)}{\partial \theta_2}=0\end{cases}或 \begin{cases}\frac{\partial\ln L(\theta)}{\partial\theta_1}=0\\ \frac{\partial\ln L(\theta)}{\partial\theta_2}=0\end{cases}
解这两个方程组,可以得到θ1^\hat{\theta_1}θ2^\hat{\theta_2}

有时,使L(θ)L(\theta)lnL(θ)\ln L(\theta)达到最大值的θ^\hat{\theta}不一定是L(θ)L(\theta)lnL(θ)\ln L(\theta)驻点,这时不能用似然方程来求解,应采用其他方法求最大似然估计

7.2.5 区间估计

1 置信区间

定义θ\theta是总体X的未知参数,X1,X2,,XnX_1,X_2,\cdots,X_n是来自总体X的样本,对于给定的α(0<α<1)\alpha(0<\alpha<1),如果两个统计量满足
P{θ1<θ<θ2}=1αP\{\theta_1<\theta<\theta_2\}=1-\alpha
则称随机区间(θ1,θ2)(\theta_1,\theta_2)为参数θ\theta的置信水平(或置信度)为1α1-\alpha的置信区间(或区间估计),简称为θ\theta1α1-\alpha置信区间,θ1\theta_1θ2\theta_2分别称为置信下限和置信上限

2 一个正态总体参数的区间估计

设总体XN(μ,σ2),X1,X2,,XnX\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n是来自总体X的样本,Xˉ\bar{X}是样本均值,S2S^2是样本方差。下表列出了μ\muσ2\sigma^21α1-\alpha置信区间

未知参数 1α1-\alpha置信区间
μ,已知σ2\mu,已知\sigma^2 (Xˉuα2σn,Xˉ+uα2σn)(\bar{X}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\bar{X}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})
μ,未知σ2\mu,未知\sigma^2 (Xˉtα2(n1)Sn,Xˉ+tα2(n1)Sn)(\bar{X}-t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}},\bar{X}+t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}})
σ2\sigma^2 ((n1)S2χα22(n1),(n1)S2χ1α22(n1))(\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)})

3 两个正态总体参数的区间估计

设总体XN(μ1,σ12)X\sim N(\mu_1,\sigma^2_1)和总体YN(μ2,σ22),X1,X2,,Xn1Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}Y1,Y2,,Yn2Y_1,Y_2,\cdots,Y_{n_2}分别是来自总体X和Y的样本。Xˉ,S12,Yˉ,S22\bar{X},S^2_1,\bar{Y},S^2_2是相应的样本均值和样本方差

Sω2=(n11)S12+(n21)S22n1+n22S^2_\omega=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}
下表列出了μ1μ2\mu_1-\mu_2σ12σ22\frac{\sigma^2_1}{\sigma^2_2}1α1-\alpha置信区间

未知参数 1α1-\alpha置信区间
μ1μ2\mu_1-\mu_2,已知σ12,σ22\sigma^2_1,\sigma^2_2 (XˉYˉuα2σ12n1+σ22n2,XˉYˉ+uα2σ12n1+σ22n2)(\bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}},\bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}})
μ1μ2\mu_1-\mu_2,未知σ12,σ22\sigma^2_1,\sigma^2_2,但σ12=σ22\sigma^2_1=\sigma^2_2 (XˉYˉtα2(n1+n22)Sω1n1+1n2,XˉYˉ+tα2(n1+n22)Sω1n1+1n2)(\bar{X}-\bar{Y}-t_{\frac{\alpha}{2}}(n_1+n_2-2)S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},\bar{X}-\bar{Y}+t_{\frac{\alpha}{2}}(n_1+n_2-2)S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}})
σ12σ22\frac{\sigma^2_1}{\sigma^2_2} (S12S221Fα2(n11,n21),S12S22Fα2(n21,n11))(\frac{S^2_1}{S^2_2}\cdot \frac{1}{F_{\frac{\alpha}{2}}(n_1-1,n_2-1)},\frac{S^2_1}{S^2_2}F_{\frac{\alpha}{2}}(n_2-1,n_1-1))

第八章 假设检验

8.1 实际推断原理

小概率事件在一次试验中实际上是不会发生的,实际推断原理又称小概率原理

8.2 假设检验

  1. 假设是指关于总体的论断或命题,常用字母"H"表示,假设分为基本假设H0H_0(又称原假设,零假设)和备选假设(又称备择假设,对立假设)。还可将假设分为参数假设和分参数假设,参数假设是指已知总体分布函数形式,对其中未知参数的假设,其他的假设就是非参数假设,也可将假设分为简单假设和复合假设。完全决定总体分布的假设为简单假设,否则为复合假设。
  2. 假设检验:根据样本,按照一定规则判断所做假设H0H_0的真伪,并作出接受还是拒绝接受H0H_0的决定

8.3 两类错误

拒绝实际真的假设H0H_0(弃真)称为第一类错误

接受实际不真的假设H0H_0(纳伪)称为第二类错误

8.4 显著性检验

  1. 显著性水平:在假设检验中允许犯第一类错误的概率,记为α(0<α<1)\alpha(0<\alpha<1),则α\alpha称为显著水平,它表现了对H0H_0弃真的控制程度,一般α\alpha取0.1,0.05,0.01,0.001等值
  2. 显著性检验:只控制第一类错误概率α\alpha的统计检验,称为显著性检验
  3. 显著性检验的一般步骤
    1. 根据问题要求提出原假设H0H_0
    2. 给出显著性水平$\alpha(0<\alpha<1)
    3. 确定检验统计量及拒绝域形式
    4. 按犯第一类错误的概率等于α\alpha,求出拒绝域W
    5. 根据样本值计算检验统计量T的观测值t,当tWt\in W时,拒绝原假设H0H_0;否则,接受原假设H0H_0

8.5 正态总体参数的假设检验

设显著性水平为α\alpha,单个正态总体为N(μ,σ2)N(\mu,\sigma^2)的参数的假设检验以及两个正态总体N(μ1,σ12)N(\mu_1,\sigma^2_1)N(μ2,σ22)N(\mu_2,\sigma^2_2)μ1μ2\mu_1-\mu_2σ12=σ22\sigma^2_1=\sigma^2_2的假设检验