第一章随机事件和概率

1 事件、样本空间、事件间的关系与运算

1.1.1 随机试验

定义对随机现象进行观察或实验称为随机试验，简称试验，记作E。它具有如下特点：

可以在相同条件下重复进行
所得到可能结果不止一个，且所有可能结果都能事前已知
每次具体实验之前无法预知会出现哪个结果

例如，抛一枚硬币，记录其结果是正面向上还是反面向上

1.1.2 样本空间

定义随机试验的每一可能结果称为样本点，记作 $\omega$ 。由所有样本点全体组成的集合称为样本空间，记作 $\Omega$

注：显然，样本点是组成样本空间的元素

1.1.3 随机事件

定义样本空间的子集称为随机事件，简称事件，常用字母A,B,C等表示

随机事件是由样本空间中的元素即样本点组成，由一个样本点组成的子集是最简单事件，称为基本事件。随机事件既然由样本点组成，因此，也可能将随机事件看成是由基本事件组成

如果一次试验的结果为某一基本事件出现，就称该基本事件出现或发生。如果组成事件A的一个基本事件出现或发生，也称事件A出现或发生

把 $\Omega$ 看成一事件，则每次试验必有 $\Omega$ 中某一基本事件（即样本点）发生，也就是每次试验 $\Omega$ 必然发生，称 $\Omega$ 为必然事件

把不包含任何样本点的空集 $\varnothing$ 看成一个时间，每次试验 $\varnothing$ 必不发生，称 $\varnothing$ 为不可能事件

1.1.4 事件的包含

定义如果事件A发生必然导致事件B发生，则称事件B包含事件A，或称事件A包含于事件B，记为 $B\supset A或A\subset B$

1.1.5 事件的相等

定义如果 $A\supset B与B\supset A$ 同时成立，则称事件A与事件B相等，记作A=B

注：A=B表示事件A与事件B有完全相同的样本点

1.1.6 事件的交

定义如果事件A与事件B同时发生，则称这样的一个事件为事件A与事件B的交或积，记为 $A\cap B或AB$

集合 $A\cap B$ 是由同时属于A与B的所有公共样本点构成

事件的交可以推广到有限多个事件或可数无穷多个事件的情形：
$\cap^n_{i=1}A_i=A_1\cap A_2\cdots\cap A_n,\cap^{+\infty}_{i=1}A_i=A_1\cap A_2\cap\cdots\cap A_n\cap\cdots$

1.1.7 互斥事件

定义如果事件A与事件B的关系为 $AB=\varnothing$ ，即A与B不能同时发生，则称事件A和事件B为互斥或互不相容

互斥的两事件没有公共样本点

事件的互斥可以推广到有限多个事件或可数无穷多个事件的情形

若n个事件 $A_1,A_2,\cdots,A_n$ 中任意两个事件均互斥，即 $A_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n$ ，则称这n个事件是两两互斥或两两互不相容

如果可数无穷个事件 $A_1,A_2,\cdots,A_n,\cdots$ 中任意两个事件均互斥，即 $A_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n,\cdots$ ，则称这可数无穷个事件是两两互斥或两两互不相容

1.1.8 事件的并

定义如果事件A与事件B至少有一个发生，则称这样一个事件为事件A与事件B的并或和，记为 $A\cup B$

集 $A\cup B$ 是由属于A与B的所有样本点构成

事件的并可推广到有限多个事件或可数无穷多个事件的情形：
$\cup^n_{i=1}A_i=A_1\cup A_2\cup\cdots\cup A_n,\cup^{+\infty}_{i=1}A_i=A_1\cup A_2\cup\cdots\cup A_n\cup\cdots$

1.1.9 对立事件

定义如果事件A与事件B有且仅有一个发生，即同时成立 $A\cup B=\Omega,且A\cap B=\varnothing$ ，则称事件A与事件B为对立事件或互逆事件，记为 $\bar{A}=B或\bar{B}=A$

注：在样本空间中，集合 $\bar{A}$ 是由所有不属于事件A的样本点构成的集合

1.1.10 事件的差

定义事件A发生而事件B不发生称为事件A与事件B的差，记为 $A-B$

在样本空间中集合 $A-B$ 是由属于事件A而不属于事件B的所有样本点构成的集合，显然 $A-B=A\bar{B}$

1.1.11 事件的运算规律

交换律 $A\cup B=B\cup A,A\cap B=B\cap A$
结合律 $A\cup(B\cup C)=(A\cup B)\cup C$
$A\cap(B\cap C)=(A\cap B)\cap C$
分配律 $A\cap(B\cup C)=(A\cap B)\cup(A\cap C)$
$A\cup (B\cap C)=(A\cup B)\cap(A\cup C)$
对偶律 $\bar{A\cup B}=\bar{A}\cap\bar{B},\bar{A\cap B}=\bar{A}\cup \bar{B}$
$\bar{\cup^n_{i=1}A_i}=\cap^n_{i=1}\bar{A_i},\bar{\cap^n_{i=1}A_i}=\cup^n_{i=1}\bar{A_i}$

2 概率、条件概率、独立性和五大公式

1.2.1 概率公理

设试验E的样本空间为 $\Omega$ ，称实值函数P为概率，如果P满足如下三条件：

对于任意事件A，有 $P(A)\geq 0$
对于必然事件 $\Omega$ ，有 $P(\Omega)=1$
对于两两互斥的可数无穷个事件 $A_1,A_2,\cdots,A_n,\cdots$ ，有 $P(A_1\cup A_2\cdots\cup A_n\cup\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots$ ，称P(A)为事件A的概率

1.2.2 条件概率

定义设A,B为两事件，且 $P(A)>0$ ，称
$P(B|A)=\frac{P(AB)}{P(A)}$
为在事件A发生的条件下事件B发生的条件概率

1.2.3 事件独立性

定义设A,B两事件满足等式
$P(AB)=P(A)P(B)$
则称A与B相互独立

设 $A_1,A_2,\cdots,A_n$ 是n个事件，如果对于任意 $k(1<k\leq n)$ ，任意 $1\leq i_1<i_2<\cdots<i_k\leq n$ 满足等式
$P(A_{i_1}A_{i_2}\cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k})$
则称 $A_1,A_2,\cdots,A_n$ 为相互独立的事件

注：n个事件相互独立需要 $C^2_n+C^3_n+\cdots+C^n_n=2^n-n-1$ 个等式成立

1.2.4 概率的性质

$P(\varnothing)=0$
对于两两互斥的有限个事件 $A_1,A_2,\cdots,A_n$ ，有 $P(A_1\cup A_2\cup\cdots\cup A_n)=P(A_1)+P(A_2)+\cdots+P(A_n)$
$P(\bar{A})=1-P(A)$
$A\subset B,则P(A)\leq P(B)$
$0\leq P(A)\leq 1$

注：条件概率也是概率，条件概率也有概率相应的各性质

1.2.5 相互独立的性质

A与B相互独立的充要条件是 $A$ 与 $\bar{B}$ 或 $\bar{A}$ 与 $B$ 或 $\bar{A}$ 与 $\bar{B}$ 相互独立
当 $0<P(A)<1$ 时，A与B独立等价于 $P(B|A)=P(B)$ 或 $P(B|A)=P(B|\bar{A})$ 成立
若 $A_1,A_2,\cdots,A_n$ 相互独立，则 $A_1,A_2,\cdots,A_n$ 必两两独立。反之，若 $A_1,A_2,\cdots,A_n$ 两两独立，则 $A_1,A_2,\cdots,A_n$ 不一定相互独立
当 $A_1,A_2,\cdots,A_n$ 相互独立时，它们的部分事件也是相互独立的

将相互独立的n个事件中任何几个事件换成它们相应的对立事件，则这新组成的n个事件也相互独立

1.2.6 五大公式

加法公式 $P(A\cup B)=P(A)+P(B)-P(AB)$
$P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$
减法公式 $P(A-B)=P(A)-P(AB)$
乘法公式
当P(A)>0时，P(AB)=P(A)P(B|A);
当 $P(A_1 A_2\cdots A_{n-1})>0$ 时，
$P(A_1 A_2\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1 A_2\cdots A_{n-1})$
全概率公式
设 $B_1,B_2,\cdots,B_n$ 满足 $\cup^n_{i=1}B_i=\Omega,B_i B_j=\varnothing(i\neq j)$ 且 $P(B_k)>0,k=1,2,\cdots,n$ ，则对任意事件A有
$P(A)=\sum^n_{i=1}P(B_i)P(A|B_i)$
称满足 $\cup^n_{i=1}B_i=\Omega$ 和 $B_iB_j=\varnothing(i\neq j)$ 的 $B_1,B_2,\cdots,B_n$ 为 $\Omega$ 的一个完备事件组
贝叶斯公式
设 $B_1,B_2,\cdots,B_n$ 满足 $\cup^n_{i=1}B_i=\Omega,B_iB_j=\varnothing(i\neq j)$ 且 $P(A)>0,P(B_k)>0,k=1,2,\cdots,n$ ，则
$P(B_j|A)=\frac{P(B_j)P(A|B_j)}{\sum^n_{i=1}P(B_i)P(A|B_i)},j=1,2,\cdots,n$

注：

概率计算中常要结合对偶律应用性质 $P(\bar{A})=1-P(A)$
计算相互独立事件的概率时，常将事件之间的“并”或“差”转化成“交”来计算。因为事件的独立性是用事件的交的概率来定义的。而将相互独立事件中某个或某几个事件换成相应的对立事件并不影响它们之间的相互独立性，所以讲“并”和“差”化成交后，常常会带来计算上的方便。例如，A和B独立时，
$P(A\cup B)=1-P(\bar{A}\bar{B})=1-P(\bar{A})P(\bar{B})$
$P(A-B)=P(A\bar{B})=P(A)P(\bar{B})$

题目中的定理

零概率事件与任何事件都相互独立。同样对概率为1的事件B，有 $P(\bar{B})=0$ ，即 $\bar{B}$ 与任何事件相互独立，也就有B与任何事件相互独立

3 古典概型与伯努利概型

1.3.1 古典型概率

定义当试验结果为有限n个样本点，且每个样本点的发生具有相等的可能性，如果事件A由 $n_A$ 个样本点组成，则事件A的概率
$P(A)=\frac{n_A}{n}=\frac{A所包含的样本点数}{样本点总数}$
称有限等可能试验中事件A的概率P(A)为古典型概率

1.3.2 几何型概率

定义当试验的样本空间是某区域（该区域可以是一维、二维或三维等等），以 $L(\Omega)$ 表示其几何度量（长度、面积、体积等等）。 $L(\Omega)$ 为有限，且试验结果出现在 $\Omega$ 中任何区域的可能性只与该区域几何度量成正比。事件A的样本点所表示的区域为 $\Omega_A$ ，则事件A的概率
$P(A)=\frac{L(\Omega_A)}{L(\Omega)}=\frac{\Omega_A的几何度量}{\Omega的几何度量}$
称这种样本点个数无限但几何度量上的等可能试验中事件A的概率P(A)为几何型概率

1.3.3 n重伯努利试验

定义把一随机试验独立重复做若干次，即各次试验所联系的事件之间相互独立，且同一事件在各个试验中出现的概率相同，称为独立重复试验

如果每次试验只有两个结果 $A和\bar{A}$ ，则称这种试验为伯努利试验。将伯努利试验独立重复进行n次，称为n重伯努利试验

设在每次试验中，概率 $P(A)=p(0<p<1)$ ，则在n重伯努利试验中事件A发生k次的概率，又称为二项概率公式： $C^k_n p^k(1-p)^{n-k},k=0,1,2,\cdots,n$

题目中的定理

一般来说，如果一个概率同时可用有序和无序的样本空间来计算时，常常用无序要简单些；同时可用两种样本空间计算时，常常用较小的样本空间要简单些

$e^x=\sum\limits^{+\infty}_{i=0}\frac{x^i}{i!}$

第二章随机变量及其概率分布

1 随机变量及其分布函数

2.1.1 随机变量

定义在样本空间 $\Omega$ 上的实值函数 $X=X(\omega),\omega\in \Omega$ ，称 $X(\omega)$ 为随机变量，简记X
注： $X(\omega)$ 的定义域是 $\Omega$ ，常用X,Y,Z等表示随机变量

2.1.2 分布函数

定义对于任意实数x，记函数 $F(x)=P\{X\leq x\},-\infty<x<+\infty$ ，称F(x)为随机变量X的分布函数

分布函数F(x)是定义在 $(-\infty,+\infty)$ 上的一个实值函数，F(x)的值等于随机变量X在区间 $(-\infty,x]$ 内取值的概率，即事件 $X\leq x$ 的概率

有的书上将分布函数定义成 $F(x)=P\{X<x\}$ ，考试大纲要求是 $F(x)=P\{X\leq x\}$

2.1.3 分布函数性质

$0\leq F(x)\leq 1;\lim\limits_{x\to -\infty}F(x)=0,记为F(-\infty)=0;\lim\limits_{x\to +\infty}F(x)=1,记为F(+\infty)=1$
F(x)是单调非减函数，即当 $x_1<x_2$ 时， $F(x_1)\leq F(x_2)$
F(x)是右连续的，即 $F(x+0)=F(x)$
对任意 $x_1<x_2$ ，有 $P\{x_1<X\leq x_2\}=F(x_2)-F(x_1)$
对任意的x， $P\{X=x\}=F(x)-F(x-0)$

由单调性和 $F(-\infty)=0,F(+\infty)=1$ 可以推出 $0\leq F(x)\leq 1$ ，所以性质1.，2.，3.可以简化为： $F(-\infty)=0,F(+\infty)=1$ ；单调非减；右连续

这恰是函数F(x)成为某一随机变量的分布函数的充要条件

当F(x)在x处连续时， $F(x)-F(x-0)=0$ ，根据性质5.，就有 $P\{X=x\}=0$

2 离散型随机变量和连续性随机变量

2.2.1 离散型随机变量

定义如果一个随机变量的可能取值是有限多个或可数无穷多个，则称它为离散型随机变量

2.2.2 离散型随机变量X的概率分布

定义设离散型随机变量X的可能取值是 $x_1,x_2,\cdots,x_n,\cdots$ ，X取各可能值的概率为
$P\{X=x_k\}=p_k,k=1,2,\cdots$
称上式为离散型随机变量X的概率分布或分布律

分布律也有用列表方式给出的

2.2.3 连续型随机变量及其概率密度

定义如果对随机变量X的分布函数F(x)，存在一个非负可积函数f(x)，使得对任意实数x，都有
$F(x)=\int^x_{-\infty}f(t)dt,-\infty<x<+\infty$
称X为连续型随机变量，函数f(x)称为X的概率密度

注：连续型随机变量的分布函数F(x)必可表示成 $F(x)=\int^x_{-\infty}f(t)dt$ ，所以这时的F(x)一定是 $(\infty,+\infty)$ 上的连续函数，反之，不能说凡是连续的F(x)对应的X一定是连续型随机变量

连续型随机变量的F(x)必连续，但f(x)不一定是连续的

2.2.4 分布律性质

$p_k\geq 0,k=1,2,\cdots$
$\sum\limits^{+\infty}_{k=1}p_k=1$

2.2.5 概率密度f(x)的性质

$f(x)\geq 0$
$\int^{+\infty}_{-\infty}f(x)dx=1$
对任意实数 $x_1<x_2$ ，有 $P\{x_1<X\leq x_2\}=\int^{x_2}_{x_1}f(t)dt$
在f(x)的连续点处有 $F'(x)=f(x)$

函数f(x)成为某一连续型随机变量的概率密度充要条件是f(x)具有性质1和2

如果X是连续型随机变量，则显然有
$P\{x_1<X\leq x_2\}=P\{x_1\leq X<x_2\}=P\{x_1<X<x_2\}=P\{x_1\leq X\leq x_2\}$

3 常用分布

2.3.1 0-1分布

定义如果随机变量X有分布律

X	0	1
P	1-p	p

0<p<1，则称X服从参数为p的0-1分布，或称X具有0-1分布

2.3.2 二项分布

定义如果随机变量X有分布律
$P\{X=k\}=C^k_np^kq^{n-k},k=0,1,2,\cdots,n$
其中 $0<p<1,q=1-p$ ，则称X服从参数为n,p的二项分布，记作 $X\sim B(n,p)$

在n重伯努利试验中，若每次实验成功率为p(0<p<1)，则在n次独立重复试验中成功的总次数X服从二项分布

当n=1时，不难验证二项分布就退化成0-1分布，所以0-1分布也可以记为B(1,p)

2.3.3 几何分布

定义如果随机变量X的分布律为
$P\{X=k\}=pq^{k-1},k=1,2,\cdots$
其中 $0<p<1,q=1-p$ ，则称X服从参数为p的几何分布，或称X具有几何分布

注：在独立地重复做一系列伯努利试验中，若每次试验成功率为p(0<p<1)，则在第k次试验时才首次试验成功的概率服从几何分布

2.3.4 超几何分布

定义如果随机变量X的分布律为
$P\{X=k\}=\frac{C^k_MC^{n-k}_{N-M}}{C^n_N},k=l_1,\cdots,l_2$
其中 $l_1=\max(0,n-N+M),l_2=\min(M,n)$ ，则称随机变量X服从参数为n,N,M的超几何分布

如果N件产品中含有M件次品，从中任意一次取出n件（或从中一件接一件不放回地取n件），令X=抽取的n件产品中的次品件数，则X服从参数为n,N,M的超几何分布

如果N件产品中含有M件次品，从中一件接一件有放回地取n次（即每次取出记录后就放回，再取下一个），则X服从 $B(n,\frac{M}{N})$

2.3.5 泊松分布

定义如果随机变量X的分布律为 $P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,\cdots$ ,其中 $\lambda>0$ 为常数，则称随机变量X服从参数为 $\lambda$ 的泊松分布，记为 $X\sim P(\lambda)$

注：在一段时间内电话总机接到的呼叫次数、候车的旅客数、保险索赔的次数等都服从泊松分布

2.3.6 均匀分布

定义如果连续型随机变量X的概率密度为
$f(x)=\begin{cases}\frac{1}{b-a},& a\leq x\leq b\\ 0,& 其他\end{cases}$
则称X在区间[a,b]上服从均匀分布，记作 $X\sim U[a,b]$

如果概率密度为
$f(x)=\begin{cases}\frac{1}{b-a},& a<x<b\\ 0,& 其他\end{cases}$
则称X在区间(a,b)上服从均匀分布，记作 $X\sim U(a,b)$

注：无论上述哪种情况，它们的分布函数均为
$F(x)=\begin{cases}0,& x<a\\ \frac{x-a}{b-a},& a\leq x<b\\ 1,& b\leq x\end{cases}$

2.3.7 指数分布

定义如果连续型随机变量X的概率密度为
$f(x)=\begin{cases}\lambda e^{-\lambda x},& x>0,\\ 0,& x\leq 0\end{cases}\lambda>0$
则称X服从参数为 $\lambda$ 的指数分布，记作 $X\sim E(\lambda)$

设 $X\sim E(\lambda)$ ，则X的分布函数为
$F(x)=\begin{cases}1-e^{-\lambda x},& x>0\\ 0,& x\leq 0\end{cases}\lambda>0$
指数分布有很多应用，有许多种寿命的分布都近似地服从指数分布

2.3.8 正态分布

定义如果随机变量X的概率密度为
$f(x)=\frac{1}{\sqrt{s\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$
其中 $\mu,\sigma$ 为常数且 $\sigma>0$ ，则称X服从参数为 $\mu,\sigma$ 的正态分布，记作
$X\sim N(\mu,\sigma^2)$
当 $\mu=0,\sigma^2=1$ 时，即 $X\sim N(0,1)$ ，称X服从标准正态分布，此时用 $\varphi(x)$ 表示X的概率密度，即 $\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<+\infty$

注 $X\sim N(\mu,\sigma^2)$ ，其分布函数为
$F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int^x_{-\infty}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt$

当 $X\sim N(0,1)$ 时，分布函数用 $\Phi(x)$ 表示
$\Phi(x)=\frac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}dt$

2.3.9 常用性质

泊松定理：在伯努利试验中， $p_n$ 代表事件A在试验中出现的概率，它与试验总数n有关，如果 $\lim\limits_{n\to\infty}np_n=\lambda$ ，则
$\lim_{n\to\infty}C^k_n p^k_n(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}$
注应用泊松定理的要求：n较大 $(n\geq 100)$ ，p较小 $(p\leq 0.1)$ ，np不太大。这时有近似公式
$C^k_n p^k(1-p)^{n-K}\approx \frac{(np)^k}{k!}e^{-np}$
设 $X\sim U[a,b]$ ，则对 $a\leq c<d\leq b$ ，有
$P\{c<X\leq d\}=\frac{d-c}{b-a}$
即随机变量落入区间[c,d]的概率等于该区间长度与[a,b]长度之比
设 $X\sim E(\lambda)$ ，则有
1. $P\{X>t\}=\int^{+\infty}_t \lambda e^{-\lambda t}dt=e^{-\lambda t},t>0$
2. $P\{X>t+s|X>s\}=\frac{P\{X>t+s\}}{P\{X>s\}}=\frac{e^{-\lambda(t+s)}}{e^{-\lambda s}}=e^{-\lambda t}=P\{X>t\},t,s>0$
  此性质称为指数分布具有“无记忆性”
设 $X\sim N(\mu,\sigma^2)$ ，其分布函数为F(x)，则
1. $F(x)=\Phi(\frac{x-\mu}{\sigma})$
2. $P\{a<X\leq b\}=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma}),a<b$
3. 概率密度f(x)关于 $x=\mu$ 对称， $\varphi(x)$ 是偶函数
4. $\Phi(-x)=1-\Phi(x),\Phi(0)=\frac{1}{2}$
5. 当 $X\sim N(0,1)$ ，有 $P\{|X|\leq a\}=2\Phi(a)-1$

第三章多维随机变量及其分布

1 二维随机变量及其分布

3.2.1 二维随机变量

定义设 $X=X(\omega),Y=Y(\omega)$ 是定义在样本空间 $\Omega$ 上的两个随机变量，则称向量 $(X,Y)$ 为二维随机变量，或随机向量

3.1.2 二维随机变量(X,Y)的分布

定义 $F(x,y)=P\{X\leq x,Y\leq y\},-\infty<x<+\infty,-\infty<y<+\infty$

3.1.3 二维随机变量的边缘分布

二维随机变量(X,Y)的分布函数为F(x,y)，分别称 $F_X(x)=P\{X\leq x\}$ 和 $F_Y(y)=P\{Y\leq y\}$ 为(X,Y)关于X和关于Y的边缘分布

注：显然，边缘分布 $F_X(x)$ 和 $F_Y(y)$ 与二维随机变量 $F(x,y)$ 有如下关系：
$F_X(x)=P\{X\leq x\}=P\{X\leq x,Y<+\infty\}=F(x,+\infty)$
$F_Y(y)=P\{Y\leq y\}=P\{X<+\infty,Y\leq y\}=F(x,+\infty)$
这里 $F(x,+\infty)$ 应理解为 $\lim\limits_{y\to +\infty}F(x,y)$

3.1.4 二维随机变量的条件分布

定义如果对于任意给定的 $\varepsilon>0,P\{y-\varepsilon<Y\leq y+\varepsilon\}>0$
$\lim_{\varepsilon\to 0^+}P\{X\leq x|y-\varepsilon<Y\leq y+\varepsilon\}=\lim_{\varepsilon\to 0^+}\frac{P\{X\leq x,y-\varepsilon <Y\leq y+\varepsilon\}}{P\{y-\varepsilon<Y\leq y+\varepsilon\}}$
存在，则称此极限为在条件Y=y下X的条件分布，记作 $F_{X|Y}(x|y)$ 或 $P\{X\leq x|Y=y\}$
类似地可定义 $F_{Y|X}(y|x)$

3.1.5 二维离散型随机变量

定义如果随机变量(X,Y)可能取值为有限个或可数无穷个 $(x_i,y_j),i,j=1,2,\cdots$ ，则称(X,Y)为二维离散型随机变量

3.1.6 二维离散型随机变量的概率分布

定义二维离散型随机变量(X,Y)的可能取值为 $(x_i,y_j)(i,j=1,2,\cdots)$ 称
$P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots$
为二维离散型随机变量(X,Y)的概率分布或分布律

注：也可以用表格形式表示分布律

3.1.7 二维离散型随机变量的边缘分布

定义
$p_{i\cdot}=P\{X=x_i\},i=1,2,\cdots$
$p_{\cdot j}=P\{Y=y_j\},j=1,2,\cdots$
分别称为(X,Y)关于X和关于Y的边缘分布

3.1.8 二维离散型随机变量的条件分布

定义对给定的j，如果 $P\{Y=y_j\}>0,j=1,2,\cdots$ ,则称
$P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{p_{ij}}{p_{\cdot j}},i=1,2\cdots$
为在 $Y-y_j$ 条件下随机变量X的条件分布

3.1.9 二维连续型随机变量及其概率密度

定义如果对随机变量(X,Y)的分布F(x,y)存在非负函数f(x,y)，使得对于任意实数x和y，都有
$F(x,y)=\int^x_{-\infty}\int^y_{-\infty}f(u,v)dudv,-\infty<x,y<+\infty$
则称(X,Y)为二维连续型随机变量，函数f(x,y)称为(X,Y)的概率密度

对连续型随机变量(X,Y)，设它的概率密度为f(x,y)，由 $F_X(x)=F(x,+\infty)=\int^x_{-\infty}[\int^{+\infty}_{-\infty}f(x,y)dy]dx$ 知道，X也是一个连续型变量，且其概率密度为 $f_X(x)=\int^{+\infty}_{-\infty}f(x,y)dy$

3.1.10 二维连续型随机变量的边缘密度

定义 $f_X(x)=\int^{+\infty}_{-\infty}f(x,y)dy$ 和 $f_Y(y)=\int^{+\infty}_{-\infty}f(x,y)dx$
被分别称为(X,Y)关于X和关于Y的边缘密度

3.1.11 二维连续型随机变量的条件密度

定义设f(x,y)在点(x,y)连续， $f_Y(y)$ 连续且 $f_Y(y)>0$ ，则条件分布
$F_{X|Y}(x|y)=\int^x_{-\infty}\frac{f(s,y)}{f_Y(y)}ds$
其中 $\frac{f(x,y)}{f_Y(y)}$ 被称为在条件Y=y下的条件密度，记作 $f_{X|Y}(x|y)$ ，即
$f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)},f_Y(y)>0$
类似地可定义，当 $f_X(x)>0$ 时，
$f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}和F_{Y|X}(y|x)=\int^y_{-\infty}\frac{f(x,s)}{f_X(x)}ds$

3.1.12 F(x,y)的性质

对任意x,y，均有 $0\leq F(x,y)\leq 1$
$F(-\infty,y)=F(x,-\infty)=F(-\infty,-\infty)=0$
$F(+\infty,+\infty)=1$
F(x,y)关于x和关于y均单调不减
F(x,y)关于x和关于y是油连续的
$P\{a<X\leq b,c<Y\leq d\}=F(b,d)-F(b,c)-F(a,d)+F(a,c)$

3.1.13 $P\{X=x_i,Y=y_j\}=p_{ij}$ 的性质

$p_{ij}\geq 0,i,j=1,2,\cdots$
$\sum\limits_i\sum\limits_j p_{ij}=1$

3.1.14 f(x,y)的性质

$f(x,y)\geq 0$
$\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}f(x,y)dxdy=1$
随机变量(X,Y)落在区域D内的概率
$P\{(X,Y)\in D\}=\iint_Df(x,y)dxdy$

2 随机变量的独立性

3.2.1 随机变量的独立性

定义如果对任意x,y都有
$P\{X\leq x,Y\leq y\}=P\{X\leq x\}P\{Y\leq y\}$
即
$F(x,y)=F_X(x)F_Y(y)$
则称随机变量X与Y相互独立

3.2.2 随机变量相互独立充要条件

离散型随机变量X和Y相互独立的充要条件：对任意 $i,j=1,2,\cdots$ 成立
$P\{X=x_i,Y=y_j\}=P\{X=x_i\}P\{Y=y_j\}$
即 $p_{ij}=p_{i\cdot}p_{\cdot j}$
连续型随机变量X和Y相互独立的充要条件：对任意的x,y，成立
$f(x,y)=f_X(x)f_Y(y)$

注：可将两个随机变量的独立性推广到两个以上随机变量的情形

3 二维均匀分布和二维正态分布

3.3.1 二维均匀分布

定义如果二维连续型随机变量(X,Y)的概率密度为
$f(x,y)=\begin{cases}\frac{1}{A},& (x,y)\in G\\ 0,& 其他\end{cases}$
其中A是平面有界区域G的面积，则称(X,Y)服从区域G上的均匀分布

3.3.2 二维正态分布

定义如果二维连续型随机变量(X,Y)的概率密度为
$f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{y-\mu_2)^2}{\sigma^2_2}]\},-\infty<x<+\infty,-\infty<y<+\infty$
其中 $\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,-1<\rho<1$ 均为常数，则称(X,Y)服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2$ 和 $\rho$ 的二维正态分布，记作
$(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)$

3.3.3 重要性质

设(X,Y)在G上服从均匀分布，D是G中的一个部分区域，记它们的面积分别为 $S_D$ 和 $S_G$ ，则 $P\{(X,Y)\in D\}=\frac{S_D}{S_G}$
如果设(X,Y)的概率密度为f(x,y)，显然
$f(x,y)=\begin{cases}\frac{1}{S_G},& (x,y)\in G\\ 0,& 其他\end{cases}$
而 $P\{(X,Y)\in D\}=\iint_D f(x,y)dxdy=\iint_D \frac{1}{S_G}dxdy=\frac{S_D}{S_G}$
对正态分布不加证明地要求记住下列性质：
1. $(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)$ 时，X与Y均服从一维正态：
  $X\sim N(\mu_1,\sigma^2_1),Y\sim N(\mu_2,\sigma^2_2)$
2. $(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)$ 时，X与Y相互独立的充分必要条件是 $\rho=0$
3. (X,Y)服从二维正态时，行列式 $\begin{vmatrix}a&b\\c&d\end{vmatrix}\neq 0,(aX+bY,cX+dY)$ 也服从二维正态，当然 $aX+bY$ 服从一维正态
4. 约定：X与Y均服从一维正态，且相互独立，就是指(X,Y)服从二维正态，且 $\rho=0$

注：如果X与Y均服从一维正态，不能保证(X,Y)服从二维正态，也就不能保证 $aX+bY$ 服从一维正态；

如果X与Y均服从一维正态，且相互独立，则 $aX+bY$ 必正态 $(a^2+b^2\neq 0)$

4 两个随机变量函数 $Z=g(X,Y)$ 的分布

3.4.1 X,Y均为离散型随机变量

Z的分布律的求法与一维离散型类似

3.4.2 X,Y均为连续型随机变量

$F_Z(z)$ 的求法，可用公式
$F_Z(z)=P\{Z\leq z\}=P\{g(X,Y)\leq z\}=\iint_{g(x,y)\leq z}f(x,y)dxdy$
特别当Z=X+Y时，
$\begin{aligned} F_Z(z) &= P\{X+Y\leq z\}=\iint_{x+y\leq z}f(x,y)dxdy\\ &= \int^{+\infty}_{-\infty}dx\int^{z-x}_{-\infty}f(x,y)dy(或\int^{+\infty}_{-\infty}dy\int^{z-y}_{-\infty}f(x,y)dx) \end{aligned}$
由此可得Z=X+Y的概率密度为
$f_Z(z)=\int^{+\infty}_{-\infty}f(x,z-x)dx$
或 $f_Z(z)=\int^{+\infty}_{-\infty}f(z-y,y)dy$
特别是当X和Y相互独立时， $f(x,y)=f_X(x)f_Y(y)$ ，则
$f_Z(z)=\int^{+\infty}_{-\infty}f_X(x)f_Y(z-x)dx$
或
$f_Z(z)=\int^{+\infty}_{-\infty}f_X(z-y)f_Y(y)dy$
这两个公式成为卷积公式，记为 $f_X *f_Y$

注：随机变量的简单函数通常包括线性函数、初等函数、最大值、最小值、绝对值等

3.4.3 X为离散型随机变量、Y为连续型随机变量

一般对离散型随机变量X的各种可能取值用全概率公式把它们展开，如下：

X	x_1	x_2	\cdots	x_i	\cdots
P	p_1	p_2	\cdots	p_i	\cdots

Y为连续型， $Z=g(X,Y)$ 则
$\begin{aligned}F_Z(z) &= P\{Z\leq z\}=P\{g(X,Y)\leq z\}\\ &= \sum_i P\{X=x_i\}P\{g(X,Y)\leq z|X=x_i\}\\ &= \sum_i p_i P\{g(x_i,Y)\leq z|X=x_i\}\end{aligned}$

第四章随机变量的数字特征

1 随机变量的数学期望和方差

4.1.1 数字期望

定义

离散型随机变量的数学期望
设随机变量X的概率分布为
$P\{X=x_k\}=p_k,k=1,2,\cdots$
如果级数 $\sum\limits^{+\infty}_{k=1}x_kp_k$ 绝对收敛，则称此级数为随机变量X的数学期望或均值，记作 $E(X)$ ，即 $E(X)=\sum\limits^{+\infty}_{k=1}x_kp_k$
连续型随机变量的数学期望
设随机变量X的概率密度为f(x)，如果积分 $\int^{+\infty}_{-\infty}xf(x)dx$ 绝对收敛，则称此积分为随机变量X的数学期望或均值，记作E(X),即
$E(X)=\int^{+\infty}_{-\infty}xf(x)dx$

4.1.2 数学期望的性质

设C是常数，则有E(C)=C
设X是随机变量，C是常数，则有
$E(CX)=CE(X)$
设X和Y是任意两个随机变量，则有
$E(X\pm Y)=E(X)\pm E(Y)$
设随机变量X和Y相互独立，则有
$E(XY)=E(X)E(Y)$

注：性质4要求X和Y的相互独立，可以减弱为X和Y不相关就有E(XY)=E(X)E(Y)。事实上E(XY)=E(X)E(Y)成立的充要条件是X和Y不相关

4.1.3 随机变量X的函数Y=g(X)的数学期望

设随机变量X的概率分布为
$P\{X=x_k\}=p_k,k=1,2,\cdots$
如果级数 $\sum\limits^{+\infty}_{k=1}g(x_k)p_k$ 绝对收敛，则随机变量Y=g(X)的数学期望为
$E(Y)=E[g(X)]=\sum^{+\infty}_{k=1}g(x_k)p_k$
设随机变量X的概率密度为f(x)，如果积分 $\int^{+\infty}_{-\infty}g(x)f(x)dx$ 绝对收敛，则随机变量Y=g(X)的数学期望为
$E(Y)=E[g(X)]=\int^{+\infty}_{-\infty}g(x)f(x)dx$

4.1.4 随机变量(X,Y)的函数Z=g(X,Y)的数学期望

设随机变量(X,Y)的概率分布为
$P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots$
如果级数 $\sum\limits^{+\infty}_{i=1}\sum\limits^{+\infty}_{j=1}g(x_i,y_j)p_{ij}$ 绝对收敛，则随机变量Z=g(X,Y)的数学期望为
$E(Z)=E[g(X,Y)]=\sum\limits^{+\infty}_{i=1}\sum\limits^{+\infty}_{j=1}g(x_i,y_j)p_{ij}$
设随机变量(X,Y)的概率密度为f(x,y)，如果积分 $\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}g(x,y)f(x,y)dxdy$ 绝对收敛，则随机变量Z=g(X,Y)的数学期望为
$E(Z)=E[g(X,Y)]=\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}g(x,y)f(x,y)dxdy$

4.1.5 方差

定义设X是随机变量，如果数学期望 $E\{[X-E(x)]^2\}$ 存在，则称之为X的方差，记作D(X)，即
$D(X)=E\{[X-E(X)]^2\}$
称 $\sqrt{D(X)}$ 为随机变量X的标准差或均方差，记作 $\sigma(X)$ ,即 $\sigma(X)=\sqrt{D(X)}$

4.1.6 方差计算公式

$D(X)=E(X^2)-[E(X)]^2$

由于对任何随机变量X, $D(X)\geq 0$ ，故恒有
$E(X^2)\geq [E(x)]^2$
有时在已知X的数学期望与方差时，还用此公式求 $E(X^2)$

4.1.7 方差的性质

设C是常数，则D(C)=0，反之，从D(X)=0中不能得出X为常数的结论
设X是随机变量，a和b是常数，则有
$D(aX+b)=a^2D(X)$
设随机变量X和Y相互独立，则有
$D(X\pm Y)=D(X)+D(Y)$
注：性质3要求X和Y相互独立，可以减弱为X和Y不相关就有 $D(X\pm Y)=D(X)+D(Y)$ 。事实上 $D(X\pm Y)=D(X)+D(Y)$ 成立的充要条件是X和Y不相关

4.1.8 常用随机变量的数学期望和方差

0-1分布
$E(X)=p,D(X)=p(1-p)$
二项分布， $X\sim B(n,p)$
$E(X)=np,D(X)=np(1-p)$
泊松分布， $X\sim P(\lambda)$
$E(X)=\lambda,D(X)=\lambda$
几何分布， $P\{X=k\}=p(1-p)^{k-1},k=1,2,\cdots,0<p<1$
$E(X)=\frac{1}{p},D(X)=\frac{1-p}{p^2}$
均匀分布， $X\sim U(a,b)$
$E(X)=\frac{a+b}{2},D(X)=\frac{(b-a)^2}{12}$
指数分布， $X\sim E(\lambda)$
$E(X)=\frac{1}{\lambda},D(X)=\frac{1}{\lambda^2}$
正态分布， $X\sim N(\mu,\sigma^2)$
$E(X)=\mu,D(X)=\sigma^2$

2 矩、协方差和相关系数

4.2.1 矩

定义

设X是随机变量，如果
$E(X^k),k=1,2,\cdots$
存在，则称之为X的k阶原点矩
设X是随机变量，如果
$E\{[X-E(X)]^k\},k=1,2,\cdots$
存在，则称之为X的k阶中心矩
设X和Y是两个随机变量，如果
$E(X^kY^l),k,l=1,2,\cdots$
存在，则称之为X和Y的k+l阶混合矩
设X和Y是两个随机变量，如果
$E\{[X-E(X)]^k[Y-E(Y)]^l\},k,l=1,2,\cdots$
存在，则称之为X和Y的k+l阶混合中心矩

4.2.2 协方差

定义对于随机变量X和Y，如果 $E\{[X-E(X)][Y-E(Y)]\}$ 存在，则称之为X和Y的协方差，记作 $Cov(X,Y)$ ，即
$Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$

4.2.3 相关系数

定义对于随机变量X和Y，如果 $D(X)D(Y)\neq 0$ ，则称 $\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ 为X和Y的相关系数，记为 $\rho_{XY}$ ，即
$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
如果 $D(X)D(Y)=0$ ，则 $\rho_{XY}=0$

4.2.4 不相关

定义如果随机变量X和Y的相关系数 $\rho_{XY}=0$ ，则称X和Y不相关

4.2.5 协方差的公式和性质

$Cov(X,Y)=E(XY)-E(X)E(Y)$
$D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$
协方差性质
1. $Cov(X,Y)=Cov(Y,X)$
2. $Cov(aX,bY)=abCov(X,Y)$ ，其中a,b是常数
3. $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$

4.2.6 相关系数性质

$|\rho_{XY}|\leq 1$
$|\rho_{XY}|=1$ 的充分必要条件是存在常数a和b，其中 $a\neq 0$ ，使得
$P\{Y=aX+b\}=1$

4.2.7 独立与不相关

如果随机变量X和Y相互独立，则X和Y必不相关；反之，X和Y不相关时，X和Y却不一定相互独立
对二维正态随机变量(X,Y)，X和Y相互独立的充分必要条件是 $\rho=0$
对二维正态随机变量(X,Y)，X和Y相互独立与X和Y不相关是等价的

第五章大数定律和中心极限定理

5.1 切比雪夫不等式

设随机变量X的数学期望 $E(X)$ 和方差 $D(X)$ 存在，则对任意的 $\varepsilon>0$ ，总有
$P\{|X-E(X)|\geq \varepsilon\}\leq \frac{D(X)}{\varepsilon^2}$

5.2 依概率收敛

设 $X_1,X_2,\cdots,X_n,\cdots$ 是一个随机变量序列，A是一个常数，如果对任意 $\varepsilon>0$ ，有
$\lim_{n\to+\infty}P\{|X_n-A|<\varepsilon\}=1$
则称随机变量序列 $X_1,X_2,\cdots,X_n,\cdots$ 依概率收敛于常数A，记作 $X_n\xrightarrow{P}A$

5.3 切比雪夫大数定律

设 $X_1,X_2,\cdots,X_n,\cdots$ 为两两不相关的随机变量序列，存在常数C，使 $D(X_i)\leq C(i=1,2,\cdots)$ ，则对任意 $\varepsilon>0$ ，有
$\lim_{n\to\infty}P\left\{\left|\frac{1}{n}\sum^n_{i=1}X_i-\frac{1}{n}\sum^n_{i=1}E(X_i)\right|< \varepsilon\right\}=1$

5.4 伯努利大数定律

设随机变量 $X_n\sim B(n,p),n=1,2,\cdots$ ，则对于任意 $\varepsilon>0$ ，有
$\lim_{n\to+\infty}P\left\{\left|\frac{X_n}{n}-p\right|<\varepsilon\right\}=1$

5.5 辛钦大数定律

设随机变量 $X_1,X_2,\cdots,X_n,\cdots$ 独立同分布，具有数学期望 $E(X_i)=\mu,i=1,2,\cdots$ ，则对任意 $\varepsilon>0$ 有
$\lim_{n\to+\infty}P\left\{\left|\frac{1}{n}\sum^n_{i=1}X_i-\mu\right|<\varepsilon\right\}=1$

5.6 棣莫弗——拉普拉斯中心极限定理

设随机变量 $X_n\sim B(n,p)(n=1,2,\cdots)$ ，则对于任意实数x，有
$\lim_{n\to+\infty}P\left\{\frac{X_n-np}{\sqrt{np(1-p)}}\leq x\right\}=\Phi(x)$
其中 $\Phi(x)$ 是标准正态的分布函数

注：定理表明当n充分大时，服从B(n,p)的随机变量 $X_n$ 经标准化后得 $\frac{X_n-np}{\sqrt{np(1-p)}}$ 近似服从标准正态分布N(0,1)，或者说 $X_n$ 近似服从N(np,np(1-p))

5.7 列维——林德伯格中心极限定理

设随机变量 $X_1,X_2,\cdots,X_n,\cdots$ 独立同分布，具有数学期望与方差， $E(X_n)=\mu,D(X_n)=\sigma^2,n=1,2,\cdots$ ，则对于任意实数x，有
$\lim_{n\to\infty}P\left\{\frac{\sum\limits^n_{i=1}X_i-n\mu}{\sqrt{n}\sigma}\leq x\right\}=\Phi(x)$

注：定理表明当n充分大时 $\sum\limits^n_{i=1}X_i$ 的标准化 $\frac{\sum\limits^n_{i=1}X_i-n\mu}{\sqrt{n}\sigma}$ 近似服从标准正态分布N(0,1)，或者说 $\sum\limits^n_{i=1}X_i$ 近似地服从 $N(n\mu,n\sigma^2)$

第六章数理统计的基本概念

1 总体、样本、统计量和样本数字特征

6.1.1 总体

定义数理统计中所研究对象的某项数量指标X的全体称为总体

注：X是一个随机变量，称X的概率分布为总体分布，X的数字特征为总体数字特征，总体中的每个元素称为个体

6.1.2 样本

定义如果 $X_1,X_2,\cdots,X_n$ 相互独立且都与总体X同分布，则称 $X_1,X_2,\cdots,X_n$ 为来自总体的简单随机样本，简称为样本。n为样本容量，样本的具体观测值 $x_1,x_2,\cdots,x_n$ 称为样本值，或称总体X的n个独立观测值

注如果总体X的分布为F(X)，则样本 $X_1,X_2,\cdots,X_n$ 的分布为
$F_n(x_1,x_2,\cdots,x_n)=\prod\limits^n_{i=1}F(x_i)$
如果总体X有概率密度f(x)，则样本 $X_1,X_2,\cdots,X_n$ 的概率密度为
$f_n(x_1,x_2,\cdots,x_n)=\prod\limits^n_{i=1}f(x_i)$
如果总体X有概率分布 $P\{X=a_j\}=p_j,j=1,2,\cdots$ ，则样本 $X_1,X_2,\cdots,X_n$ 的概率分布为
$P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod^n_{i=1}P\{X_i=x_i\}$
其中 $x_i$ 取 $a_1,a_2,\cdots$ 中的某一个数

6.1.3 统计量

定义样本 $X_1,X_2,\cdots,X_n$ 的不含未知参数的函数 $T=T(X_1,X_2,\cdots,X_n)$ 称为统计量

注：作为随机样本的函数，统计量本身也是一个随机变量
如果 $x_1,x_2,\cdots,x_n$ 时样本 $X_1,X_2,\cdots,X_n$ 的样本值，则数值 $T(x_1,x_2,\cdots,x_n)$ 为统计量 $T(X_1,X_2,\cdots,X_n)$ 的观测值

下面所列的样本数字特征、顺序统计量都是最常用的统计量

6.1.4 样本数字特征

设 $X_1,X_2,\cdots,X_n$ 是来自总体X的样本，则称

样本均值 $\bar{X}=\frac{1}{n}\sum\limits^n_{i=1}X_i$
样本方差 $S^2=\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2$
样本标准差 $S=\sqrt{\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2}$
样本k阶原点距 $A_k=\frac{1}{n}\sum\limits^n_{i=1}X^k_i,k=1,2,A_1=\bar{X}$
样本k阶中心距 $B_k=\frac{1}{n}\sum\limits^n_{i=1}(X_i-\bar{X})^k,k=1,2,B_2=\frac{n-1}{n}S^2\neq S^2$

6.1.5 样本数字特征的性质

如果总体X具有数学期望 $E(X)=\mu$ ，则
$E(\bar{X})=E(X)=\mu$
如果总体X具有方差 $D(X)=\sigma^2$ ，则
$D(\bar{X})=\frac{1}{n}D(X)=\frac{\sigma^2}{n},\ E(S^2)=D(X)=\sigma^2$
如果总体X的k阶原点距 $E(X^k)=\mu_k,k=1,2,\cdots$ 存在，则当 $n\to\infty$ 时
$\frac{1}{n}\sum^n_{i=1}X^k_i\xrightarrow{P}\mu_k,k=1,2,\cdots$

2 常用统计抽样分布和正态总体的抽样分布

6.2.1 $\chi^2$ 分布

定义设随机变量 $X_1,X_2,\cdots,X_n$ 相互独立且均服从标准正态分布N(0,1)，则称随机变量 $\chi^2=X^2_1+X^2_2+\cdots+X^2_n$ 服从自由度为n的 $\chi^2$ 分布，记作 $\chi^2\sim\chi^2(n)$

注：n个相互独立标准正态随机变量的平方和 $\chi^2=X^2_1+X^2_2+\cdots+X^2_n$ 又称为 $\chi^2(n)$ 的典型模式，必须熟记

6.2.2 $\chi^2$ 分布的性质

设 $\chi^2\sim\chi^2(n)$ ，对给定的 $a(0<a<1)$ ，称满足条件
$P\{\chi^2>\chi^2_\alpha(n)\}=\int^{+\infty}_{\chi^2_\alpha(n)}f(x)dx=\alpha$
的点 $\chi^2_\alpha(n)$ 为 $\chi^2(n)$ 分布上 $\alpha$ 分位点。对不同的 $\alpha$ 和n， $\chi^2_\alpha(n)$ 通常通过查表求得
设 $\chi^2\sim\chi^2(n)$ ，则 $E(\chi^2)=n,D(\chi^2)=2n$
设 $\chi^2_1\sim\chi^2(n_1),\chi^2_2\sim\chi^2(n_2)$ ，且 $\chi^2_1$ 和 $\chi^2_2$ 相互独立，则 $\chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2)$

6.2.3 t分布

定义设随机变量X和Y相互独立，且 $X\sim N(0,1),Y\sim \chi^2(n)$ ，则称随机变量
$T=\frac{X}{\sqrt{Y/n}}$
服从自由度为n的t分布，基座 $T\sim t(n)$

注：满足X,Y独立， $X\sim N(0,1),Y\sim \chi^2(n)$ 三条件的 $T=\frac{X}{\sqrt{Y/n}}$ 称为t(n)的典型模式

6.2.4 t分布的性质

t分布的概率密度f(x)是偶函数，即f(x)=f(-x)，且当n充分大时，t(n)分布近似于N(0,1)分布
设 $T\sim t(n)$ ，对给定的 $\alpha(0<\alpha<1)$ ，称满足条件
$P\{T>t_\alpha(n)\}=\int^{+\infty}_{t_a(n)}f(x)dx=\alpha$
的点 $t_a(n)$ 为t(n)分布上 $\alpha$ 分位点
由于t(n)分布的概率密度为偶函数，可知t分布的双侧 $\alpha$ 分位点 $t_{\alpha/2}(n)$ ，即
$P\{|T|>t_{\alpha/2}(n)\}=\alpha$

显然 $t_{1-\alpha}(n)=-t_{\alpha}(n)$

6.2.5 F分布

定义设随机变量X和Y相互独立，且 $X\sim \chi^2(n_1),Y\sim\chi^2(n_2)$ ，则称随机变量
$F=\frac{X/n_1}{Y/n_2}$

服从自由度为 $(n_1,n_2)$ 的F分布，基座 $F\sim F(n_1,n_2)$ ，其中 $n_1$ 和 $n_2$ 分别称为第一自由度和第二自由度

注：满足X,Y独立， $X\sim \chi^2(n_1),Y\sim \chi^2(n_2)$ 三条件的 $F=\frac{X/n_1}{Y/n_2}$ 称为 $F(n_1,n_2)$ 的典型模式

6.2.6 F分布的性质

设 $F\sim F(n_1,n_2)$ ，对给定的 $\alpha(0<\alpha<1)$ ，称满足条件
$P\{F>F_{\alpha}(n_1,n_2)\}=\int^{+\infty}_{F_\alpha(n_1,n_2)}f(x)dx=\alpha$
的点 $F_\alpha(n_1,n_2)$ 为 $F(n_1,n_2)$ 分布的上 $\alpha$ 分位点
如果 $F\sim F(n_1,n_2)$ ，则 $\frac{1}{F}\sim F(n_2,n_1)$ ，且有
$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$

6.2.7 一个正态总体的抽样分布

设总体 $X\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n$ 是来自总体的样本，样本均值为 $\bar{X}$ ，样本方差为 $S^2$ ，则有：

$\bar{X}\sim N(\mu,\frac{\sigma^2}{n}),U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
$\bar{X}$ 与 $S^2$ 相互独立，且 $\chi^2=\frac{(n-1)^2S^2}{\sigma^2}\sim \chi^2(n-1)$
$T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
$\chi^2=\frac{1}{\sigma^2}\sum\limits^n_{i=1}(X_i-\mu)^2\sim \chi^2(n)$

6.2.8 两个正态总体的抽样分布

设总体 $X\sim N(\mu_1,\sigma^2_1)$ 和总体 $Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}$ 和 $Y_1,Y_2,\cdots,Y_{n_2}$ 是分别来自总体X和Y的样本且相互独立，样本均值分别为 $\bar{X}$ 和 $\bar{Y}$ ，样本方差分别为 $S^2_1$ 和 $S^2_2$ ，则有

$\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}),U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2}{n_1}}}\sim N(0,1)$
如果 $\sigma^2_1=\sigma^2_2$ ，则
$T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$
其中 $S^2_\omega=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$
$F=\frac{S^2_1/\sigma^2_1}{S^2_2/\sigma^2_2}\sim F(n_1-1,n_2-1)$

题目中的定理

概率统计中常涉及积分 $\int^{+\infty}_0 x^2e_{-x}dx$ ，或更一般地要计算积分 $\int^{+\infty}_0 x^n e^{-x}dx$ 我们不难推导 $\int^{+\infty}_0 x^ne^{-x}dx=n\int^{+\infty}_0 x^{n-1}e^{-x}dx=\cdots=n!$

第七章参数估计

1 点估计

7.1.1 点估计

定义用样本 $X_1,X_2,\cdots,X_n$ 构造的统计量 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 来估计未知参数 $\theta$ 称为点估计。统计量 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 称为估计量

注：估计量是随机变量，它所取得的观测值 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 称为估计值。有时将 $\theta$ 的估计量和估计值统称为 $\theta$ 的估计

7.1.2 无偏估计量

定义设 $\hat{\theta}$ 是 $\theta$ 的估计量，如果 $E(\hat{\theta})=\theta$ ，则称 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 是未知参数 $\theta$ 的无偏估计量

7.1.3 更有效估计量

定义设 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 都是 $\theta$ 的无偏估计量，且 $D(\hat{\theta}_1)\leq D(\hat{\theta}_2)$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效，或 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效估计量

7.1.4 一致估计量

定义设 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 是 $\theta$ 的估计值，如果 $\hat{\theta}$ 依概率收敛于 $\theta$ ，则称 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为 $\theta$ 的一致估计量

2 估计量的求法和区间估计

7.2.1 矩估计法

定义用样本矩估计响应的总体矩，用样本矩的函数估计总体矩相应的函数，然后求出要估计的参数，称这种估计法为矩估计法

7.2.2 矩估计法步骤

设总体X的分布含有未知参数 $\theta_1,\theta_2,\cdots,\theta_k,\alpha_l=E(X^l)$ 存在，显然它是 $\theta_1,\theta_2,\cdots,\theta_k$ 的函数，记作 $\alpha_l(\theta_1,\theta_2,\cdots,\theta_k),l=1,2,\cdots,k$ 。样本的l阶原点矩为 $A_l=\frac{1}{n}\sum\limits^n_{i=1}X^l_i$ ，令
$\alpha_l(\theta_1,\theta_2,\cdots,\theta_k)=A_l,l=1,2,\cdots,k$
从这k个方程组中，可以解得 $\theta_1,\theta_2,\cdots,\theta_k$

矩估计法不需要知道总体的具体分布数学形式，只要知道各阶矩存在

如果不同原点矩，而用中心矩也可以求解：用样本中心距等于总体中心距来建立方程组

求k个参数的估计一般就列出以借据到k阶矩的方程。考试大纲只要求最多两个参数的估计，故一般最多两个方程

设 $g(\alpha_1,\alpha_2)$ 是一阶矩 $\alpha_1$ 和二阶矩 $\alpha_2$ 的函数，而 $\hat{\alpha}_1$ 和 $\hat{\alpha}_2$ 分别为 $\alpha_1$ 和 $\alpha_2$ 的矩估计，则 $g(\hat{\alpha}_1,\hat{\alpha}_2)$ 就是 $g(\alpha_1,\alpha_2)$ 的矩估计

7.2.3 最大似然估计法

设 $X_1,X_2,\cdots,X_n$ 是来自总体X的样本， $x_1,x_2,\cdots,x_n$ 是样本值， $\theta$ 是待估参数

1 似然函数

定义对于离散型总体X，设其概率分布为 $P\{X=\alpha_i\}=p(\alpha_i,\theta),i=1,2,\cdots$ ，称函数
$L(\theta)=L(X_1,X_2,\cdots,X_n;\theta)=\prod^n_{i=1}p(X_i;\theta)$
为参数 $\theta$ 的似然函数
对于连续型总体X，概率密度为 $f(x;\theta)$ ，则称函数
$L(\theta)=L(X_1,X_2,\cdots,X_n;\theta)=\prod^n_{i=1}f(X_i;\theta)$ 为参数 $\theta$ 的似然函数

2 最大似然估计法

定义对于给定的样本值 $(x_1,x_2,\cdots,x_n)$ ，使似然函数 $L(x_1,x_2,\cdots,x_n;\theta)$ 达到最大值的参数值 $\hat{\theta}=\hat(x_1,x_2,\cdots,x_n)$ 称为未知参数 $\theta$ 的最大似然估计值，相应的使似然函数 $L(X_1,X_2,\cdots,X_n;\theta)$ 达到最大值的参数值 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 称为 $\theta$ 的最大似然估计量。一般统称为 $\theta$ 的最大似然估计。称这种估计法为最大似然估计法

7.2.4 最大似然估计法步骤

如果 $L(\theta)$ 或 $\ln L(\theta)$ 关于 $\theta$ 可微，值 $\hat{\theta}$ 往往可以从方程
$\frac{dL(\theta)}{d\theta}=0或\frac{d\ln L(\theta)}{d\theta}=0$
中求解，称这两个方程为似然方程

如果要估计的参数是两个， $\theta_1$ 和 $\theta_2$ ，则得似然方程组
$\begin{cases}\frac{\partial L(\theta)}{\partial \theta_1}=0\\ \frac{\partial L(\theta)}{\partial \theta_2}=0\end{cases}或 \begin{cases}\frac{\partial\ln L(\theta)}{\partial\theta_1}=0\\ \frac{\partial\ln L(\theta)}{\partial\theta_2}=0\end{cases}$
解这两个方程组，可以得到 $\hat{\theta_1}$ 和 $\hat{\theta_2}$

有时，使 $L(\theta)$ 或 $\ln L(\theta)$ 达到最大值的 $\hat{\theta}$ 不一定是 $L(\theta)$ 或 $\ln L(\theta)$ 驻点，这时不能用似然方程来求解，应采用其他方法求最大似然估计

7.2.5 区间估计

1 置信区间

定义设 $\theta$ 是总体X的未知参数， $X_1,X_2,\cdots,X_n$ 是来自总体X的样本，对于给定的 $\alpha(0<\alpha<1)$ ，如果两个统计量满足
$P\{\theta_1<\theta<\theta_2\}=1-\alpha$
则称随机区间 $(\theta_1,\theta_2)$ 为参数 $\theta$ 的置信水平（或置信度）为 $1-\alpha$ 的置信区间（或区间估计），简称为 $\theta$ 的 $1-\alpha$ 置信区间， $\theta_1$ 和 $\theta_2$ 分别称为置信下限和置信上限

2 一个正态总体参数的区间估计

设总体 $X\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n$ 是来自总体X的样本， $\bar{X}$ 是样本均值， $S^2$ 是样本方差。下表列出了 $\mu$ 和 $\sigma^2$ 的 $1-\alpha$ 置信区间

未知参数	$1-\alpha$ 置信区间
$\mu,已知\sigma^2$	$(\bar{X}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\bar{X}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})$
$\mu,未知\sigma^2$	$(\bar{X}-t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}},\bar{X}+t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}})$
$\sigma^2$	$(\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)})$

3 两个正态总体参数的区间估计

设总体 $X\sim N(\mu_1,\sigma^2_1)$ 和总体 $Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}$ 和 $Y_1,Y_2,\cdots,Y_{n_2}$ 分别是来自总体X和Y的样本。 $\bar{X},S^2_1,\bar{Y},S^2_2$ 是相应的样本均值和样本方差

$S^2_\omega=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$
下表列出了 $\mu_1-\mu_2$ 和 $\frac{\sigma^2_1}{\sigma^2_2}$ 的 $1-\alpha$ 置信区间

未知参数	$1-\alpha$ 置信区间
$\mu_1-\mu_2$ ,已知 $\sigma^2_1,\sigma^2_2$	$(\bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}},\bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}})$
$\mu_1-\mu_2$ ,未知 $\sigma^2_1,\sigma^2_2$ ,但 $\sigma^2_1=\sigma^2_2$	$(\bar{X}-\bar{Y}-t_{\frac{\alpha}{2}}(n_1+n_2-2)S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},\bar{X}-\bar{Y}+t_{\frac{\alpha}{2}}(n_1+n_2-2)S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}})$
$\frac{\sigma^2_1}{\sigma^2_2}$	$(\frac{S^2_1}{S^2_2}\cdot \frac{1}{F_{\frac{\alpha}{2}}(n_1-1,n_2-1)},\frac{S^2_1}{S^2_2}F_{\frac{\alpha}{2}}(n_2-1,n_1-1))$

第八章假设检验

8.1 实际推断原理

小概率事件在一次试验中实际上是不会发生的，实际推断原理又称小概率原理

8.2 假设检验

假设是指关于总体的论断或命题，常用字母"H"表示，假设分为基本假设 $H_0$ （又称原假设，零假设）和备选假设（又称备择假设，对立假设）。还可将假设分为参数假设和分参数假设，参数假设是指已知总体分布函数形式，对其中未知参数的假设，其他的假设就是非参数假设，也可将假设分为简单假设和复合假设。完全决定总体分布的假设为简单假设，否则为复合假设。
假设检验：根据样本，按照一定规则判断所做假设 $H_0$ 的真伪，并作出接受还是拒绝接受 $H_0$ 的决定

8.3 两类错误

拒绝实际真的假设 $H_0$ （弃真）称为第一类错误

接受实际不真的假设 $H_0$ （纳伪）称为第二类错误

8.4 显著性检验

显著性水平：在假设检验中允许犯第一类错误的概率，记为 $\alpha(0<\alpha<1)$ ，则 $\alpha$ 称为显著水平，它表现了对 $H_0$ 弃真的控制程度，一般 $\alpha$ 取0.1,0.05,0.01,0.001等值
显著性检验：只控制第一类错误概率 $\alpha$ 的统计检验，称为显著性检验
显著性检验的一般步骤
1. 根据问题要求提出原假设 $H_0$
2. 给出显著性水平$\alpha(0<\alpha<1)
3. 确定检验统计量及拒绝域形式
4. 按犯第一类错误的概率等于 $\alpha$ ，求出拒绝域W
5. 根据样本值计算检验统计量T的观测值t，当 $t\in W$ 时，拒绝原假设 $H_0$ ；否则，接受原假设 $H_0$

8.5 正态总体参数的假设检验

设显著性水平为 $\alpha$ ，单个正态总体为 $N(\mu,\sigma^2)$ 的参数的假设检验以及两个正态总体 $N(\mu_1,\sigma^2_1)$ 与 $N(\mu_2,\sigma^2_2)$ 的 $\mu_1-\mu_2$ 和 $\sigma^2_1=\sigma^2_2$ 的假设检验

第一章 随机事件和概率

1 事件、样本空间、事件间的关系与运算

1.1.1 随机试验

1.1.2 样本空间

1.1.3 随机事件

1.1.4 事件的包含

1.1.5 事件的相等

1.1.6 事件的交

1.1.7 互斥事件

1.1.8 事件的并

1.1.9 对立事件

1.1.10 事件的差

1.1.11 事件的运算规律

2 概率、条件概率、独立性和五大公式

1.2.1 概率公理

1.2.2 条件概率

1.2.3 事件独立性

1.2.4 概率的性质

1.2.5 相互独立的性质

1.2.6 五大公式

题目中的定理

3 古典概型与伯努利概型

1.3.1 古典型概率

1.3.2 几何型概率

1.3.3 n重伯努利试验

题目中的定理

第二章 随机变量及其概率分布

1 随机变量及其分布函数

2.1.1 随机变量

2.1.2 分布函数

2.1.3 分布函数性质

2 离散型随机变量和连续性随机变量

2.2.1 离散型随机变量

2.2.2 离散型随机变量X的概率分布

2.2.3 连续型随机变量及其概率密度

2.2.4 分布律性质

2.2.5 概率密度f(x)的性质

3 常用分布

2.3.1 0-1分布

2.3.2 二项分布

2.3.3 几何分布

2.3.4 超几何分布

2.3.5 泊松分布

2.3.6 均匀分布

2.3.7 指数分布

2.3.8 正态分布

2.3.9 常用性质

第三章 多维随机变量及其分布

1 二维随机变量及其分布

3.2.1 二维随机变量

3.1.2 二维随机变量(X,Y)的分布

3.1.3 二维随机变量的边缘分布

3.1.4 二维随机变量的条件分布

3.1.5 二维离散型随机变量

3.1.6 二维离散型随机变量的概率分布

3.1.7 二维离散型随机变量的边缘分布

3.1.8 二维离散型随机变量的条件分布

3.1.9 二维连续型随机变量及其概率密度

3.1.10 二维连续型随机变量的边缘密度

3.1.11 二维连续型随机变量的条件密度

3.1.12 F(x,y)的性质

3.1.13 P{X=xi,Y=yj}=pijP\{X=x_i,Y=y_j\}=p_{ij}P{X=xi​,Y=yj​}=pij​的性质

3.1.14 f(x,y)的性质

2 随机变量的独立性

3.2.1 随机变量的独立性

3.2.2 随机变量相互独立充要条件

3 二维均匀分布和二维正态分布

3.3.1 二维均匀分布

3.3.2 二维正态分布

3.3.3 重要性质

4 两个随机变量函数Z=g(X,Y)Z=g(X,Y)Z=g(X,Y)的分布

3.4.1 X,Y均为离散型随机变量

3.4.2 X,Y均为连续型随机变量

3.4.3 X为离散型随机变量、Y为连续型随机变量

第四章 随机变量的数字特征

1 随机变量的数学期望和方差

4.1.1 数字期望

4.1.2 数学期望的性质

4.1.3 随机变量X的函数Y=g(X)的数学期望

4.1.4 随机变量(X,Y)的函数Z=g(X,Y)的数学期望

第一章随机事件和概率

第二章随机变量及其概率分布

第三章多维随机变量及其分布

3.1.13 $P\{X=x_i,Y=y_j\}=p_{ij}$ 的性质

4 两个随机变量函数 $Z=g(X,Y)$ 的分布

第四章随机变量的数字特征

第五章大数定律和中心极限定理

第六章数理统计的基本概念

6.2.1 $\chi^2$ 分布

6.2.2 $\chi^2$ 分布的性质

第七章参数估计

第八章假设检验