《漫画统计学》学习笔记

返回首页

统计学上,真正的调查对象集合被称为总体(Population),从总体中抽取出的数据子集叫做样本(Sample)

数据分为两类:

算术平均值(Arithmetic Mean):

\[\frac{(x_1 + x_2 + \cdots + x_n)}{n}\]

几何平均数(Geometric Mean):

\[\sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}\]

调和平均数(Harmonic Mean):

\[\frac{1}{(\frac{\frac{1}{x_1} + \frac{1}{x_2} + \cdots \frac{1}{x_n}}{n})}\]

中位数(Median):将数据从大到小排列,最中间的值就是中位数。若数据个数是奇数,正中间的数就是中位数;若数据个数是偶数,中间两个数的算术平均数即中位数。

标准差(Standard Deviation):用来衡量一个样本和全体样本平均值的差距。数据离散程度越小,标准差越小;数据越离散,标准差越大。若标准差为 0,表示数据完全不离散,即全为相同的数值。

总体的标准差公式,其中 a 表示算术平均数:

\[\sqrt{\frac{(x_1 - a)^2 + (x_2 - a)^2 + \cdots + (x_n -a)^2}{n}}\]

样本的标准差公式(总体标准差除数为 n,样本为 n-1):

\[\sqrt{\frac{(x_1 - a)^2 + (x_2 - a)^2 + \cdots + (x_n -a)^2}{n-1}}\]

在 WolframAlpha 中输入:Standard Deviation of 16.3 22.4 18.5 18.7 20.1 它会计算出 2.25(按样本标准差)或 2(按总体标准差)。

2017 年 10 月份,链家董事长左晖在一次访谈中声称:

链家的基本管理理念是方差要足够小,为了 80 分而努力,并在此基础上逐渐做得更好。

标准差是方差的算术平方根。所谓方差足够小,就是人均服务质量比较接近,都在 80 分左右,而不是某些人服务特别好,达到 100 分,有些人特别差,只能拿到 50 分。

标准化(Standardization)后的数据叫做标准计分(Standard Score)

\[标准计分 = \frac{数据 - 平均数}{标准差}\]

例如在某次考试中班级的历史、生物两门课程的平均分都是 53 分,历史考分的标准差为 22.7,生物考分的标准差为 18.3,那么 A 同学历史 73 分与 B 同学生物 73 分,那个考分的含金量更高?

历史 73 分的标准计分为:(73 - 53)/22.7 = 0.88,生物 73 分的标准计分为:(73 - 53)/18.3 = 1.09,因此 B 同学的得分更具含金量。

离差(Deviation Score)是对标准计分的一个简单转换。例如设定 离差 = 标准计分 x 10 + 50,那么上例中 A, B 两位同学得分的离差则分别为:0.88 x 10 + 50 = 58.81.09 x 10 + 50 = 60.9

几率密度函数(Probability Density Function 或简称 pdf):将直方图的距离缩小至极限后得到的曲线公式,如正态分布函数等。

正态分布(Normal distribution)又叫高斯分布(Gaussian distribution)

\[f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{- \frac{1}{2} (\frac{x - \mu}{\sigma})^2}\]

μ 表示平均值,σ 表示标准差,e 是自然对数的底其值约为 2.7182。正态分布函数以平均值为中心左右对称,受到标准差和平均值的影响。如果 x 的机密度函数为正态分布,则通常表述为 x 服从平均值为 … 标准差为 … 的正态分布

标准正态分布

\[f(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} x^2}\]

表述为 x 服从标准正态分布,此时平均值为 0,标准差为 1。数值经过标准化后得到的几率密度函数就是标准正态分布。

说明

京ICP备12052177号-1