贝塔斯曼数据奖学金-理论知识总结

上周完成了数据分离理论部分的学习。

这么晚才更新,一方面是想通读之后,可以总揽的角度去看学过的知识。在学生时代一位记忆中的老师也是这样教导:遇到学不懂的先不着急,硬着头皮继续往下学,有时候慢慢前面不懂的知识同了。对于这个课程也是如此,通读下来前后连贯起来,就容易明白了。比如,方差部分,讲师说正负一个标准差所覆盖的部分是68%,两个则是95%。当时听的一脸懵逼,但是就这么硬记着,后面看到Z表的时候就明白了。

第二个,也许是因为懒。

身在国内,只有论坛一种官方方式可以参与互动,当然还有微信群。

转回正题,第一部分 理论知识包含七大专题,依次是1.Intro to Research Methods(研究方法的介绍)2.Visualizing Data(数据的可视化)3.Central Tendency(集中趋势)4.Variability(可变性) 5.Standardizing(标准化) 6.Normal Distribution(正态分布)7.Sampling Distributions(抽样分布)。


第一部分 Visualizing Data(数据的可视化)

学习了数据分析的基本知识(statistical research methods),有两个概念比较重要和新鲜


1.Constructs 中文我自己翻译成构念 或者构造,也就是一些虚拟,需要测量的一些属性,而且还不是特别确定的,比如幸福,痒,心理压力,智商等

2.Operational Definition,定义操作,也就是测量measures constructs的方法。

比如IQ分数,几加仑的汽油,用美元表示的年薪。

 

比较有趣的知识点,是国外科学家早期对随机radomness的定义:

雨点落在一张纸上的位置。

 

二象限,x表示自变量 independent,y轴因变量 dependent variable

 

让我印象深刻的是 金拱门理论 ,对就是麦当劳的那个金拱门,都有麦当劳的两个国家都没有开战过。引导出一个统计学的名言:相关不代表因果(correlation dose not prove causation)。毕竟中日也都有麦当劳嘛。

 

还有一些安慰剂placebo实验,等是在控制变量Controlled Factors。


2.Visualizing Data(数据的可视化)主要学习直方图 Histogram,柱状图Bar Graphs和倾斜分布Skewed Distribution。

直方图很好理解,平时接触的也很多。柱状图有几个特点,柱状图的x轴是分类或者定型,顺序没那么重要。比如柱状图表示大洲统计的结果,不同的品牌,男或女。直方图的x周则是数字化的。

倾斜分布Skewed Distribution分为两种:Positively和Negatively。积极的是前一部分分布的多,消极的是后面部分分布的多。


3.Central Tendency(集中趋势)主要学习3M:众数Mode,中值Median和平均值Mean。

结合第二课的倾斜分布和3M,有一个很好的图去记忆和熟悉。

skew

众数:可以有多个,也可能没有(uniform分布的时候,基本是同等高度),没有计算公式,不是每一个值都影响众数。会跟着binsize 变化。

平均数,有计算公式,受极值的影响。偶数时,最中间的两个数取平均值

让我记忆比较深的是UNC大学因为乔丹,那一年的平均工资很高。

中值,也就是中位数,有公式,而且分奇数和偶数的不同符号公式,比不是严格意义的公式。

Median

3M间的对比

mode median mean


4.Variability(可变性) 主要学习计算标准方差 standard deviation SD。

第4课也是第一部分的分水岭,4-7课都是围绕方差展开。

学到如何判断异常值,根据IQR: interquartilerange 四分位距 Q3-Q1,Q2就是中值Median

<Q1-1.5xIQR 和 >Q3+1.5xIQR

平方差的和叫做SS:sum of squares   ∑(Xi – μ)^2

平方差的平均数 ASS

方差 variace =ASS

标准方差 standard deviation SD -对ASS 求根 ,用σ表示

 

贝塞尔校正系数 Bessel’s Correction(抽样低估了总体的多样性)

利用n-1作为分母来调整。

Bessel's Correction


5.Standardizing(标准化)

主要是计算分布中特定值的z值:与平均值的差值,按多少个方差计算

z=(Xi-μ)/σ  可以为负值。

查询Z表,下一章可以求出所占比率


6.Normal Distribution(正态分布)

主要讨论的是,z和p的关系。

PDF 概率密度函数 曲线下的面积代表概率。

z-table 假设标准化后的分布是正态分布。

z和p的对应,链接 先算z再查p


7.Sampling Distributions(抽样分布)

主要是探讨分组多次取样和总体的关系。

M 样本平均数的平均值。和总体的平均数相等,M=μ

SE 标准差,样本平均数的标准差,SE=σ/√n

我自己想到一个例子,比如我想知道小区居民的平均数,大家又不是同时在家,可以一起统计,那么想到一个方法是,在保安亭,每次统计10个人,早中午各一次,连续三十天(或者更长时间),那么所得10人一组的平均值,加总再计算平均值,得到M就和总体大家平均年龄很相近。得出SE也可以倒推总体标准差。

中心极限定理 The Central Limit Theorem

 

SE中,n扩大4倍,标准误差会减半。

抽样样本的Z值

Z=(Xi – M)/SE

然后可以一样算出P值,算所占比例



总结

第五章Standardizing(标准化) 学的比较欠缺。

前三个章节,没有问题,最后两个章节也已经完全掌握。