2018 年 7 月 – 郑家大少

上周完成了数据分离理论部分的学习。

这么晚才更新，一方面是想通读之后，可以总揽的角度去看学过的知识。在学生时代一位记忆中的老师也是这样教导：遇到学不懂的先不着急，硬着头皮继续往下学，有时候慢慢前面不懂的知识同了。对于这个课程也是如此，通读下来前后连贯起来，就容易明白了。比如，方差部分，讲师说正负一个标准差所覆盖的部分是68%，两个则是95%。当时听的一脸懵逼，但是就这么硬记着，后面看到Z表的时候就明白了。

第二个，也许是因为懒。

身在国内，只有论坛一种官方方式可以参与互动，当然还有微信群。

转回正题，第一部分理论知识包含七大专题，依次是1.Intro to Research Methods(研究方法的介绍）2.Visualizing Data（数据的可视化）3.Central Tendency（集中趋势）4.Variability(可变性) 5.Standardizing(标准化) 6.Normal Distribution(正态分布）7.Sampling Distributions（抽样分布）。

第一部分 Visualizing Data（数据的可视化）

学习了数据分析的基本知识（statistical research methods），有两个概念比较重要和新鲜

1.Constructs 中文我自己翻译成构念或者构造，也就是一些虚拟，需要测量的一些属性，而且还不是特别确定的，比如幸福，痒，心理压力，智商等

2.Operational Definition，定义操作，也就是测量measures constructs的方法。

比如IQ分数，几加仑的汽油，用美元表示的年薪。

比较有趣的知识点，是国外科学家早期对随机radomness的定义：

雨点落在一张纸上的位置。

二象限，x表示自变量 independent，y轴因变量 dependent variable

让我印象深刻的是金拱门理论，对就是麦当劳的那个金拱门，都有麦当劳的两个国家都没有开战过。引导出一个统计学的名言：相关不代表因果（correlation dose not prove causation）。毕竟中日也都有麦当劳嘛。

还有一些安慰剂placebo实验，等是在控制变量Controlled Factors。

2.Visualizing Data（数据的可视化）主要学习直方图 Histogram，柱状图Bar Graphs和倾斜分布Skewed Distribution。

直方图很好理解，平时接触的也很多。柱状图有几个特点，柱状图的x轴是分类或者定型，顺序没那么重要。比如柱状图表示大洲统计的结果，不同的品牌，男或女。直方图的x周则是数字化的。

倾斜分布Skewed Distribution分为两种：Positively和Negatively。积极的是前一部分分布的多，消极的是后面部分分布的多。

3.Central Tendency（集中趋势）主要学习3M：众数Mode，中值Median和平均值Mean。

结合第二课的倾斜分布和3M，有一个很好的图去记忆和熟悉。

众数：可以有多个，也可能没有（uniform分布的时候，基本是同等高度），没有计算公式，不是每一个值都影响众数。会跟着binsize 变化。

平均数，有计算公式，受极值的影响。偶数时，最中间的两个数取平均值。

让我记忆比较深的是UNC大学因为乔丹，那一年的平均工资很高。

中值，也就是中位数，有公式，而且分奇数和偶数的不同符号公式，比不是严格意义的公式。

3M间的对比

4.Variability(可变性) 主要学习计算标准方差 standard deviation SD。

第4课也是第一部分的分水岭，4-7课都是围绕方差展开。

学到如何判断异常值，根据IQR： interquartilerange 四分位距 Q3-Q1,Q2就是中值Median

<Q1-1.5xIQR 和 >Q3+1.5xIQR

平方差的和叫做SS：sum of squares ∑（Xi – μ）^2

平方差的平均数 ASS

方差 variace =ASS

标准方差 standard deviation SD -对ASS 求根，用σ表示

贝塞尔校正系数 Bessel’s Correction（抽样低估了总体的多样性）

利用n-1作为分母来调整。

5.Standardizing(标准化)

主要是计算分布中特定值的z值：与平均值的差值，按多少个方差计算

z=（Xi-μ）/σ 可以为负值。

查询Z表，下一章可以求出所占比率

6.Normal Distribution(正态分布）

主要讨论的是，z和p的关系。

PDF 概率密度函数曲线下的面积代表概率。

z-table 假设标准化后的分布是正态分布。

z和p的对应，链接先算z再查p

7.Sampling Distributions（抽样分布）

主要是探讨分组多次取样和总体的关系。

M 样本平均数的平均值。和总体的平均数相等，M=μ

SE 标准差，样本平均数的标准差，SE=σ/√n

我自己想到一个例子，比如我想知道小区居民的平均数，大家又不是同时在家，可以一起统计，那么想到一个方法是，在保安亭，每次统计10个人，早中午各一次，连续三十天（或者更长时间），那么所得10人一组的平均值，加总再计算平均值，得到M就和总体大家平均年龄很相近。得出SE也可以倒推总体标准差。

中心极限定理 The Central Limit Theorem

SE中，n扩大4倍，标准误差会减半。

抽样样本的Z值

Z=(Xi – M)/SE

然后可以一样算出P值，算所占比例

总结

第五章Standardizing(标准化) 学的比较欠缺。

前三个章节，没有问题，最后两个章节也已经完全掌握。

月度归档： 2018 年 7 月

贝塔斯曼数据奖学金-理论知识总结