上周完成了数据分离理论部分的学习。
这么晚才更新,一方面是想通读之后,可以总揽的角度去看学过的知识。在学生时代一位记忆中的老师也是这样教导:遇到学不懂的先不着急,硬着头皮继续往下学,有时候慢慢前面不懂的知识同了。对于这个课程也是如此,通读下来前后连贯起来,就容易明白了。比如,方差部分,讲师说正负一个标准差所覆盖的部分是68%,两个则是95%。当时听的一脸懵逼,但是就这么硬记着,后面看到Z表的时候就明白了。
第二个,也许是因为懒。
身在国内,只有论坛一种官方方式可以参与互动,当然还有微信群。
转回正题,第一部分 理论知识包含七大专题,依次是1.Intro to Research Methods(研究方法的介绍)2.Visualizing Data(数据的可视化)3.Central Tendency(集中趋势)4.Variability(可变性) 5.Standardizing(标准化) 6.Normal Distribution(正态分布)7.Sampling Distributions(抽样分布)。
第一部分 Visualizing Data(数据的可视化)
学习了数据分析的基本知识(statistical research methods),有两个概念比较重要和新鲜
1.Constructs 中文我自己翻译成构念 或者构造,也就是一些虚拟,需要测量的一些属性,而且还不是特别确定的,比如幸福,痒,心理压力,智商等
2.Operational Definition,定义操作,也就是测量measures constructs的方法。
比如IQ分数,几加仑的汽油,用美元表示的年薪。
比较有趣的知识点,是国外科学家早期对随机radomness的定义:
雨点落在一张纸上的位置。
二象限,x表示自变量 independent,y轴因变量 dependent variable
让我印象深刻的是 金拱门理论 ,对就是麦当劳的那个金拱门,都有麦当劳的两个国家都没有开战过。引导出一个统计学的名言:相关不代表因果(correlation dose not prove causation)。毕竟中日也都有麦当劳嘛。
还有一些安慰剂placebo实验,等是在控制变量Controlled Factors。
2.Visualizing Data(数据的可视化)主要学习直方图 Histogram,柱状图Bar Graphs和倾斜分布Skewed Distribution。
直方图很好理解,平时接触的也很多。柱状图有几个特点,柱状图的x轴是分类或者定型,顺序没那么重要。比如柱状图表示大洲统计的结果,不同的品牌,男或女。直方图的x周则是数字化的。
倾斜分布Skewed Distribution分为两种:Positively和Negatively。积极的是前一部分分布的多,消极的是后面部分分布的多。
3.Central Tendency(集中趋势)主要学习3M:众数Mode,中值Median和平均值Mean。
结合第二课的倾斜分布和3M,有一个很好的图去记忆和熟悉。
众数:可以有多个,也可能没有(uniform分布的时候,基本是同等高度),没有计算公式,不是每一个值都影响众数。会跟着binsize 变化。
平均数,有计算公式,受极值的影响。偶数时,最中间的两个数取平均值。
让我记忆比较深的是UNC大学因为乔丹,那一年的平均工资很高。
中值,也就是中位数,有公式,而且分奇数和偶数的不同符号公式,比不是严格意义的公式。
3M间的对比
4.Variability(可变性) 主要学习计算标准方差 standard deviation SD。
第4课也是第一部分的分水岭,4-7课都是围绕方差展开。
学到如何判断异常值,根据IQR: interquartilerange 四分位距 Q3-Q1,Q2就是中值Median
<Q1-1.5xIQR 和 >Q3+1.5xIQR
平方差的和叫做SS:sum of squares ∑(Xi – μ)^2
平方差的平均数 ASS
方差 variace =ASS
标准方差 standard deviation SD -对ASS 求根 ,用σ表示
贝塞尔校正系数 Bessel’s Correction(抽样低估了总体的多样性)
利用n-1作为分母来调整。
5.Standardizing(标准化)
主要是计算分布中特定值的z值:与平均值的差值,按多少个方差计算
z=(Xi-μ)/σ 可以为负值。
查询Z表,下一章可以求出所占比率
6.Normal Distribution(正态分布)
主要讨论的是,z和p的关系。
PDF 概率密度函数 曲线下的面积代表概率。
z-table 假设标准化后的分布是正态分布。
z和p的对应,链接 先算z再查p
7.Sampling Distributions(抽样分布)
主要是探讨分组多次取样和总体的关系。
M 样本平均数的平均值。和总体的平均数相等,M=μ
SE 标准差,样本平均数的标准差,SE=σ/√n
我自己想到一个例子,比如我想知道小区居民的平均数,大家又不是同时在家,可以一起统计,那么想到一个方法是,在保安亭,每次统计10个人,早中午各一次,连续三十天(或者更长时间),那么所得10人一组的平均值,加总再计算平均值,得到M就和总体大家平均年龄很相近。得出SE也可以倒推总体标准差。
中心极限定理 The Central Limit Theorem
SE中,n扩大4倍,标准误差会减半。
抽样样本的Z值
Z=(Xi – M)/SE
然后可以一样算出P值,算所占比例
总结
第五章Standardizing(标准化) 学的比较欠缺。
前三个章节,没有问题,最后两个章节也已经完全掌握。