贝塔斯曼数据奖学金-理论知识总结

上周完成了数据分离理论部分的学习。

这么晚才更新,一方面是想通读之后,可以总揽的角度去看学过的知识。在学生时代一位记忆中的老师也是这样教导:遇到学不懂的先不着急,硬着头皮继续往下学,有时候慢慢前面不懂的知识同了。对于这个课程也是如此,通读下来前后连贯起来,就容易明白了。比如,方差部分,讲师说正负一个标准差所覆盖的部分是68%,两个则是95%。当时听的一脸懵逼,但是就这么硬记着,后面看到Z表的时候就明白了。

第二个,也许是因为懒。

身在国内,只有论坛一种官方方式可以参与互动,当然还有微信群。

转回正题,第一部分 理论知识包含七大专题,依次是1.Intro to Research Methods(研究方法的介绍)2.Visualizing Data(数据的可视化)3.Central Tendency(集中趋势)4.Variability(可变性) 5.Standardizing(标准化) 6.Normal Distribution(正态分布)7.Sampling Distributions(抽样分布)。


第一部分 Visualizing Data(数据的可视化)

学习了数据分析的基本知识(statistical research methods),有两个概念比较重要和新鲜


1.Constructs 中文我自己翻译成构念 或者构造,也就是一些虚拟,需要测量的一些属性,而且还不是特别确定的,比如幸福,痒,心理压力,智商等

2.Operational Definition,定义操作,也就是测量measures constructs的方法。

比如IQ分数,几加仑的汽油,用美元表示的年薪。

 

比较有趣的知识点,是国外科学家早期对随机radomness的定义:

雨点落在一张纸上的位置。

 

二象限,x表示自变量 independent,y轴因变量 dependent variable

 

让我印象深刻的是 金拱门理论 ,对就是麦当劳的那个金拱门,都有麦当劳的两个国家都没有开战过。引导出一个统计学的名言:相关不代表因果(correlation dose not prove causation)。毕竟中日也都有麦当劳嘛。

 

还有一些安慰剂placebo实验,等是在控制变量Controlled Factors。


2.Visualizing Data(数据的可视化)主要学习直方图 Histogram,柱状图Bar Graphs和倾斜分布Skewed Distribution。

直方图很好理解,平时接触的也很多。柱状图有几个特点,柱状图的x轴是分类或者定型,顺序没那么重要。比如柱状图表示大洲统计的结果,不同的品牌,男或女。直方图的x周则是数字化的。

倾斜分布Skewed Distribution分为两种:Positively和Negatively。积极的是前一部分分布的多,消极的是后面部分分布的多。


3.Central Tendency(集中趋势)主要学习3M:众数Mode,中值Median和平均值Mean。

结合第二课的倾斜分布和3M,有一个很好的图去记忆和熟悉。

skew

众数:可以有多个,也可能没有(uniform分布的时候,基本是同等高度),没有计算公式,不是每一个值都影响众数。会跟着binsize 变化。

平均数,有计算公式,受极值的影响。偶数时,最中间的两个数取平均值

让我记忆比较深的是UNC大学因为乔丹,那一年的平均工资很高。

中值,也就是中位数,有公式,而且分奇数和偶数的不同符号公式,比不是严格意义的公式。

Median

3M间的对比

mode median mean


4.Variability(可变性) 主要学习计算标准方差 standard deviation SD。

第4课也是第一部分的分水岭,4-7课都是围绕方差展开。

学到如何判断异常值,根据IQR: interquartilerange 四分位距 Q3-Q1,Q2就是中值Median

<Q1-1.5xIQR 和 >Q3+1.5xIQR

平方差的和叫做SS:sum of squares   ∑(Xi – μ)^2

平方差的平均数 ASS

方差 variace =ASS

标准方差 standard deviation SD -对ASS 求根 ,用σ表示

 

贝塞尔校正系数 Bessel’s Correction(抽样低估了总体的多样性)

利用n-1作为分母来调整。

Bessel's Correction


5.Standardizing(标准化)

主要是计算分布中特定值的z值:与平均值的差值,按多少个方差计算

z=(Xi-μ)/σ  可以为负值。

查询Z表,下一章可以求出所占比率


6.Normal Distribution(正态分布)

主要讨论的是,z和p的关系。

PDF 概率密度函数 曲线下的面积代表概率。

z-table 假设标准化后的分布是正态分布。

z和p的对应,链接 先算z再查p


7.Sampling Distributions(抽样分布)

主要是探讨分组多次取样和总体的关系。

M 样本平均数的平均值。和总体的平均数相等,M=μ

SE 标准差,样本平均数的标准差,SE=σ/√n

我自己想到一个例子,比如我想知道小区居民的平均数,大家又不是同时在家,可以一起统计,那么想到一个方法是,在保安亭,每次统计10个人,早中午各一次,连续三十天(或者更长时间),那么所得10人一组的平均值,加总再计算平均值,得到M就和总体大家平均年龄很相近。得出SE也可以倒推总体标准差。

中心极限定理 The Central Limit Theorem

 

SE中,n扩大4倍,标准误差会减半。

抽样样本的Z值

Z=(Xi – M)/SE

然后可以一样算出P值,算所占比例



总结

第五章Standardizing(标准化) 学的比较欠缺。

前三个章节,没有问题,最后两个章节也已经完全掌握。

奖学金计划3.2-3.4小结

课程的3.2-3.4主要内容:

3.2 以考试和考试前的准备为例,引出调查方法:

  1. 调查多少人
  2. 调查哪些人
  3. 调查的方法

3.3 探如何测量记忆力:

背诵单词数目?最强大脑那些?或者是智商。这个是开放的回答,没有标准答案。

3.4 标题是定义结构

在接头采访行人,如何定义幸福、如何测量幸福、如何定义记忆力、如何测量痒的程度、如何测量人感受到压力?

我觉得有几个人回答的很好:可以用笑的次数测量幸福,用抓痒的次数来定义痒的程度,用血压的高低来测量人感受的压力。

贝塔斯曼数据奖学金-介绍

很荣幸,能入选贝塔斯曼数据分析奖学金计划,琐事较多,直到今天才开始正式的学习,感谢Udacity和贝塔斯曼的支持。

第一篇,课程介绍:

CORE CONTENT: Descriptive Statistics

The next set of lessons cover descriptive statistics and is the CORE CONTENT in this challenge course. You are expected to work through this content well within your 3 month timeline.

Don’t forget, your performance in the course, in addition to your participation in the forums and Slack community will be factors that contribute to the selection of the top students who will be given scholarships to the Data Foundations, Data Analyst, or Business Analyst Nanodegree programs!

核心内容:描述性统计
下一组课程涵盖描述性统计,是本次挑战课程的核心内容。你希望在3个月的时间内完成这个内容。

别忘了,你在课程中的表现,除了你参加论坛和懒散社区之外,还有助于选拔那些将给奖学金基金会、数据分析员或商业分析员纳米学位课程的奖学金的优秀学生。

 

Key Concepts

This course will teach you the basic terms and concepts in statistics as well as guide you through introductory probability.

You will learn how to….

  • Use statistical research methods.
  • Compute and interpret values like: Mean, Median, Mode, Sample, Population, and Standard Deviation.
  • Compute simple probabilities.
  • Explore data through the use of bar graphs, histograms, box plots, and other common visualizations.
  • Investigate distributions and understand a distributions properties.
  • Manipulate distributions to make probabilistic predictions on data.

关键概念
本课程将教你统计学中的基本术语和概念,并指导你介绍概率。

你将学会如何…

采用统计研究方法。
计算和解释值:均值、中值、模式、样本、人口和标准偏差。
计算简单概率。
通过使用条形图、直方图、方框图和其他常见的可视化来探索数据。
研究分布和理解分布特性。
操纵分布以对数据进行概率预测。