本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。
:以漫画形式来讲解最基本的统计概念和方法。
- ISBN: 9787121299636
- https://book.douban.com/subject/26906845/
引言:统计无处不在
统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。
统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。
统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。
我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。
实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。
统计学是展示数据的工具,而不是解释数据的工具。
也就是说,“统计”只是将隐藏在混杂的、扑朔迷离的数据中规律性信息,以一种方便解释、易于理解的方式表达出来,用来帮助人们做出判断,而不是代替人们下判断。
以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。
- 如何采集和调查样本。
- 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)
特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。
1 - 收集统计数据
1.1 - 数字
统计并不只关系到数字,而且也关系到我们的信心。
统计的确需要处理大量数字,而且处理起来并不是总是那么简单。
数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。
这要求我们在处理任何数字时,都必须带着适当的怀疑。
不管拿到什么数字,都应该问这样几个问题:
- 你从哪里来?
- 谁导致你出现?
- 为什么?
1.2 - 随机原始数据
很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。
必须知晓的事实:
- 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
- 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。
通过各种方法采集样本观测值,这个过程并不简单。
最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。
理想情况是,采集的样本能正确反映总体。
通过随机采集样本来避免偏差。
实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。
随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。
确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。
1.3 - 排序
问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。
这两种数据各自为政,根本差别:是否能够对其进行数学运算。
在下列情况下采集类别数据:
- 在研究只用文字就能描述的特性时
- 在能够用“是”或“否”回答问题时
在下列情况下采集数值型数据:
- 在研究可以用数字进行比较的特性时
尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。
在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。
简单的图形能让我们集中关注数据表达的确切意义。
- 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
- 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。
1.4 - 侦探工作
分析数据就像解谜一样,最终目的是从一个随机样本中收集证据。然后用这些证据形成对总体的描述。
首先需要学习如何做一些基本的侦探工作。
当开始动手调查任何一批数据时,总是观察四个主要特性:大小。形状,位置。分散性。
大小
一般说来,样本越大,结果越好。
样本大小会直接关系到,对一个总体可以具有的置信水平。
但在实际工作中,样本大小总会受到某种限制。
形状
每一个样本的形状都是独一无二的。
无论数据汇聚成什么形状,总是有其原因的。
- 当所有可能结果都比较相似时,可以称这堆数据是平的。
- 当一批数据因为某种原因围绕一个特定数据聚集在一起。那么可以说这批数据是正态。
- 当一批数据由于某种原因,在一个方向上的尾部比另一个方向的尾部延伸的更长。那么可以说这些数据是偏斜的。
位置
位置是对一批数据在一个数轴上落点的量度,简而言之就是数据聚集的地方。
通常可用一个数字来描述位置:平均数。
尽管平均数在量度位置时很有用,很精确。却并非完美。
平均数具有欺骗性。一批数据出现偏斜,平均数就会极具误导性,此时中位数更能体现数据情况,能更好地描述典型值。
分散性
是对一批数据宽度的度量,也是对变性的度量。
分布越宽,变异越大。
测量分散性,一个简单明了的办法是,算出全距:最大值与最小值的差值,然后分成四块,每块包含相同数目的数据点,中间的两块被称为四分位距(IQR)。
利用全剧可以了解整个样本的每一部分的变异性,尤其对于偏斜数据的调查研究特别有用。
分散性最常见度量方法是标准差(SD)。
范围较宽的数据具有较大的标准差。标准差越大,意味着变异越大。
1.5 - 怪异的错误
特别注意:通过统计永远不能彻底证明任何结论。
发掘两种变量之间的关系时,往往一个潜在变量会影响结论,甚至将结论搞得面目全非。
潜在变量会给各种统计分析带来麻烦。因此统计师的部分工作就是发现潜在变量。
如果不找出这种潜在变量,就会有“以假乱真”的风险。
1.6 - 样本到总体
最终目标是根据样本。对总体做出充满信心的描述。
将样本数据堆积起来之后,形成的堆积图形成为样本直方图,具有形状、背景、分散性等一些重要特性。
把总体堆积起来,所形成的图形称为总体分布,同样也具有形状,位置,分散性的特征。
样本的特性叫做“统计值”,是实际算出来的结果。
总体的特性叫做“参数”,是真正想知道的信息。
虽然无法直接观察参数,却可以利用统计值去发掘参数,尽管无法利用统计值得出确定的参数。