首页 > Data - 深入浅出学统计 - 上篇

Data - 深入浅出学统计 - 上篇

本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

:以漫画形式来讲解最基本的统计概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

引言:统计无处不在

统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。

统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。

统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。

我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。

实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。

统计学是展示数据的工具,而不是解释数据的工具。

也就是说,“统计”只是将隐藏在混杂的、扑朔迷离的数据中规律性信息,以一种方便解释、易于理解的方式表达出来,用来帮助人们做出判断,而不是代替人们下判断。

以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。

  • 如何采集和调查样本。
  • 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)

特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。

1 - 收集统计数据

1.1 - 数字

统计并不只关系到数字,而且也关系到我们的信心。

统计的确需要处理大量数字,而且处理起来并不是总是那么简单。

数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。

这要求我们在处理任何数字时,都必须带着适当的怀疑。

不管拿到什么数字,都应该问这样几个问题:

  • 你从哪里来?
  • 谁导致你出现?
  • 为什么?

1.2 - 随机原始数据

很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。

必须知晓的事实:

  • 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
  • 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。

通过各种方法采集样本观测值,这个过程并不简单。

最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。

理想情况是,采集的样本能正确反映总体。

通过随机采集样本来避免偏差。

实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。

随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。

确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。

1.3 - 排序

问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。

这两种数据各自为政,根本差别:是否能够对其进行数学运算。

在下列情况下采集类别数据:

  • 在研究只用文字就能描述的特性时
  • 在能够用“是”或“否”回答问题时

在下列情况下采集数值型数据:

  • 在研究可以用数字进行比较的特性时

尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。

在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。

简单的图形能让我们集中关注数据表达的确切意义。

  • 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
  • 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。

1.4 - 侦探工作

分析数据就像解谜一样,最终目的是从一个随机样本中收集证据。然后用这些证据形成对总体的描述。

首先需要学习如何做一些基本的侦探工作。

当开始动手调查任何一批数据时,总是观察四个主要特性:大小。形状,位置。分散性。

大小

一般说来,样本越大,结果越好。

样本大小会直接关系到,对一个总体可以具有的置信水平。

但在实际工作中,样本大小总会受到某种限制。

形状

每一个样本的形状都是独一无二的。

无论数据汇聚成什么形状,总是有其原因的。

  • 当所有可能结果都比较相似时,可以称这堆数据是平的。
  • 当一批数据因为某种原因围绕一个特定数据聚集在一起。那么可以说这批数据是正态。
  • 当一批数据由于某种原因,在一个方向上的尾部比另一个方向的尾部延伸的更长。那么可以说这些数据是偏斜的。

位置

位置是对一批数据在一个数轴上落点的量度,简而言之就是数据聚集的地方。

通常可用一个数字来描述位置:平均数。

尽管平均数在量度位置时很有用,很精确。却并非完美。

平均数具有欺骗性。一批数据出现偏斜,平均数就会极具误导性,此时中位数更能体现数据情况,能更好地描述典型值。

分散性

是对一批数据宽度的度量,也是对变性的度量。

分布越宽,变异越大。

测量分散性,一个简单明了的办法是,算出全距:最大值与最小值的差值,然后分成四块,每块包含相同数目的数据点,中间的两块被称为四分位距(IQR)。

利用全剧可以了解整个样本的每一部分的变异性,尤其对于偏斜数据的调查研究特别有用。

分散性最常见度量方法是标准差(SD)。

范围较宽的数据具有较大的标准差。标准差越大,意味着变异越大。

1.5 - 怪异的错误

特别注意:通过统计永远不能彻底证明任何结论。

发掘两种变量之间的关系时,往往一个潜在变量会影响结论,甚至将结论搞得面目全非。

潜在变量会给各种统计分析带来麻烦。因此统计师的部分工作就是发现潜在变量。

如果不找出这种潜在变量,就会有“以假乱真”的风险。

1.6 - 样本到总体

最终目标是根据样本。对总体做出充满信心的描述。

将样本数据堆积起来之后,形成的堆积图形成为样本直方图,具有形状、背景、分散性等一些重要特性。

把总体堆积起来,所形成的图形称为总体分布,同样也具有形状,位置,分散性的特征。

样本的特性叫做“统计值”,是实际算出来的结果。

总体的特性叫做“参数”,是真正想知道的信息。

虽然无法直接观察参数,却可以利用统计值去发掘参数,尽管无法利用统计值得出确定的参数。

转载于:https://www.cnblogs.com/anliven/p/11148937.html

更多相关:

  • 本文是西门子开放式TCP通信的第2篇,上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写,可以点击下方链接阅读:【公众号dotNet工控上位机:thinger_swj】基于Socket访问西门子PLC系列教程(一)在完成上述步骤后,接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示:从上图可以看出...

  • 我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧分成几个其他区域,以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序,以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...

  • 作为一名IT从业者,我来回答一下这个问题。首先,对于具有Java编程基础的人来说,学习Python的初期并不会遇到太大的障碍,但是要结合自己的发展规划来制定学习规划,尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言,相比于Java语言来说,当前Python语言在大数据、人工智能领域的应用更为广泛一些,而且大...

  • 这段时间通过学习相关的知识,最大的变化就是看待事物更加喜欢去了解事物后面的本质,碰到问题后解决问题思路也发生了改变。举个具体的例子,我在学习数据分析,将来会考虑从事这方面的工作,需要掌握的相关专业知识这个问题暂且按下不表,那哪些具体的问题是我需要了解的呢,以下简单罗列:1、了解数据分析师这个岗位在各个地区的需求情况?2、数据分析师的薪...

  • 这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。今天,我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...

  • 本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。 :以漫画形式来讲解最基本的统计概念和方法。 ISBN: 9787121299636https://book.douban.com/subject/26906845/2 - 探寻参数 2.1 - 中心极限定理(Central Limit Theorem) 概率分布曲线...

  • 源地址:http://www.thinkface.cn/thread-146-1-4.html 人脸检测做训练当然可以用OpenCV训练好的xml,但是岂止于此。我们也要动手做!~首先是样本的选取。样本的选取很重要,找了很久才发现几个靠谱的。人脸样本:http://www.vision.caltech.edu/Image_Datase...

  • 文章目录1. 基本接口2. Memtable key个数统计3. Immutable Memtable key个数统计4. Sstables key个数统计5. 疑问...

  •  phpMyVisites   phpMyVisites是一个网站流量统计系统,它能够提供非常详细的统计报告和高级图形报表。phpMyVisites不是一个Apache log分析工具,它建有自己的log。它的特点包括: 安装部署:提供可视化的安装向导,并且使用简单只要把一段简单的Javascript代码添加到你网站的页面中就能够马上...