编辑整理:整理来源:维基百科,浏览量:72,时间:2022-07-03 14:00:01
数据分析采集的方法,常用数据采集方法,数据的采集与分析
统计需要处理数据,数据从何而来?有时候数据很容易收集—— 例如参加一家健身俱乐部的人员的年龄,或一家游戏公司的销售数据。但有时候不太容易,这时候该怎么办呢? —— 当事件数量十分庞大时,很难决定该从何处着手收集数据。
今天我们将看看如何在实际工作中成功收集数据—— 有效地、正确地、省时省钱地收集数据。
这个先给大家举个例子:
曼帝糖果公司是一家糖果和巧克力主要供应商,曼帝糖果公司打算大做电视广告,吸引更多的消费者,广告包括这样一部分内容:宣传口香糖球的口味持续时间。
问题来了:他们该怎样得到相关数据?公司决定进行口味检验,也已经招聘了一批试吃者帮忙完成检验。
这时出现了两个问题:试吃者吃完了所有的糖球; 试吃者的牙齿健康问题让公司破费不少。
那么应该怎么解决这个问题呢?曼帝糖果之所以碰到问题,是因为他们的试吃检验出现了"试吃每一粒糖球"这个环节,这个环节费时、费钱、伤牙齿,并且剩不下糖球卖给消费者。
那么,曼帝糖果该做些什么改变呢?让我们从总体和样本的差别讲起。
糖球总体目前,曼帝糖果对现有的每一粒糖球进行口味检验,若用统计术语表达,那么他们是在用总体进行检验。
统计学上的总体指的是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果——关键在于总体指的是所有对象。
普查指的是对总体进行研究或调查。在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体进行普查。普查可以给出关于总体的准确信息。但并不是在任何情况下都切实可行。当总体数量很大,或者说无穷无尽时,就不可能对每一个对象进行研究了。
糖球样本不需要尝遍所有糖球也能搞清楚糖球口味持续时间—— 你可以不检验总体,而检验样本。
一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当地代表总体,从而得到代表总体的一个子集。对于曼帝糖果来说,一个口香糖球样本就是所选取的一小部分糖球,而不是每一粒糖球。
仅对总体的—个样本进行的研究或调查称为样本调查,在多数情况下,进行样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都较低,且不用考虑整个总体。由于不使用总体。对口香糖球进行样本调查则意味着调查完毕后还会剩下大量糖球。
抽样方法建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有哪些特征。
假定你用一个具有代表性的口香糖样本检验每种口香糖的口味持续时间,检验结果的分布可能如下所示:
即使只是试吃了一个小样本的口香糖,你也能对分布形状得出印象。试吃数量越多,图形形状越清晰。例如,通过查看抽样分布的形状,可以对总体分布的中心位置得出初步印象。
让我们将这张图与实际总体进行比较:
这是总体分布图,看出总体分布于抽样分布有多么接近了吗?
比较这两个图形可以看出,尽管一个图形代表所有的口香糖,另一个图形仅代表其中一些糖球,但二者的大致形状十分相似。他们具有一些共同的特点——例如数据中心的位置相同,这意味着可以用样本数据预测总体数据。
当抽样有误时但愿我们能保证每一个样本都与作为样本来源的总体相吻合—— 可惜,并非每一个样本都酷似其总体。这似乎不是什么大问题,但是,使用具有误导性的样本实际上会导致对总体做出错误的结论。
例如,设想你为了检验糖球口味典型持续时间而抽取一个口香糖球样本,但这个样本却仅包含红色糖球,这时,样本可能能够代表红球,却不能代表总体中各种其他颜色的糖球。如果用这个样本的结果推测有关口香糖球总体的信息,最终会对口香糖球的特性形成错误结论。
使用错误的样本会导致对总体参数(例如均值和标准差)得出错误的结论,你可能会对数据形成截然不同的观点,进而做出错误决策。
麻烦在于,你可能当局者迷 —— 你可能会觉得总体会如此这般,而事实却并非如此。我们务必建立某种机制,确保样本能够可靠地代表总体。
我们想得到这个结果:
而不是这个结果:
如何设计样本?样本的作用是用它判定总体情况。为了确保得到正确结果,需要明智地选择样本。让我们先来认清总体的实质,以便让样本尽量具有代表性。
1、确定目标总体
首先要弄清楚目标总体何在,才知道样本取自哪里。这里的目标总体指的是你正在研究的、并且打算为其采集结果的群体。
你所选择的目标总体在很大程度上取决于你的研究目的,例如,你打算收集世界上所有的口香糖球的数据,还是收集某个特定品牌或某个特定类型的口香糖球的数据?
目标总体要尽可能精确,这样能更为容易地得出尽可能代表总体的样本。
2、确定抽样单位
一旦确定目标总体,就需要决定要抽取哪一类对象,通常,要抽样的对象类型就是在确定目标总体时所描述的对象类型,例如,可以是一粒口香糖球,也可以是一盒口香糖球。
3、确定抽样空间
最后,你需要列一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或编个号。
这张表被称为抽样空间,基本上,你可以从这张表中选取样本。
有时候不可能得出涵盖整个目标总体的抽样空间表,例如,如果要收集生活在某个地区的居民的观点,由于人口流动表中列举的名字就会受到影响;如果所处理的是一些相似的对象,例如口香糖球,那么为每一粒糖球命名或编号恐怕是不可能的,或者说是不现实的。
那么抽样究竟有哪些方式呢?比如简单随机抽样、分层抽样、整体抽样等,因为篇幅问题我们下期统一讲一下,大家记得关注!