判别分析-判别分析的基本思想
原创,时间:2022-12-08 07:22:07
关于判别分析内容导航:
1、判别分析
判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。
判别分析 时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。
判别分析与回归分析相似,可用于确定哪些预测变量与因变量相关,并在给定预测变量的某些值的情况下预测因变量的值。
在实际生活中,判别分析也被广泛用于预测事物的类别归属。
企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。
或是根据各成分含量指标,判断白酒的品牌或水果的产地等。
除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。
1、背景
本次数据使用最为经典的鸢尾花卉数据集。此数据是判别分析中经典的案例数据。该数据是利用花萼长、花萼宽、花瓣长、花瓣宽共4个特征,来预测花的种类(共3类:分别是刚毛鸢尾花、变色鸢尾花和佛吉尼亚鸢尾花;下面全部是类别1,类别2和类别3表示)。数据共有150个样本,包括4个特征和一个预测类别。
2、操作步骤
3、结果分析
①模型训练集和测试集分布
上表是对训练集和测试集整体数据分布的说明,包括样本量、样本比例。
②判别函数
上表展示的是各类别对应的判别函数,结合判别函数和判别特征(自变量X),可计算得到判别分类结果,用于判别样本应该属于哪个类别。
三类表达式分别为:
类别1 = -674.591 + 21.420*花萼长 + 14.079*花萼宽-12.674*花瓣长-10.461*花瓣宽
类别2 = -573.567 + 18.194*花萼长 + 2.091*花萼宽-1.226*花瓣长 + 4.804*花瓣宽
类别3 = -774.160 + 17.001*花萼长 + 0.653*花萼宽 + 2.060*花瓣长 + 14.192*花瓣宽
③训练集预测准确率
判别分析后可通过正确率,召回率和F1-score共三个指标判断训练集数据预测准确情况,三个指标值都是越大越好,SPSSAU建议此三个指标均大于70%。
上表显示,三类的预测准确率均超过90%,说明训练集有很高的预测准确率。
④测试集预测准确率
判别分析后更重要的在于查看测试集数据模型预测准确情况。
上表展示测试集即30个样本数据的预测准确率;上表显示整体正确率为100%。也即说明测试集显示数据全部预测准确,没有预测出错的现象。模型拟合质量非常高。
4、确定未分类数据组别
确定了最终的模型,即可将其他未分类数据分别代入3个公式得到每个判别类别的判别分,对应分值最高的类别,就为最终归属类别。最终将得到的结果,整理为下表:
总结:编号1样本,最终归类为类别1,属于刚毛鸢尾花。编号2样本,最终归类为类别3,属于佛吉尼亚鸢尾花。编号3样本,最终归类为类别3,属于佛吉尼亚鸢尾花。
登录 SPSSAU官网 体验在线数据分析
2、判别分析和聚类分析的区别
聚类分析是无监督分类
,不知道数据点的类别标签,需要自己自动分出来来,简
单说就是一堆东西混到一起了,你要把它们区分开来谁和谁是一类的;判别分析是有监
督的,本身已经知道每个数据点属于哪个类,它的任准除不才架附行务是找到最佳的分类方法,也
来自就是在你这种分类方法下分类的分类效果是最佳的(通常是指错分最少)。
3、判别分析的基本思想
都是拿来进行降维的方法,把多个变量简化少数几个不相关的变量。
判别分析一般结合聚类分析一起做,因为判别分析的前提需要大部分数据已经分好组,再去对待判数据进行归类。
主成份分析与因子分析如出一辙,建议你去看看书。
行业热门话题:
【判别分析和聚类分析的区别】【判别分析的基本思想】【判别分析实验报告】【判别分析结果解读】【判别分析和聚类分析的联系】【判别分析论文】【判别分析的应用案例】【判别分析案例】【判别分析和分类分析的联系和区别】【判别分析是干什么用的】