最小二乘回归方法及其在缺失值填补中的应用文献综述

 2021-11-08 22:12:54

毕业论文课题相关文献综述

研究的目的和意义:在多个领域的研究调查中发现,由于各种已知或者未知因素的影响,往往会导致过程采集的数据出现缺失的情况,因此所采集到的数据往往是不完备的。此时,由于数据的不完备性,往往会导致后继数据处理的有效性严重降低,这样不仅会增加我们分析任务的难度,也会造成分析结果的偏差,从而降低统计工作的效率,甚至对一些维数完整性要求较高的算法都不能有效的实现。因此获取原始数据后非常有必要对原始数据进行必要的缺失值填补。为了有效地解决这个问题,本课题采用了最小二乘回归方法,对残缺的数据进行缺失值填补,从而形成完整的数据集。

缺失值在很多研究领域都很常见但又难以用一种有效的方法对其进行解决,比如人工智能,系统辨识与自适应控制,机器学习等研究领域。通常在理想情况下,每条记录在数据集中都应该是完整的。然而,由于采集的手段,或者一些其他原因,数据的不完整性好像是一种必然!在各种数据库中,数据缺失的情况往往是不可避免的,而数据缺失的原因也是各种各样的,主要可能有下几种:

(1)机械原因。机械原因是指由于机械原因导致的数据采集或保存不成功而造成的数据缺失。例如,存储数据时失败,存储器损坏,或者由于机械故障导致某段时间数据未能收集(往往对于定时数据而言)。

(2)人为原因。人为原因是指由于人的主观失误,历史的局限或者刻意的隐瞒而造成的数据缺失,比如,在市场调查中有些人拒绝透露问题的答案,或被调查的人回答问题是无效的,数据录入人员的不小心造成的失误等。

(3)系统原因。系统原因是指系统对数据的实时性要求较高,即要求在得到这些信息前能迅速做出判断或决策。例如,在向在校学生调查他们关于将来工作的目标或者职业选择的时候,他们可能没有时间去调查他们想选择的职业的情况而只能用缺失值来代替调查结果。

缺失值的处理问题是数据清理及数据预处理领域研究的主要问题之一。这些不完

整、不准确的数据会影响从数据集中抽取模式的正确性和导出规则的准确性,从而会建立错误的数据挖掘模型,进而会使系统产生不准确的分析结果和决策,导致不必要的费用增加或利润的减少,影响信息服务的质量。

在现实应用中数据的缺失往往会造成以下方面的影响:

(l)当数据中含有缺失值时,所获得的信息将会比方案预期的少很多,进而会导致统计量的精度降低;

(2)含有缺失值的个案有时会被视作非缺失值个案,从而造成系统误差,导致计算结果不准确;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。