基于粗糙集和模糊聚类的WEB页面挖掘的研究文献综述

 2021-10-15 08:10

毕业论文课题相关文献综述

一、课题意义

在Internet浪潮的冲击下,人们面临着数据爆炸的挑战;随着数据挖掘(DataMining,DM)技术的迅速发展及数据库管理技术的广泛应用,人们积累的数据越来越多,根据有关机构统计,目前互联网的数据以几百兆兆字节来计算,而且增长速度很快,如果将这些庞大的数据用一般的统计分析来处理的话,显然是有心无力的。如何从数以亿计的页面中发现内容,如何合理有效的组织网站的拓扑结构,如何将用户网页进行聚类,以提供个性化服务成了人们迫切希望解决的问题,尤其越对于电子商务网站来说更是如此。Web使用挖掘是获取Web使用数据,即从网页被用户使用的记录文WebLog中抽取感兴趣的模式的过程。分析这些数据可以帮助网站管理者理解用户的行为,得到用户群体普遍的访问行为模式和用户个体的访问摸式,从而根据这种模式为用户定制合适的推荐页面。

二、Web页面挖掘、粗糙集、模糊聚类的介绍

1、Web页面挖掘

数据挖掘是数据处理的一个新的热点和前沿领域,它的研究目标是采用有效的算法,从大量现有的数据集合中发现并找出最初未知,最终可理解的有用知识,并用简明的方式显示出来。数据挖掘与传统的数据库查询区别表现在:前者是主动的、不生成严格的结果集和不同层次的挖掘,而后者则是被动的、只对字段进行严格的查询。

Web挖掘(WebMining),从广义上解释就题通过数据挖掘技术来分析与网站相关的资料,随着Web技术的发展,各种网站数量每天都在激剧增加,特别是将Web转化为关键发展工具的信息网站(电子商务网站),采用各种手段使网站更加具有生命力成为每个经营者首要工作。因此及时了解用户的需求和特点,为每个用户提供个性化、智能化的服务,以吸引大量的用户,就变得尤其重要。其中,网站浏览记录记录了使用者每次访问网站的一些资料,它最能反映使用者对网站的的浏览需求。所以用数据挖掘技术来分析网站浏览记录已成为解决上述问题的主要工具之一。

同传统的数据挖掘一样,Web挖掘主要包括聚类、关联规则分析和序列分析。聚类分析已经广泛应用于市场分析,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征。然而Web日志中存在着许多的噪音数据和信息的不完整性,这导致聚集只是一个模糊的边界,聚集中的对象成员没有一个精确的定义。这样对象成员就有可能不只属于一个聚类。为解决这一问题,我们采用模糊理论,它主要是研究模糊现象、不精确性现象的数学工具。将模糊理论中的模糊聚类应用到Web挖掘中,分析用户访问Web的模式,将特性相同页面聚在一起,为网站设计者提供一个参考的理论平台,改进网站的设计,从而更好地吸引用户,增加企业竞争力。

2、粗糙集理论

Roughsets(粗糙集简称)理论是由波兰华沙理工大学Pawlak教授于20世纪80年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。随着知识发现的兴起,粗糙集理论也受到众多研究者的重视进而受到研究界的广泛注意,它为知识发现、数据挖掘提供了一种新的方法和工具,能很好解决其中的数据多样、数据冗余、噪声数据和不确定性、大规模数据等问题。属性约简是粗糙集的核心内容之一。在处理二维表形式的信息决策表中,它可以在不影响其分类能力的前提下进行属性约简,进而简化数据表的分析处理,提高知识发现的能力和效率。

粗糙集(RS)理论是一种刻化不完整和不确定的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识约简,有效地分析和处理不精确,不一致,不完整等各种不完备信息,从而导出问题的决策或分类规则,并从中发现隐含的知识,揭示潜在的规律。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版