基于数据清洗的电商需求分析文献综述

 2022-03-18 21:53:38

研究背景及应用

随着时代的发展,我们的生活日益信息化,信息时代的到来,改变了我们传统的生活方式,从书信邮件时代的转变,到如今千家万户的电脑,手机等通讯设备的引进。提高了百姓的生活水平。21世纪以来,电商平台的人群已经不仅仅是年轻人,就连村里的中老年人也加入了电商平台的大军,越来越多的人们选择网上购无,因为便捷而且款式众多,价格便宜,所以我国的网购市场保持着平稳的增速,特别是像去年和今年疫情,因为疫情,人们更加倾向于网购而带来的便利和自身的安全。比如双十一来临,天猫能有几千亿元的历史记录。众多原因可见网购消费已经成为了国名消费必不可少的部分。于此同时,人们在购物网站上浏览,点击,收藏,购买商品的同时留下了大量的用户消费行为信息,这使得研究和分析用户的消费行为成为可能。互联网上的电子商务行为越来越多,推动了网民在电商平台上的快速发展,使整个电子商务行业进入了大数据时代。电子商务用户行为分析对经济,政治和文化上都有着很大的社会发展现实意义。就好比,在很多不同的商品中,如何给用户消费者展示适合他们的商品,通过提供的数据信息预测甚至是准确的定位到买家的心理,推荐他们可能会消费的产品,都是电子商务平台首要解决的一大难题。然而,具有相同背景的用户消费者在什么条件下更喜欢购买怎么样的电商产品,产品的种类、热度、好评率还是被收藏的价值等等商品属性对用户消费者产生了怎么样的购买影响,更是电商平台应该进一步关注的问题,即给他们推荐符合需求的产品。同时,精确的营销推荐还需要把商品和其它相关的信息发送到电商用户中,这与传统模式的营销方法比较,更加具有准确性和实时性。而且,电商用户的购买率和转化率都比较高,这样就可以减少了电商平台在相应的广告营销方面的额,不用向全部的电商用户推广相应的电商产品信息,只需要向有需求有意向的电商用户推广发送电商产品内容,从而减少了电商商品营销的金额[1]。因此,要解决上述问题,必须通过研究电商用户的行为来实现。

  1. 国内外研究概况

国外研究现状

在国外,各个平台的科研工作人员在20世纪末就已经开始离线或者实时性的用户行为数据分析。由于那时科技发展还没有现代的发达,也受限于活跃用户的数据量,用户数据的方法收集起来也很单一,因此那时用户行为的分析和建模是不景气的。但如今,科技发展更新换代,用户数量很庞大,随后就出现了挖掘电商用户数据行为的一系列研究。Spark的数据处理框架最初是为了证明Hadoop MapReduce作业在多个迭代重用数据集中作业执行不佳。因为spark处理是基于内存的。研究论文《Mesos:数据中心的细粒度资源共享平台》讨论了Spark设计背后的理念。2009年,Spark诞生于伯克利大学的AMPLab实验室。后来成为了Apache顶级项目之一。电子商务起源于没过,我们都知道第一台计算机就出现在1946年的美国。“大数据”一词最早出现在国外未来学家托夫勒所著的书籍《第三次浪潮》中。随后在2008年,《自然》杂志推出了“大数据”专栏,大数据逐渐成为互联网企业追捧的热门技术。以Hadoop技术为代表的整个大数据生态圈快速发展。

Google公司在2003-2006年发表的三篇论文GFS,MapReduce、BigTable直接奠定了大数据技术的发展方向。随后Apache软件基金会以Google的论文为基础在代码层面上进行实现。hadoop随之诞生。随后大数据生态系统的组件如Hive、HBase、Storm相继出现。麦肯锡最早将大数据技术用于商业化。麦肯锡公司很早就已是到各大互联网平台的用户行为信息具备巨大的商业价值,投入了巨大的人力物力进行用户信息的收集和挖掘[2]。许多著名的IT公司被海量用户信息数据所带有的巨大商业价值的诱惑吸引而投入其中。传统的电子行业巨头IBM公司花重金投入到大数据研发领域,收购了包括Visimio、Star Analytics等众多的数据分析公司。比如FaceBook拥有自己的数据基地,全球也拥有很多个数据研发中心。Google一直是大数据领域的领头羊,拥有其核心技术,其中包括数据存储、数据并行化计算、数据搜索等等。国外的政府对大数据也很重视。并将其作为核心竞争力之一,法国政府在《数字化路线图》中表示将大力推进大数据领域的发展。日本政府也针对大数据的发展、面临的问题进行探讨,想为其国民提供更优质的服务。

国内研究现状

我国大数据的发展起步较晚。2014年,“大数据”首次写入《政府工作报告》,《报告》中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。“大数据”旋即成为国内热议词汇。2015年,国务正式印发《促进大数据发展行动纲要》,《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。2012年7月,为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台——“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。马云强调:“假如我们有一个数据预报台,就像为企业装上了一个GPS和雷达,你们出海将会更有把握。”因此,阿里巴巴集团希望通过分享和挖掘海量数据,为国家和中小企业提供价值。此举是国内企业最早把大数据提升到企业管理层高度的一次重大里程碑。阿里巴巴也是最早提出通过数据进行企业数据化运营的企业。

  1. 技术分析
  2. Hadoop简介

Hadoop[3]是一个由Apache基金会所开发的分布式系统基础架构(图1)。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [4]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。