动态网页信息采集技术文献综述

 2021-09-25 08:09

毕业论文课题相关文献综述

(1)选题来源 源于江苏省教育厅大学生创新创业训练计划基于云计算的知识产权交易协同运营中心框架研发(201410291019Z)和基于物联网的知识产权交易协同运营中心框架设计和建设途径研究(南工合(2013)099号)。

受江苏省南京市鼓楼区知识产权交易协同运营中心委托,为技术创新平台的建设提供理论、方法和技术预研。

(2)选题依据、背景情况为了江苏省南京市鼓楼区知识产权交易协同运营中心相关领域网页的信息采集,把信息采集分为内容的信息采集、内容分析和结果呈现三部分组成。

其中信息采集部分为内容分析及结果呈现提供必要的数据素材。

信息采集的工作原理与网络爬虫的工作原理相同,它的采集工作源于信息采集系统将要采集的互联网媒体的初始页面,通过递归获取网页主题内容以及页面内超链接获取所指向的数据文件。

一般来说,传统的网络信息采集工具可以采集网页中的静态信息,但是不能提取隐藏在浏览器课执行脚本中的数据。

而以AJAX技术为代表的JavaScript脚本在Web开发中越来越多的得到应用,这在很大程度上为用户提供了更加人性化的交互方式,但是给信息采集工作带来了很大的困难。

因此,如何改进信息采集工具工作方式,使之能提取压面中的动态信息,是信息采集工作研究的一个很重要的方向。

本文的研究的工作源于上述背景,基于当前网络舆论工作的现状,为丰富当前舆论分析的数据来源和信息采集效率,研究当前与动态网页的数据采集的相关技术,结合分布式计算机技术,在原有的分布式网络信息采集技术工具的基础上,提供了实现动态网页采集的解决方案。

(3)国内外研究现状、发展动态实现动态页面脚本片段的解析主要有两种方法[ 2 ]:一是采用完整的开源浏览器渲染网页,然后根据浏览器的输出结果提取页面的HTML标记中的文本内容及超链(URL):另一张方法是采用开源的脚本解析引擎,实现浏览器DOM引擎的绑定,自行构建脚本语言的解析环境,将动态压面的脚本程序片段加载到解析环境中,通过指向脚本程序的解析环境,将动态压面的脚本程序片段加载到解析环境中,通过执行脚本程序片段提取脚本语言中隐藏的文本文档及超链接(URL),完成动态页面信息的采集。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。