,如何垂直地提取动态网页的信息绕过干扰信息,

优采云发布时间: 2021-05-26 19:30

　　自从Web 2. 0出现以来，Internet的形式发生了翻天覆地的变化。只要连接到Internet，每个人都可以参与Internet并轻松发布信息，从而导致大量垃圾邮件。由于一些商业和技术问题，搜索引擎不能很好地解决垂直有效地获取用户关心的信息的问题。同时，Internet上有越来越多的由ajax编写的动态数据网页，并且搜索引擎无法处理该动态网页。做好分析。因此，如何从动态网页上垂直提取信息以绕过干扰信息具有一定的研究意义。本文对几种当前的信息获取应用程序进行了研究和实验。首先，选择Web api方法获取数据，并研究相关的原理和过程。实验使用百度提供的pm 2. 5api接口获取武汉pm 2. 5实时信息，并通过相应的操作成功获取了武汉实时PM 2. 5信息。其次，使用RSS方法获取新闻信息。实验对象选择了凤凰网综合信息频道。通过对RSS feed的分析，他们获得了具有新闻标题作为超链接的最新新闻列表。最后，我们在当前的搜索引擎上进行了相应的实验，并选择了日常生活中感兴趣但搜索结果不理想的部分内容关键词作为实验关键词，并选择了搜索的目标引擎是百度。在评估了以上三种方式中信息获取的应用之后，结合当前的信息提取相关文献，通过对动态信息生成原理和系统可行性的全面分析，对基于包装器的动态数据进行DOM提取网站提出。立式*敏*感*词*系统。系统的核心模块是phantomJS软件包。基于B / S架构，京东，苏宁和亚马逊分别选择了实验目标，主要提取其产品的价格信息。其中，京东和苏宁的数据是动态生成的数据，而亚马逊的数据可以在网页的源文件中找到，它们分别代表了主流的网站数据生成方法。通过将某个页面的URL传递给系统并通过下拉菜单调用相应的包装文件，可以成功获取三个网站的页面数据。系统可以完成预定的目标，但是通过实验过程，系统需要运行phantomJS，可以看作是打开浏览器来解析页面，因此提取数据需要一定的时间，并且有一定的要求服务器性能。

0

2021-05-26

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

,如何垂直地提取动态网页的信息绕过干扰信息,

0 个评论

发起人