asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战 )

优采云 发布时间: 2021-10-16 17:09

  asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战

)

  本文主要内容如下:

  一、背景

  随着互联网的不断发展,各种网页层出不穷,信息资源泛滥。如何有效地提取和利用这些信息成为一个巨大的挑战。谷歌、百度等搜索引擎被用作辅助人们检索信息的工具。成为用户访问万维网的门户和指南。但是,这些通用的搜索引擎也有一定的局限性,如下图所示:

  

  1、网络资源无关性问题:专业搜索引擎的客户群太广,用户搜索的时候往往会搜索到自己不想要的资源;

  2、网络覆盖问题:有限的搜索引擎和无限的网络数据资源是矛盾的;

  3、数据结构问题:搜索引擎对于某种数据结构无能为力;

  4、语义检索问题:搜索引擎一般基于关键字查询,难以支持特定语义信息的查询,如行业特定语义;

  综上所述,在我们的行业中,我们应该建立一个我们行业中独一无二的搜索引擎(网络爬虫)。它可能被称为搜索引擎太大。这里我们称之为网络爬虫。比如在电子政务领域,我们可以为政府客户提供电子政务相关的信息资源,并结合我们的平台,为不同的政府部门提供不同的视角,这对于我们发展来说无疑是一个很好的驱动方式。网络爬虫!

  二、概念和原理

  网络爬虫(又称网络蜘蛛或网络机器人)是一种按照一定的规则自动抓取万维网上信息的程序或脚本,如下图所示:

  

  网络爬虫是一种自动提取网页的程序。它从万维网下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。

  网络爬虫的原理如下图所示,主要包括:

  1、 爬虫模块:这个现在比较成熟,有BS和CS。一般采用广度优先算法爬取网络资源,多线程模式,一套最基本的配置。

  2、 预处理模块:一般与爬虫模块配合使用,在爬取资源的同时对网页进行分段索引,形成索引库;

  3、查询服务模块:有了前两个,可以结合业务应用提供各种查询服务;

  

  三、技术选型

  这一项技术在JAVA领域有很多开源的网络爬虫,但在.net领域却很少,而且基本是零散的。经过一番搜索整理,对最核心的基础模块的技术进行了深入研究。这个.net搜索引擎的版本已经算是比较好的一个了,主要技术如下:

  1、 爬虫模块:NWebCrawler;

  2、HTML解析:Winista.HtmlParser,这个很专业;

  3、分词,索引:Apache-Lucene.Net-3.0.3,这个不用介绍了,Apache基金会的东西!

  四、需求矩阵

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线