asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战 )

优采云发布时间: 2021-10-16 17:09

　　asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战

)

　　本文主要内容如下：

　　一、背景

　　随着互联网的不断发展，各种网页层出不穷，信息资源泛滥。如何有效地提取和利用这些信息成为一个巨大的挑战。谷歌、百度等搜索引擎被用作辅助人们检索信息的工具。成为用户访问万维网的门户和指南。但是，这些通用的搜索引擎也有一定的局限性，如下图所示：

　　1、网络资源无关性问题：专业搜索引擎的客户群太广，用户搜索的时候往往会搜索到自己不想要的资源；

　　2、网络覆盖问题：有限的搜索引擎和无限的网络数据资源是矛盾的；

　　3、数据结构问题：搜索引擎对于某种数据结构无能为力；

　　4、语义检索问题：搜索引擎一般基于关键字查询，难以支持特定语义信息的查询，如行业特定语义；

　　综上所述，在我们的行业中，我们应该建立一个我们行业中独一无二的搜索引擎（网络爬虫）。它可能被称为搜索引擎太大。这里我们称之为网络爬虫。比如在电子政务领域，我们可以为政府客户提供电子政务相关的信息资源，并结合我们的平台，为不同的政府部门提供不同的视角，这对于我们发展来说无疑是一个很好的驱动方式。网络爬虫！

　　二、概念和原理

　　网络爬虫（又称网络蜘蛛或网络机器人）是一种按照一定的规则自动抓取万维网上信息的程序或脚本，如下图所示：

　　网络爬虫是一种自动提取网页的程序。它从万维网下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。

　　网络爬虫的原理如下图所示，主要包括：

　　1、爬虫模块：这个现在比较成熟，有BS和CS。一般采用广度优先算法爬取网络资源，多线程模式，一套最基本的配置。

　　2、预处理模块：一般与爬虫模块配合使用，在爬取资源的同时对网页进行分段索引，形成索引库；

　　3、查询服务模块：有了前两个，可以结合业务应用提供各种查询服务；

　　三、技术选型

　　这一项技术在JAVA领域有很多开源的网络爬虫，但在.net领域却很少，而且基本是零散的。经过一番搜索整理，对最核心的基础模块的技术进行了深入研究。这个.net搜索引擎的版本已经算是比较好的一个了，主要技术如下：

　　1、爬虫模块：NWebCrawler；

　　2、HTML解析：Winista.HtmlParser，这个很专业；

　　3、分词，索引：Apache-Lucene.Net-3.0.3，这个不用介绍了，Apache基金会的东西！

　　四、需求矩阵

0

2021-10-16

asp.net 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战 )

0 个评论

发起人

AI时代内容工厂

asp.net 抓取网页数据(如何有效的提取并利用这些信息成为一个巨大的挑战 )

0 个评论

发起人

相关问题