根据关键词文章采集系统(一种专题Web信息采集系统的分布特性及相关基础分析)
优采云 发布时间: 2022-02-06 13:05根据关键词文章采集系统(一种专题Web信息采集系统的分布特性及相关基础分析)
herap id 为 generalpu rpo se 爬虫带来了前所未有的扩展挑战。因此,专注的 ebcraw ler 成为基本原则,专注于 ebcraw ler,一种无效的 io 技术。基于分析dis 主题新方法爬虫goodset 转发爬虫性能,引导网络资源,帮助爬虫轻松更新。ebcrawler;*敏*感*词*eb信息采集是将网络上的信息下载到本地,同时保存网页相关信息的系统。
一开始,网上资料不多,信息采集系统尽量采集网上能找到的所有页面。但是,Web 上的数据正在迅速增长。根据CNN IC(中国互联网络信息中心)的统计报告,截至2004年,中文网站的数量已达6216人,比去年同期增长了3212%。作为中国最大的搜索引擎“百度”,其可抓取网页数量已达1亿。另外,网络内容越来越杂乱,而且使用以前的方法,返回的专业数据命中率很低,因为数据太多,很难维护,页面故障率很高,所以主题信息出现采集系统。本系统的不同之处在于,它只采集特定职业的数据,主要用于满足对职业信息感兴趣的用户。与前者相比,可采集的数据量大大减少,降低了对硬件的时间和空间要求,提高了整体性能,为该专业的信息检索提供了良好的数据源。eb采集系统相关基础111 基础知识eb资料采集程序被称为网络机器人(Robo spider)或rawle来自网络中一个或多个预先指定的初始站点(*敏*感*词*下载页面,收到日期:2004 09 06 作者简介:山西太原,*敏*感*词*,主要研究方向:网络数据库、搜索引擎;赵恒永(1940年教授,
页面解析自动获取当前页面链接的其他网页的地址,将所有获取到的链接地址送入一个RL队列,然后不断的获取URL,重复上述过程,直到采集结束。主题采集系统在访问当前页面时,会根据主题库中的信息计算网页与主题的相关系数。如果高于指定的阈值,则认为是相关的,将 采集down 进行分析,否则丢弃该页面。也就是说,比一般的采集系统多了一个数据过滤过程。112 专题页的分布特点 全网数据量巨大,但专题页在全网的份额并不大。以搜索关键词“化工”为例,百度的命中率只有2%,北大天网的命中率更小,只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现,虽然整个 eb 中的信息是混杂的,完全没有结构性的,但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点,网页之间的链接被视为有向的,整个网络就是一个巨大的图,如图所示。两者相辅相成,即一个好的ub页面一般指向多个A thority页面,一个thority页面会被多个ub页面引用。而北大天网的命中率更小,只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现,虽然整个 eb 中的信息是混杂的,完全没有结构性的,但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点,网页之间的链接被视为有向的,整个网络就是一个巨大的图,如图所示。两者相辅相成,即一个好的ub页面一般指向多个A thority页面,一个thority页面会被多个ub页面引用。而北大天网的命中率更小,只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现,虽然整个 eb 中的信息是混杂的,完全没有结构性的,但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点,网页之间的链接被视为有向的,整个网络就是一个巨大的图,如图所示。两者相辅相成,即一个好的ub页面一般指向多个A thority页面,一个thority页面会被多个ub页面引用。研究发现,虽然整个 eb 中的信息是混杂的,完全没有结构性的,但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点,网页之间的链接被视为有向的,整个网络就是一个巨大的图,如图所示。两者相辅相成,即一个好的ub页面一般指向多个A thority页面,一个thority页面会被多个ub页面引用。研究发现,虽然整个 eb 中的信息是混杂的,完全没有结构性的,但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点,网页之间的链接被视为有向的,整个网络就是一个巨大的图,如图所示。两者相辅相成,即一个好的ub页面一般指向多个A thority页面,一个thority页面会被多个ub页面引用。
那些说明每个主题的页面在站点内更紧密地联系在一起,而各个主题组之间的联系较少。有了unnel特性,eb中有很多主题页组,但是在这些页组之间,往往需要经过很多不相关的链接才能到达。一般配置下,15个数据的线程采集器每秒只能采集几十页。扫描全网显然需要配置大量优秀的服务器,搭建复杂的分布式采集系统,后期维护很多。考虑到以上特点,我们希望能够直接找到收录主题组的站点(本文简称中心站点)的thority页面,进行定向采集,高性能,节省资源. 系统设计主题采集系统以*敏*感*词*RL集作为集合开始,如果*敏*感*词*RL集收录大部分中心站点或thority页面,采集会变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法 该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势,这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。如果*敏*感*词* RL 集收录大部分中心站点或 thority 页面,则 采集 将变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法 该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势,这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。如果*敏*感*词* RL 集收录大部分中心站点或 thority 页面,则 采集 将变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法 该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势,这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法 该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势,这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法 该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势,这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先,选择最能代表该主题的关键词集合,发送给“计算机与信息技术”2004 53的多个搜索引擎,得到返回结果。
然后可以通过 RL 简单地过滤非站点 URL。因为返回的结果包括每个URL的Ancho和大约100个网页描述(由搜索引擎自动生成),而且返回结果的排名也在一定程度上反映了页面的质量,所以可以使用它们来进行站点过滤. 计算网页的权重。权重高于指定阈值的站点将被添加到*敏*感*词*集中,否则将被丢弃。21112 目录式搜索引擎引文方式 网上也有目录式搜索引擎引文方式。网站因为是人工维护的,所以信息类似于Yahoo、LookSm art、Open,在每个主题下,已经分配了很多网站地址。再举个例子,有 30 个 网站 在yahoo科学化学目录中,包括化学工程、生物化学和研究所,并且每个目录都有自己的相关站点。从那里,您可以直接获取与主题相关的 网站 地址以加入*敏*感*词*集。它的缺点是更新不及时,返回的结果很少。对于一些信息,比如企业的产品网站,返回效果不好。计算*敏*感*词*集的结果需要一定的时间,但是为后面的采集和过滤节省了更多的时间。两种方法各有利弊,最好将几种方法结合使用,以达到最佳效果。212 data采集器 data采集器的主要作用是将RL队列中取出的URL对应的网页下载到本地。
有的网站在服务器上创建了一个robo文件,里面标明了一些RL区域的访问受限,应该按照里面的限制访问,避免IP的后果。页面可以相互链接,或者形成跨多个网页的循环。为了避免死锁,RL 应该在发送到队列之前检查它是否已经被访问过。由于专题页面的分组特性,需要适当限制搜索的深度,过深是不必要的。限制搜索到的IP地址段可以节省过滤时间,对于非中文IP区域,可以直接排除。对于动态生成的网页,采集暂时是不允许的,因为直接采集不带参数的结果往往是没有意义的,并且获取它的参数是不现实的。213 Page Parsing 页面解析主要分为两步。一是分离页面的标志性信息,如正文、标题和摘要。设置文本长度,在源文件中找到超过这个长度的文本设置为文本;然后根据字体变化、位置等特点,找到最合适的一段文字作为标题。提取的方法有很多种,最简单的就是提取本页如果没有文字,就从出现的中文开始页面开头,将不在同一个标签中的中文用空格隔开,一共提取100个。另一个是分析网页的链接地址。
该协议包括 ile 和 telnet URL,其他协议 URL 将被自动放弃。文件类型可以根据文件的扩展名确定,只处理静态网页。214 主题过滤 主题过滤通过一定的算法判断一个页面是否与某个主题相关,然后对采集的行进行剪枝,去除不相关的页面。判断方法很多,主要分为两大类。一种是根据文字等标志性内容来判断,另一种是根据网页正文的向量空间模型来判断。他们处理的数据都是文本;类基于超链接。常见的包括根据网页的出入度和PageRank算法计算权重。第一种主要用于判断网页的内容主题,而第二种主要用于判断网页在网络中的权威性,即网页的质量。PageRank算法在谷歌54期《计算机与信息技术》2004的应用中取得了不错的效果。它的初衷是一个好的页面必须有很多指向这个页面的链接,所以设置了所有页面的初始权重。全部设置好,然后根据页面的外链将页面的权重平均分配给其他页面。具有许多传入链接的页面自然会有更高的权重,这意味着页*敏*感*词*有更好的质量。该算法的缺点是该算法与页面内容无关,化学工程和音乐的页重可能完全相等。基于以上思想,文献中提出了IPageRank算法,它是基于内容的过滤算法和PageRank算法的结合。
在数据过滤方面,基于Web挖掘的unnel特性中也提到,主题组往往是通过不相关的链接连接起来的,*敏*感*词*集不可能收录所有相关的中心站点。为了在过滤中找到*敏*感*词*集中遗漏的中心站点,使用以下RL队列对相关度较高的进行采集,相关度较低的直接丢弃,分析中间的页面地址,分析它们的页面链接。丢弃页面,将分析结果保存在另一个队列中并按相关性排序。RL 的处理方式相同。如果找到权重较高的页面,将页面地址移至正常特征,网络上那些大型搜索引擎的表现相对完整,可以认为是过滤了整个网络的信息;二是根据自己的专题数据库和综合搜索引擎提供的描述,粗略判断返回结果的相关性,只保留中心站点地址或thority页面;基于内容的周围网页过滤。第一个过滤是为了保证信息的全面性,因为如果你自己采集全网,搜索的范围就不会那么宽,数据也不会那么全。第二个过滤器是增加采集的命中率。第三个过滤器主要是能够采集真正相关的页面。在本次设计的主题采集系统中,重要的设定指明了方向。随着互联网的不断发展,会有越来越多的数据。最好的办法是让专业的网站自动将自己的URL提交给采集系统,这样专题采集才能让系统采集更准确的接收到有用的信息并且及时。
版权费和期刊稿酬一次性支付。如作者不同意,文章如编入上述数据库,请在投稿时声明,本刊将妥善处理。编辑部《计算机与信息技术》2004