根据关键词文章采集系统(一种专题Web信息采集系统的分布特性及相关基础分析)

优采云发布时间: 2022-02-06 13:05

　　herap id 为 generalpu rpo se 爬虫带来了前所未有的扩展挑战。因此，专注的 ebcraw ler 成为基本原则，专注于 ebcraw ler，一种无效的 io 技术。基于分析dis 主题新方法爬虫goodset 转发爬虫性能，引导网络资源，帮助爬虫轻松更新。ebcrawler；*敏*感*词*eb信息采集是将网络上的信息下载到本地，同时保存网页相关信息的系统。

　　一开始，网上资料不多，信息采集系统尽量采集网上能找到的所有页面。但是，Web 上的数据正在迅速增长。根据CNN IC（中国互联网络信息中心）的统计报告，截至2004年，中文网站的数量已达6216人，比去年同期增长了3212%。作为中国最大的搜索引擎“百度”，其可抓取网页数量已达1亿。另外，网络内容越来越杂乱，而且使用以前的方法，返回的专业数据命中率很低，因为数据太多，很难维护，页面故障率很高，所以主题信息出现采集系统。本系统的不同之处在于，它只采集特定职业的数据，主要用于满足对职业信息感兴趣的用户。与前者相比，可采集的数据量大大减少，降低了对硬件的时间和空间要求，提高了整体性能，为该专业的信息检索提供了良好的数据源。eb采集系统相关基础111 基础知识eb资料采集程序被称为网络机器人（Robo spider）或rawle来自网络中一个或多个预先指定的初始站点（*敏*感*词*下载页面，收到日期：2004 09 06 作者简介：山西太原，*敏*感*词*，主要研究方向：网络数据库、搜索引擎；赵恒永（1940年教授，

　　页面解析自动获取当前页面链接的其他网页的地址，将所有获取到的链接地址送入一个RL队列，然后不断的获取URL，重复上述过程，直到采集结束。主题采集系统在访问当前页面时，会根据主题库中的信息计算网页与主题的相关系数。如果高于指定的阈值，则认为是相关的，将采集down 进行分析，否则丢弃该页面。也就是说，比一般的采集系统多了一个数据过滤过程。112 专题页的分布特点全网数据量巨大，但专题页在全网的份额并不大。以搜索关键词“化工”为例，百度的命中率只有2%，北大天网的命中率更小，只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现，虽然整个 eb 中的信息是混杂的，完全没有结构性的，但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点，网页之间的链接被视为有向的，整个网络就是一个巨大的图，如图所示。两者相辅相成，即一个好的ub页面一般指向多个A thority页面，一个thority页面会被多个ub页面引用。而北大天网的命中率更小，只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现，虽然整个 eb 中的信息是混杂的，完全没有结构性的，但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点，网页之间的链接被视为有向的，整个网络就是一个巨大的图，如图所示。两者相辅相成，即一个好的ub页面一般指向多个A thority页面，一个thority页面会被多个ub页面引用。而北大天网的命中率更小，只有0.18%。这些结果还包括一些不相关的“假”结果。研究发现，虽然整个 eb 中的信息是混杂的，完全没有结构性的，但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点，网页之间的链接被视为有向的，整个网络就是一个巨大的图，如图所示。两者相辅相成，即一个好的ub页面一般指向多个A thority页面，一个thority页面会被多个ub页面引用。研究发现，虽然整个 eb 中的信息是混杂的，完全没有结构性的，但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点，网页之间的链接被视为有向的，整个网络就是一个巨大的图，如图所示。两者相辅相成，即一个好的ub页面一般指向多个A thority页面，一个thority页面会被多个ub页面引用。研究发现，虽然整个 eb 中的信息是混杂的，完全没有结构性的，但是关于某个主题的网页的分布仍然是有规律的。网络中的网页被视为节点，网页之间的链接被视为有向的，整个网络就是一个巨大的图，如图所示。两者相辅相成，即一个好的ub页面一般指向多个A thority页面，一个thority页面会被多个ub页面引用。

　　那些说明每个主题的页面在站点内更紧密地联系在一起，而各个主题组之间的联系较少。有了unnel特性，eb中有很多主题页组，但是在这些页组之间，往往需要经过很多不相关的链接才能到达。一般配置下，15个数据的线程采集器每秒只能采集几十页。扫描全网显然需要配置大量优秀的服务器，搭建复杂的分布式采集系统，后期维护很多。考虑到以上特点，我们希望能够直接找到收录主题组的站点（本文简称中心站点）的thority页面，进行定向采集，高性能，节省资源. 系统设计主题采集系统以*敏*感*词*RL集作为集合开始，如果*敏*感*词*RL集收录大部分中心站点或thority页面，采集会变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势，这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。如果*敏*感*词* RL 集收录大部分中心站点或 thority 页面，则采集将变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势，这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。如果*敏*感*词* RL 集收录大部分中心站点或 thority 页面，则采集将变得更容易。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势，这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势，这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。系统结构如图 211 *敏*感*词*处理器 21111 集成搜索引擎结果过滤方法该方法用于尽可能多地找到与主题相关的中心站点。考虑到元搜索引擎覆盖面广的优势，这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。这里采用基于多个综合搜索引擎的检索结果作为数据源的方法。首先，选择最能代表该主题的关键词集合，发送给“计算机与信息技术”2004 53的多个搜索引擎，得到返回结果。

　　然后可以通过 RL 简单地过滤非站点 URL。因为返回的结果包括每个URL的Ancho和大约100个网页描述（由搜索引擎自动生成），而且返回结果的排名也在一定程度上反映了页面的质量，所以可以使用它们来进行站点过滤. 计算网页的权重。权重高于指定阈值的站点将被添加到*敏*感*词*集中，否则将被丢弃。21112 目录式搜索引擎引文方式网上也有目录式搜索引擎引文方式。网站因为是人工维护的，所以信息类似于Yahoo、LookSm art、Open，在每个主题下，已经分配了很多网站地址。再举个例子，有 30 个网站在yahoo科学化学目录中，包括化学工程、生物化学和研究所，并且每个目录都有自己的相关站点。从那里，您可以直接获取与主题相关的网站地址以加入*敏*感*词*集。它的缺点是更新不及时，返回的结果很少。对于一些信息，比如企业的产品网站，返回效果不好。计算*敏*感*词*集的结果需要一定的时间，但是为后面的采集和过滤节省了更多的时间。两种方法各有利弊，最好将几种方法结合使用，以达到最佳效果。212 data采集器 data采集器的主要作用是将RL队列中取出的URL对应的网页下载到本地。

　　有的网站在服务器上创建了一个robo文件，里面标明了一些RL区域的访问受限，应该按照里面的限制访问，避免IP的后果。页面可以相互链接，或者形成跨多个网页的循环。为了避免死锁，RL 应该在发送到队列之前检查它是否已经被访问过。由于专题页面的分组特性，需要适当限制搜索的深度，过深是不必要的。限制搜索到的IP地址段可以节省过滤时间，对于非中文IP区域，可以直接排除。对于动态生成的网页，采集暂时是不允许的，因为直接采集不带参数的结果往往是没有意义的，并且获取它的参数是不现实的。213 Page Parsing 页面解析主要分为两步。一是分离页面的标志性信息，如正文、标题和摘要。设置文本长度，在源文件中找到超过这个长度的文本设置为文本；然后根据字体变化、位置等特点，找到最合适的一段文字作为标题。提取的方法有很多种，最简单的就是提取本页如果没有文字，就从出现的中文开始页面开头，将不在同一个标签中的中文用空格隔开，一共提取100个。另一个是分析网页的链接地址。

　　该协议包括 ile 和 telnet URL，其他协议 URL 将被自动放弃。文件类型可以根据文件的扩展名确定，只处理静态网页。214 主题过滤主题过滤通过一定的算法判断一个页面是否与某个主题相关，然后对采集的行进行剪枝，去除不相关的页面。判断方法很多，主要分为两大类。一种是根据文字等标志性内容来判断，另一种是根据网页正文的向量空间模型来判断。他们处理的数据都是文本；类基于超链接。常见的包括根据网页的出入度和PageRank算法计算权重。第一种主要用于判断网页的内容主题，而第二种主要用于判断网页在网络中的权威性，即网页的质量。PageRank算法在谷歌54期《计算机与信息技术》2004的应用中取得了不错的效果。它的初衷是一个好的页面必须有很多指向这个页面的链接，所以设置了所有页面的初始权重。全部设置好，然后根据页面的外链将页面的权重平均分配给其他页面。具有许多传入链接的页面自然会有更高的权重，这意味着页*敏*感*词*有更好的质量。该算法的缺点是该算法与页面内容无关，化学工程和音乐的页重可能完全相等。基于以上思想，文献中提出了IPageRank算法，它是基于内容的过滤算法和PageRank算法的结合。

　　在数据过滤方面，基于Web挖掘的unnel特性中也提到，主题组往往是通过不相关的链接连接起来的，*敏*感*词*集不可能收录所有相关的中心站点。为了在过滤中找到*敏*感*词*集中遗漏的中心站点，使用以下RL队列对相关度较高的进行采集，相关度较低的直接丢弃，分析中间的页面地址，分析它们的页面链接。丢弃页面，将分析结果保存在另一个队列中并按相关性排序。RL 的处理方式相同。如果找到权重较高的页面，将页面地址移至正常特征，网络上那些大型搜索引擎的表现相对完整，可以认为是过滤了整个网络的信息；二是根据自己的专题数据库和综合搜索引擎提供的描述，粗略判断返回结果的相关性，只保留中心站点地址或thority页面；基于内容的周围网页过滤。第一个过滤是为了保证信息的全面性，因为如果你自己采集全网，搜索的范围就不会那么宽，数据也不会那么全。第二个过滤器是增加采集的命中率。第三个过滤器主要是能够采集真正相关的页面。在本次设计的主题采集系统中，重要的设定指明了方向。随着互联网的不断发展，会有越来越多的数据。最好的办法是让专业的网站自动将自己的URL提交给采集系统，这样专题采集才能让系统采集更准确的接收到有用的信息并且及时。

　　版权费和期刊稿酬一次性支付。如作者不同意，文章如编入上述数据库，请在投稿时声明，本刊将妥善处理。编辑部《计算机与信息技术》2004

0

2022-02-06

根据关键词文章采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

根据关键词文章采集系统(一种专题Web信息采集系统的分布特性及相关基础分析)

0 个评论

发起人

AI时代内容工厂

根据关键词文章采集系统(一种专题Web信息采集系统的分布特性及相关基础分析)

0 个评论

发起人

相关问题