小蜜蜂采集器使用指南-Article Collector使用指南.doc

优采云 发布时间: 2020-08-07 14:46

  文档简介:

  小蜜蜂采集器物品采集器使用指南

  一个: 创建网站和列

  1: 单击添加站点按钮,将出现以下页面

  您可以按照提示来设置网站名称和属于该网站的列的名称.

  注意: 必须先设置网站,然后才能设置列名. 并在设置列名称后选择网站以建立该列的所有权.

  配置站点和列后,将出现以下页面

  注意: 您可以在一个网站下添加多个列

  二: 建立收款规则

  1: 为列添加规则

  首次将规则添加到新创建的站点时,请确保单击站点列表列中的“添加规则”按钮. 如下图所示:

  点击后,我们可以选择要在网站的哪个部分添加规则

  2: 规则编写

  在这里,我们要集中精力于如何添加采集规则并详细说明如何编写规则.

  以下说明将以实际网站为例.

  2.1如何编写URL规则

  我们以以下链接地址为例: h / web / index.asp

  出现以下页面

  让我们分析此URL的页面:

  第一页的URL为h / web / index.asp

  第二页的URL为h / web / index_2.asp

  第三页的URL为h / web / index_3.asp

  在这里我们可以看到,除第1页外,其他页面的URL定期更改. 因此,我在URL链接区域中填写了以下内容

  我们可以看到,在“常规URL”中,我们使用了此类链接内容

  h / web / index_ [variable] .asp

  实际的分页网址是这样的

  h / web / index_3.asp

  在这里,我们使用[variable] [variable]替换数字[2] [3],并在参数区域中填写[2],[9].

  到目前为止,我们已完成添加URL.

  2.2如何编写“链接”规则.

  在上一步中,我们完成了URL编译,以便采集器知道要采集哪些页面URL;但是如果软件知道要采集哪些内容,则必须编辑“链接”规则.

  首先确定我们要采集哪些链接:

  我们在当前页面上按“ F7”,或在IE中单击“查看”-“源文件”按钮以打开记事本以查看当前页面的HTML源代码文件. 找到特定的代码区域,如下所示:

  根据以下提取的规则,我们发现这些代码都是规则的

  

  DW8代码工具栏试用版

  对于上面的代码,我们编写如下

  

  [标题]

  在上面,我们用[link] [link]标签替换了“ /tech/web/2005/2815.asp”,并用[title] [title]标签替换了“ DW8 Code Toolbar Trial”.

  在编辑“链接”规则后,选择“提交”按钮,然后单击“采集测试”按钮以测试规则是否正确配置.

  如果配置正确,将显示以下页面:

  这表明前面步骤的配置是完全正确的,现在可以执行实际的文章内容采集配置.

  2.3如何配置文章内容的采集

  在链接中选择一个页面打开,这是目标演示内容配置中的一种特殊用法. 在此处选择的链接地址是“实施日期下拉菜单”(h / web / 2006 / 3169.asp).

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线