小蜜蜂采集器使用指南-Article Collector使用指南.doc
优采云 发布时间: 2020-08-07 14:46文档简介:
一个: 创建网站和列
1: 单击添加站点按钮,将出现以下页面
您可以按照提示来设置网站名称和属于该网站的列的名称.
注意: 必须先设置网站,然后才能设置列名. 并在设置列名称后选择网站以建立该列的所有权.
配置站点和列后,将出现以下页面
注意: 您可以在一个网站下添加多个列
二: 建立收款规则
1: 为列添加规则
首次将规则添加到新创建的站点时,请确保单击站点列表列中的“添加规则”按钮. 如下图所示:
点击后,我们可以选择要在网站的哪个部分添加规则
2: 规则编写
在这里,我们要集中精力于如何添加采集规则并详细说明如何编写规则.
以下说明将以实际网站为例.
2.1如何编写URL规则
我们以以下链接地址为例: h / web / index.asp
出现以下页面
让我们分析此URL的页面:
第一页的URL为h / web / index.asp
第二页的URL为h / web / index_2.asp
第三页的URL为h / web / index_3.asp
在这里我们可以看到,除第1页外,其他页面的URL定期更改. 因此,我在URL链接区域中填写了以下内容
我们可以看到,在“常规URL”中,我们使用了此类链接内容
h / web / index_ [variable] .asp
实际的分页网址是这样的
h / web / index_3.asp
在这里,我们使用[variable] [variable]替换数字[2] [3],并在参数区域中填写[2],[9].
到目前为止,我们已完成添加URL.
2.2如何编写“链接”规则.
在上一步中,我们完成了URL编译,以便采集器知道要采集哪些页面URL;但是如果软件知道要采集哪些内容,则必须编辑“链接”规则.
首先确定我们要采集哪些链接:
我们在当前页面上按“ F7”,或在IE中单击“查看”-“源文件”按钮以打开记事本以查看当前页面的HTML源代码文件. 找到特定的代码区域,如下所示:
根据以下提取的规则,我们发现这些代码都是规则的
DW8代码工具栏试用版
对于上面的代码,我们编写如下
[标题]
在上面,我们用[link] [link]标签替换了“ /tech/web/2005/2815.asp”,并用[title] [title]标签替换了“ DW8 Code Toolbar Trial”.
在编辑“链接”规则后,选择“提交”按钮,然后单击“采集测试”按钮以测试规则是否正确配置.
如果配置正确,将显示以下页面:
这表明前面步骤的配置是完全正确的,现在可以执行实际的文章内容采集配置.
2.3如何配置文章内容的采集
在链接中选择一个页面打开,这是目标演示内容配置中的一种特殊用法. 在此处选择的链接地址是“实施日期下拉菜单”(h / web / 2006 / 3169.asp).