小蜜蜂采集器使用指南-物品采集器使用指南
优采云 发布时间: 2020-08-07 23:20使用Little Bee Collector的文章采集器的指南1.创建一个站点并创建列1)单击“添加站点”按钮,将出现以下页面. 您可以根据提示设置网站名称和网站所属列的名称. 注意: 必须先设置网站,然后才能设置列名. 设置列名称后,选择网站以建立该列的所有权. 配置站点和列后,将显示以下页面. 注意: 一个站点下可以有多列. 二. 创建采集规则1.为列添加规则. 首次为新创建的站点添加规则时,请确保单击站点列表列中的“添加规则”按钮. 如下图所示: 单击后,我们可以选择站点中要添加规则的列. 2规则编写在这里,我们主要关注如何添加采集规则,并详细说明如何编写规则. 以下说明将以实际的网站为例. 2.1如何编写网址规则让我们以以下链接地址为例. 出现以下页面时,让我们分析此URL的页面. 第一页的URL是第二页的URL和第三页的URL. 在这里我们可以看到,除了第一页之外,其他页面的URL定期更改. 因此,我在URL链接区域中填写以下内容. 我们可以看到,在“常规URL”中,我们使用了此链接内容[variable] .asp,而实际的页面URL就是这样. 在这里,我们使用[variable] [Variable]替换数字[2] [3],并在参数区域中填写[2][9]. 至此,我们已经完成了URL的添加. 2.2如何编写“链接”规则. 在上一步中,我们已经完成URL的准备,以便采集器知道要采集哪些页面URL,但是如果软件知道要采集哪些内容,则必须编辑“链接”规则. 首先确定我们要采集的链接. 在当前页面上,我们按“ F7”或单击IE中的“查看”“源文件”按钮,然后打开记事本以查看当前页面的HTML源代码文件. 找到特定的代码区域,如下图所示,我们可以发现这些代码都是规则的,并按照以下规律提取它们
DW8代码工具栏试用版对于上面的代码,我们编写如下
[title]上面我们用[link] [link]标签替换了“ /tech/web/2005/2815.asp”,并用[title] [title]标签替换了“ DW8 Code Toolbar Trial”. 编辑“链接”规则后,选择“提交”按钮,然后单击“获取测试”按钮以测试规则是否正确配置. 如果配置正确,将显示以下页面. 这表明先前步骤中的配置是完全正确的,并且现在可以执行实际的文章内容采集配置. 2.3如何配置文章内容的集合在链接中选择一个页面以针对特定的演示内容配置中的特定用途将其打开. 此处选择的链接地址是“实施日期下拉菜单”. 在当前页面上,我们按IE中的“ F7”或单击“查看”“源文件”按钮以打开记事本以查看当前页面的HTML源代码文件. 2.3.1配置文章内容的“标题”列. 在打开的源代码文件中,找到收录标题的特定HTML代码,并按如下所示查找代码: 蓝色的理想实现日期下拉菜单,因为我们需要的标题内容是“实现日期下拉菜单” 这里我们使用[title] [Title]将标记放置在需要内容的位置,如下所示替换代码: 2.3.2配置文章内容的“ Content”列,以查找收录内容的特定源代码区域</p
p本文的主要目的是弄清楚如何扎根…………………………. 使用JavaScript的Date对象时,请特别注意这一点./p
p源这里,我们需要选择收录内容源代码的开始要素代码和结束要素代码. 通过分析,我们选择如下配置. 在这里,我们使用[content] [Content]标记替换内容页面的所有代码. 实际代码如下: 2.3.3配置文章内容“内容分页”在此链接中,完整的文章分为三页. “内容分页”通常具有两种表现形式: 1: 列出所有表格,以及2: 上一页和下一页. 我们演示了两种编码配置形式A. 列出所有形式[content]/p
pHTML源代码如下/p
pimg src='http://www.doc88.com/img/icon/arrow_red.gif' alt=''//p
p第1页实现日期下拉菜单[1]/p
pimg src='http://www.doc88.com/img/icon/arrow_orange.gif' alt=''//p
p第2页实现日期下拉菜单[2]/p
pimg src='http://www.doc88.com/img/icon/arrow_orange.gif' alt=''//p
p实施日期下拉菜单[3]/p
p此处使用[内部] [页面区域代码]标签,其配置规则如下/p
p[内在]/p
p>第3页