宝典:小蜜蜂采集器使用指南 - 文章采集器使用指南
优采云 发布时间: 2022-10-03 16:12Little Bee采集器用户指南-文章采集器用户指南 Little Bee采集器文章采集器用户指南 1 创建站点和栏目 1 点击进入添加站点 单击按钮,将出现以下页面。您可以根据提示设置网站名称和网站归属列名称。注意,设置列名前必须先设置网站,设置列名后选择网站。为了建立栏目归属,在网站和栏目完成后会出现以下页面。请注意,一个站点下可以添加多个列。其次,建立采集规则。请务必点击站点列表栏中的添加规则按钮,如下图所示。点击后,我们可以选择站点中的哪个列添加2条规则来编写。这里我们将重点介绍如何添加采集规则,并详细说明如何编写规则。下面的规则解释将以一个实际的网站为例。21 如何编写URL规则 我们以下面的链接地址为例,会出现如下页面。让我们分析定性数据,统计分析,pdf,销售业绩分析模板,建筑结构,地震破坏分析,销售进度分析表京东商城竞争策略分析这个网址第一页的网址就是第二页的网址和网址第三页的。在这里我们可以看到除了第一页,其他页面的URL都是规则的。在进行修改所以我在URL链接区填写以下内容,我们可以看到,在常规的URL中我们使用了这样的链接内容[变量]asp,而实际的分页URL是这样的,这里我们使用[变量]变量替换了数字23,并在参数区填写了29。至此,我们完成了URL的添加。22 如何编写链接规则在上一步中,我们已经完成了URL
写是让采集器知道哪些页面的URL会是采集,但是如果软件知道具体的内容是采集,我们需要编辑链接规则。首先确定我们要采集在当前页面上的哪些链接,我们按F7或者点击IE中的View Source按钮打开记事本查看当前页面的HTML源代码文件,找到具体的代码区为如下图所示。我们可以发现,这些代码是按照规则有规律地提取出来的。下面的imgsrc"imgiconarrowgif"width"4"height"13"ahref"techweb20052815asp"DW8代码工具栏试试atd到上面的代码我们写imgsrc"imgiconarrowgif"width"4"height"13"ahref"[链接]" [title]atd 上面我们把techweb20052815asp换成了[link]链接标签用[title]title 快递公司问题 快递公司问题 支付处理 关于圆的周长 关键问题类型 关于解方程题和答案 关于南海问题 标签替换 打开DW8代码工具栏尝试编辑链接规则。完成后选择提交按钮,点击采集测试按钮,测试规则是否配置正确。如果配置正确,会出现如下页面,说明前面步骤的配置完全正确。采集 为实际 文章 内容 采集 已配置 23 如何为 采集 配置 文章 内容 在链接中选择一个页面打开作为有针对性的演示内容配置特殊用途这里选择的链接地址是为了实现一个日期下拉菜单。在当前页面,我们按 F7 或者点击在 IE 中查看
源文件按钮 打开记事本 查看当前页面的HTML源代码文件 231 配置文章内容的标题栏 在打开的源代码文件中找到收录该标题的具体HTML代码 找到标题下方的代码 蓝色理想- 实现一个日期下拉菜单标题因为我们需要的标题内容是实现一个日期下拉菜单。在这里,我们将代码替换为 [title] 标题标签,并将其放置在所需的内容处。232 配置文章内容的内容栏,查找收录该内容的内容具体源区域tablewidth"100"border"0"cellspacing"11"cellpadding"0"class"pageLighter"trtdclass"content"P这个 文章 的目的是弄清楚在使用 JavaScript 时如何变得特别' s Date 对象 注意Ppalignright 的来源。这里我们要选择收录内容源代码的起始特征代码和结束特征代码。通过分析,我们选择如下配置。这里我们使用 [content] 内容标签来替换内容页面的所有代码。实际代码如下 trtdclass "content"[ content]palignrightSource 233Configuration文章Content 内容分页在此链接完成文章分为三个页面。通常,有两种形式的内容分页。我们演示两种形式的编码配置 A 列出所有形式 这里我们使用 [content] 内容标签来替换内容页面的所有代码。实际代码如下 trtdclass "content"[ content]palignrightSource 233Configuration文章Content 内容分页在此链接完成文章分为三个页面。通常,有两种形式的内容分页。我们演示两种形式的编码配置 A 列出所有形式 这里我们使用 [content] 内容标签来替换内容页面的所有代码。实际代码如下 trtdclass "content"[ content]palignrightSource 233Configuration文章Content 内容分页在此链接完成文章分为三个页面。通常,有两种形式的内容分页。我们演示两种形式的编码配置 A 列出所有形式
HTML源码如下: pclasslistimgsrc"imgiconarrow_redgif"width"4"height"13"page 1 实现日期下拉菜单[1]brimgsrc"imgiconarrow_orangegif"width"4"height"13"page 2ahref"techweb20063169_2asp" 实现日期下拉菜单Menu[2]abrimgsrc"imgiconarrow_orangegif"width"4"height"13"page 3ahref"techweb20063169_3asp"实现日期下拉菜单[3]abrp这里使用[innerrang]分页区号标签配置规则如下pclasslistimgsrc"imgiconarrow_redgif"width"4"height"13"[innerrang]abrpB上下页表单的html源码如下 palignrightFONTstyle"font-size12px"colordarkgray上一页FONTatitle"下一页"href"techweb20063169_2asp"style"font-size12px"下一页实现日期下拉菜单[2]ap here Lee
<p>对于剩余的源作者栏目的规则,我们可以根据内容等的配置方式来配置,配置如下 234 配置文章内容过滤栏目过滤栏目 可以复制源码为过滤到这个栏目,如果有多个源代码段要过滤,可以使用[filtrate]添加过滤标签拆分235配置文章内容图片保存目录这里的目录指的是采集 系统所在的WEB根目录。可以自己手动创建,也可以选择系统在指定一级目录后自动添加目录存放图片。采集 使用的图片存储在以日期命名的目录中。推荐用于方便管理。3文章采集规则配置完成后,按照采集链接采集内容采集完成文章