小蜜蜂采集器文章采集器使用手册
优采云 发布时间: 2020-08-25 14:33小蜜蜂采集器文章采集器使用手册 一: 建立站点和栏目 1: 点击添加站点按键出现如下页面 可以按照提示筹建网站名称和网站归属栏目名称。 注: 必须要先设置网站后才会设置栏目名称。 并在设置栏目名称后选择网站, 以便确立栏目的归属。 配置完成站点和栏目后出现如下页面 注: 一个站点下可以有添加多个栏目 二: 建立采集规则 1: 为栏目添加规则 当你是第一次为新构建的站点添加规则时, 请一定要点选站点列表栏目中的“添加规则” 按钮。 如下图: 点击后, 我们可以选择为站点中的那个栏目进行规则添加 2: 规则编撰 这里我们要注重说明, 如何添加采集规则并详尽说明怎样编撰规则。 以下的讲解将以一实际网站为例进行。2.1 如何编撰 URL 规则 我们以如下的链接地址为例: 出现如下页面 我们来剖析这条 URL 的页面: 第一页的 URL 为 第二页的 URL 为 第三页的 URL 为 这儿我们可以看出除第 1 页外, 起它页 URL 都是有规律的在进行变化。 因此我在 URL 链接区域填入下述内容 我们可以看到在“有规律的 URL” 里我们是采用了这样的的链接内容 [variable].asp 而实际的分页 URL 是这样的 在这里我们用[variable]【变量】 取代了数字【2】【3】, 而在参数市填写了【2】, 【9】。 至此我们完成了 URL 的添加。 2.2 如何编撰“链接” 规则。 在上一步我们完成了 URL 的编撰, 使采集器晓得什么页面 URL 是要去进行采集的; 但要软件晓得具体要采集哪些内容, 我们就要编辑“链接” 规则。 首先确定什么链接是我们要采集的:在当前页我们按“F7”, 或点选 IE 中的“查看” -“源文件” 按钮, 打开记事本查看当前页的 HTML 源代码文件。 查找到特定代码区域, 如下图: 我们可以发觉这种代码都是有规律的, 依据规律提取如下
DW8 代码工具栏试用 对以上代码我们做如下编撰
[title] 以上我们用[link]【链接】 标签替换了“/tech/web/2005/2815.asp”, 用[title]【标题】 标签替换了“DW8 代码工具栏试用”。 编辑“链接” 规则做完后, 选择“提...