文章采集器(,如何编写“链接”规则?(文档介绍)!)

优采云 发布时间: 2022-03-06 04:14

  文章采集器(,如何编写“链接”规则?(文档介绍)!)

  文档介绍: 1:创建站点和列 1:点击添加站点按钮,出现如下页面。您可以根据提示设置网站名称和网站归属列名称。注意:您必须在设置列名之前设置 网站。并在设置列名后选择网站,以建立列的归属。配置站点和专栏后,将出现以下页面。注意:一个站点下可以添加多个列。2:建立采集 规则1:为栏目添加规则 第一次为新创建的站点添加规则时,请务必点击站点列表栏中的“添加规则”按钮。如下图: 点击后,我们可以选择站点中的哪一列添加规则。2:规则编写这里我们要重点介绍如何添加采集规则,并详细说明如何编写规则。下面的解释将以一个实际的网站为例。2.1如何编写URL规则我们以如下链接地址为例: h/web/index.asp 出现如下页面。我们来分析一下这个 URL 的页面: 第一个页面的 URL 是 h/web/index。asp第二页的url是h/web/index_2.asp 第三页的url是h/web/index_3.asp 这里我们可以看到除了第一页,其他页面的 URL 都是定期变化的。因此,我在 URL 链接区填写以下内容。我们可以看到,在“常规 URL”中我们使用了链接内容 h/web/index_[variable]。asp和实际的分页URL是这个h/web/index_3.asp这里我们用[variable][variable]代替数字[2][3],在[2]、[9]中填入参数区。至此,我们已经完成了 URL 的添加。2.2 如何编写“链接”规则。在上一步中,我们完成了 URL 的准备,让 采集器 知道哪些页面 URL 将是 采集;但是如果软件知道具体的内容是采集,我们需要编辑“链接”规则。首先确定我们要访问哪些链接采集:在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮打开记事本查看HTML源代码文件当前页面。找到具体的代码区,如下图:我们可以发现这些代码是有规律的,

  

  DW8代码工具栏试用我们为上面的代码写如下代码

  

  [title] 上面,我们将“/tech/web/2005/2815.asp”替换为[link][link]标签,将“DW8 Code Toolbar Trial”替换为[title][title]标签. 编辑好“链接”规则后,选择“提交”按钮,点击“采集测试”按钮,测试规则是否配置正确。如果配置正确,会出现如下页面: 这表示前面步骤中的配置完全正确,现在可以进行实际文章内容的采集配置了。2.3如何配置文章的内容采集从链接中选择一个页面打开,针对针对性演示内容配置中的特殊用法,这里选择的链接地址为“ 实施日期下拉菜单” (h/web/2006/3169.asp)。在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮打开记事本,查看当前页面的HTML源代码文件。2.3.1为文章的内容配置Title列。在开源代码文件中,查找收录标题的具体HTML代码,找到代码如下: 蓝色理想 - 实现一个日期下拉菜单 因为我们需要的标题内容是“实现一个日期下拉菜单”,这里 1为文章的内容配置标题栏。在开源代码文件中,查找收录标题的具体HTML代码,找到代码如下: 蓝色理想 - 实现一个日期下拉菜单 因为我们需要的标题内容是“实现一个日期下拉菜单”,这里 1为文章的内容配置标题栏。在开源代码文件中,查找收录标题的具体HTML代码,找到代码如下: 蓝色理想 - 实现一个日期下拉菜单 因为我们需要的标题内容是“实现一个日期下拉菜单”,这里

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线