小蜜蜂采集器使用指南-文章采集器使用指南.doc 8页

优采云 发布时间: 2020-08-08 01:41

  小蜜蜂采集器文章采集器用户指南1: 创建站点和列1: 单击“添加站点”按钮,将出现以下页面. 您可以根据提示设置网站名称和网站属性列名称. 注意: 必须先设置网站,然后才能设置列名. 设置列名称后,选择网站以建立该列的所有权. 配置站点和列后,将显示以下页面. 注意: 您可以在一个站点下添加多个列. 2: 创建采集规则1: 为列添加规则. 首次将规则添加到新创建的站点时,请单击站点列表列中的“添加规则”按钮. 如下图所示: 单击后,我们可以选择站点中要添加规则的列2: 规则编写这里,我们将重点介绍如何添加采集规则并详细说明如何编写规则. 以下说明将以实际的网站为例. 2.1如何编写URL规则让我们以以下链接地址为例: /tech/web/index.asp,出现以下页面. 让我们分析一下该URL的页面: 第一页的URL是/tech/web/index.asp第二页的URL是/tech/web/index_2.asp,第三页的URL是/ tech /网站/index_3.asp. 在这里我们可以看到,除了第一页之外,其他页面的URL也在定期更改. 因此,我在URL链接区域中填写了以下内容,我们可以看到在“常规URL”中,我们使用此链接内容/tech/web/index_[variable].asp,而实际的页面URL就像这样/ In tech /web/index_3.asp,我们使用[variable]代替数字[2] [3],并在参数区域中填写[2]和[9]. 到目前为止,我们已经完成了URL的添加. 2.2如何编写“链接”规则. 在上一步中,我们完成了URL编译,以便采集器知道要采集哪些页面URL. 但是如果软件知道要采集哪些内容,则必须编辑“链接”规则. 首先确定我们要采集的链接: 在当前页面上按“ F7”,或在IE中单击“查看”-“源文件”按钮,然后打开记事本以查看当前页面的HTML源代码文件. 找到一个特定的代码区域,如下图所示: 我们可以发现这些代码是规则的,并按照以下规律提取它们

  

  DW8代码工具栏试用版对于上面的代码,我们编写如下

  

  在上面的[title]中,我们用[link] [link]标签替换了“ /tech/web/2005/2815.asp”,并用[title] [title]替换了“ DW8 Code Toolbar Trial” ] 标签. 编辑“链接”规则后,选择“提交”按钮,然后单击“采集测试”按钮以测试规则配置是否正确. 如果配置正确,将显示以下页面: 这表明前面步骤的配置完全正确,现在可以执行实际的文章内容采集配置. 2.3如何配置文章内容的集合在链接中选择一个页面以打开它,这在目标演示内容配置中是一种特殊用法. 在此处选择的链接地址是“实施日期下拉菜单/tech/web/2006/3169.asp. )在当前页面上,我们按“ F7”,或单击“查看”-“源文件”按钮IE打开记事本,查看当前页面的HTML源代码文件2.3.1配置文章内容的“标题”列在打开的源代码文件中,搜索收录标题的特定HTML代码,然后查找代码如下: 蓝色理想-实现日期下拉菜单,因为我们需要的标题内容是“实现日期下拉菜单”,此处我们使用[title] [Title]标签标记到所需内容,替换代码如下: 2.3.2配置文章内容的“内容”列以查找收录该内容的特定源代码区域

  本文的重点是弄清楚如何扎根…………………………. 使用JavaScript的Date对象时,请特别注意这一点.

  源在这里,我们需要选择收录内容源代码的开始要素代码和结束要素代码. 通过分析,我们选择如下配置. 在这里,我们使用[content] [Content]标记替换内容页面的所有代码. 实际代码如下[内容]

  源2.3.3配置文章内容“内容分页”在此链接中,完整的文章分为三页. “内容分页”通常具有两种表现形式: 1: 列出所有形式; 2: 上一页和下一页. 我们演示了两种编码配置形式A: 列出了所有形式. HTML源代码如下

  

  第1页实现日期下拉菜单[1]

  

  第2页实施日期下拉菜单[2]

  

  第3页实施日期下拉菜单[3]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线