小蜜蜂采集器文章

优采云 发布时间: 2021-08-04 20:37

  

小蜜蜂采集器文章

  

  Little bee采集器文章采集器 用户指南 1:创建站点和列 1:单击添加站点按钮,将出现以下页面。可以根据提示设置网站名称和网站属性列名称。注意:必须先设置网站,才能设置列名。并在设置列名后选择网站来建立列的所有权。配置好站点和栏目后,会出现如下页面。注意:您可以在一个站点下添加多个列。二:创建采集 规则一:为一列添加规则。第一次为新创建的站点添加规则时,请务必点击站点列表栏中的“添加规则”按钮。如下图: 点击后,我们可以选择在站点的哪一栏添加规则 2:规则编写 这里我们要重点讲一下如何添加采集规则,详细讲解如何编写规则。下面以实际的网站为例进行说明。 2.1 URL规则怎么写以下面的链接地址为例: 当出现如下页面时,我们来分析一下这个URL的页面:第一页的URL是第二页的URL第三页。在这里我们可以看到,除了第一页,其他页面的URL都在有规律的变化。所以我在URL链接区填写如下内容。我们可以看到,在“常规网址”中我们使用了这个链接内容[变量].asp,而实际的页面网址是这样的。这里我们用[变量][变量]代替数字[2][3],并在参数区填入[2]和[9]。

  到目前为止,我们已经完成了 URL 的添加。 2.2 如何编写“链接”规则。在上一步中,我们已经完成了 URL 准备,以便采集器 知道哪个页面 URL 将是 采集;但是如果软件知道采集的具体内容,我们就必须编辑“链接”规则。首先确定我们要采集哪些链接:在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮,打开记事本查看当前的HTML源代码文件页。找到一个具体的代码区,如下图:我们可以发现这些代码是有规律的,按照规律,提取下面的DW8代码工具栏来试试上面的代码我们如下写上面的[title],我们使用 [link] [link] 标签替换了已替换的“/tech/web/2005/2815.asp”,并用 [title] [title] 标签替换了“DW8 Code Toolbar Trial”。编辑完“链接”规则后,选择“提交”按钮,然后点击“采集Test”按钮,测试规则是否配置正确。如果配置正确,会出现如下页面: 这说明前面步骤的配置完全正确,现在可以进行实际文章内容的采集配置。 2.3 如何配置文章content 采集 在链接中选择一个页面打开它,是内容配置中特殊用法的针对性演示。这里选择的链接地址是“实现日期下拉菜单”()。我们在当前页面按“F7”,或者在IE中点击“查看”-“源文件”按钮,打开记事本查看当前页面的HTML源代码文件。

  2.3.1 配置文章内容的“标题”列。在打开的源代码文件中,查找收录标题的具体HTML代码,找到代码如下:蓝色理想-实现一个日期下拉菜单,因为我们需要的标题内容是“实现一个日期下拉- down menu”,这里我们用[title] [Title]把标签放在需要的地方,代码替换如下:2.3.2 配置文章内容的“Content”栏,找到一个收录内容的特定源代码区域。这个文章的主题是弄清楚如何root…………………………。使用 JavaScript 的 Date 对象时要特别注意这一点。这里我们需要选择收录内容源代码的开始特征码和结束特征码。通过分析,我们选择如下配置。这里我们使用 [content] [Content] 标签来替换内容页的所有代码。实际代码如下 [content] Source2.3.3 配置文章Content "Content Pagination" 在这个链接中,完整的文章分为三个页面。 “内容分页”一般有两种表现形式,1:列出所有形式,2:上下页形式。我们演示了两种形式的编码配置 A:下面列出了所有形式。 HTML 源代码如下。第1页实现日期下拉菜单[1]第2页实现日期下拉菜单[2]第3页实现日期下拉菜单[3]这里我们使用了[innerrang][页面区号]标签,配置规则如下: [innerrang]B:上下页的HTML源代码如下。上一页和下一页实现了日期下拉菜单。 [2]这里使用[innerpage][Pagination]配置规则如下:下一页[变量]。

  这里需要特别注意的是,在上下页分页模式下,只需要选择收录“下一页”内容的源代码即可。完成此步骤后,选择“提交”,然后选择“采集测试”按钮。如下图所示,找到“实现日期下拉菜单”链接,点击“提取内容”按钮,测试提取的内容。并检查内容是否符合原内容,“内容分页”是否完整提取。在这里我们可以看到。内容被完全提取。证明我们的“内容”和“内容分页”规则配置是正确的。其余的“来源”和“作者”栏规则,我们可以参考“内容”等配置方法进行配置。配置如下: 2.3.4 配置文章content "filter"列"filter"列,可以将要过滤的源代码复制到该列中,如果有多个源代码段要过滤,您可以使用[过滤] [添加过滤器] 标签进行分割。 2.3.5 配置文章内容“图片保存目录”。这里的目录是指采集系统所在的WEB根目录。可以手动创建,也可以在指定图片存储的一级目录后选择“按系统自动添加目录”。选择该选项后,系统会根据日期创建二级目录。 ,并将当天采集使用的图片存放在以日期命名的目录中;推荐使用,方便管理。 3:文章采集规则配置完成后,按照“采集link”-“采集content”-“采集图片”的顺序完成文章的采集。

  完成采集后,您可以点击“内容”浏览并检查采集的内容和图片的正确性。二:采集器配置技巧1:将规则复制到同一个网站的不同目录下,它们的配置规则大致相同,只需要稍微改动一下。在我们为列配置规则之后。我们可以使用“复制规则”来复制其他未配置规则的列的规则。加快列规则的配置。具体方法如下:点击已配置规则部分中的“复制规则”按钮,在需要复制规则的部分名称后会出现页面,然后点击“提交”。这样就完成了规则的复制。我们只需要将规则编辑中的 URL 替换为对应的列即可。 2:规则导入导出采集器规则分为三种 1:全站配置规则(*.qzd)文件 2:列配置规则(*.lwp)文件 3:数据库引导库配置规则(*.lpdb) ) 文档。 2.1 全站规则的导入导出,全站规则的导入导出是指站点内所有栏目和栏目配置规则的导入导出。导入全站点规则时,需要点击“添加站点”,新建站点,点击新站点的“导入规则”,选择要导入的全站点配置规则文件*.qzd。 2.2 列规则导入导出 列规则导入导出是指站点中特定列配置规则的导入导出。导入站点范围的规则时,单击“添加站点”,创建一个新列,然后单击“新建列”。 “导入规则”选择要导入的全站配置规则文件*.lwq。 2.3 数据库引导规则管理 数据库引导规则管理是指导入、导出或更改列引导规则的设置。将出现以下菜单。导入规则和导出规则功能与列的规则导入导出相同。相同的。编辑规则可以更改现有的配置规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线