免费 文章采集工具( 如何编写小蜜蜂采集器使用指南-文章采集(组图))

优采云 发布时间: 2021-09-23 04:21

  免费 文章采集工具(

如何编写小蜜蜂采集器使用指南-文章采集(组图))

  

  Little bee采集器用户指南-文章采集器用户指南Little bee采集器文章采集器用户指南-建立站点和第1列单击“添加站点”按钮显示以下页面。您可以根据提示设置网站name和网站attribute列名。注:设置列名前必须设置网站并在设置列名后选择网站以建立列的属性。在和列后面显示以下页面时配置站点。请注意,可以在站点下添加多个列。2.建立采集规则。1.为列添加规则。当您第一次为新建立的站点添加规则时,请确保选择“站点列表”列中的“添加规则”按钮,如下图所示。单击后,我们可以选择站点中要添加规则的列。2.规则编写在这里很重要。请解释如何添加采集规则,并详细说明如何编写规则。以下解释将以实际的网站为例。21如何编写URL规则。我们以下面的链接地址为例显示在下面的页面上。让我们分析一下URL页面。第一页的URL是第二页的URL是第三页的URL。在这里我们可以看到,除了第1页,页面URL都在定期更改,因此,我在URL链接区域中填写以下内容。我们可以看到,我们在常规URL中使用这样的链接内容[variable]ASP,而实际的分页URL是这样的。这里我们使用[variable]变量替换参数区域中的数字23并填充29。到目前为止,我们已经完成了URL 22的添加。如何编写链接规则。在上一步中,我们已经完成了URL的编写,以使采集器知道指向采集的页面URL,但为了让软件知道指向采集的内容,我们需要编辑链接规则。首先,确定我们希望采集出现在当前页面上的链接。我们按F7或单击E中的“查看源文件”按钮打开记事本以查看当前页面的HTML源代码

  

  在文件中找到的特定代码区域如下图所示。我们可以发现这些代码是规则的。根据该定律,我们提取以下imgsrc“imgiconarrowgif”宽度“4”高度“13”ahref“techweb20052815asp”DW8代码工具栏。请尝试使用ATD获取上述代码。我们将imgsrc“imgiconarrowgif”宽度“4”高度“13”ahref“[link][title]ATD写入上述内容,我们使用[link]链接标签替换[title]techweb20052815asp使用标题标记替换DW8代码工具栏试用编辑链接规则。链接规则完成后,选择提交按钮并单击采集test按钮以测试规则配置是否正确。如果配置正确,将显示以下页面,显示上一页中的配置我们的步骤完全正确。现在您可以配置实际的文章content采集23如何配置文章content采集在链接中选择一个页面打开它,以便在目标演示内容配置中特殊使用,这里选择的链接地址是实现日期下拉菜单。在当前页面上,我们按F7或c点击IE中的view source file(查看源代码文件)按钮打开记事本,查看当前页面的HTML源代码文件231。配置文章内容的标题栏查找收录开放源代码文件中标题的特定HTML代码。代码如下:TLE blue ideal-实现日期下拉菜单标题,因为标题内容nt我们需要的是实现一个日期下拉菜单。在这里,我们使用[title]title标记替换所需内容处的代码。代码如下:232配置文章content的内容列,并找到收录内容tablewidth“100”border“0”cellspaci的特定源代码区域

  

  NG“11”单元添加“0”类“分页器”trtdclass内容p本文文章的主要目的是了解如何使用JavaScript的date对象。请特别注意这一点。在这里,我们需要选择收录内容源代码的开始功能代码和结束功能代码。通过分析,我们选择如下配置。这里我们使用[内容]内容标签替换内容页的所有代码。实际代码如下:trtdclass“content”[content]Palignright progence 233在此链接中配置文章内容分页,完整的文章分为三页。内容分页通常有两种形式:1所有列表形式2上下页面形式。我们演示了两种形式的编码配置所有列表形式的HTML源代码如下:pclasslistimgsrc“imgiconarrow_redgif”width“4”height“13”Page 1实现了日期下拉菜单[1]brimgsrc“imgiconarrow_orangegif”width“4”height“13”Page 2 ahref“techweb20063169_2asp”实现了日期下拉菜单[2]abrimgsrc“imgiconarrow_orangegif”宽度“4”高度“13”第3页ahref“techweb200631669_3asp”实现日期下拉菜单[3]abrp使用[InnerRange]分页区号标签配置规则如下:pclasslistim

  

  GSRC“imgiconarrow_redgif”width“4”height“13”[InnerRange]abrpb上下页HTML源代码如下palignrightfontstyle“font-size12px”colordarkgray上一页fontatitle“next page”href“techweb20063169_2asp”style“font-size12px”下一页实现日期下拉菜单[2]AP在这里,使用[innervage]的分页配置规则如下:atitle“next page”href“[innervage]”Style“font size 12px”next[变量]AP这里我们要特别注意的是,在翻页和翻页模式下,您只需选择收录下一页内容的源代码即可完成此步骤。选择提交,然后选择采集test按钮,如下图所示。找到标题链接以实现日期下拉菜单,单击extract content按钮测试提取的内容,并检查内容是否与原创内容一致以及内容页是否完整在这里我们可以看到内容被完全提取,这证明我们的内容分页规则配置是正确的。对于剩余的源作者列的规则,我们可以参考内容的配置方法等。配置如下234配置文章content filtering column。filtering column可以将要过滤的源代码复制到column中。如果有多个要过滤的源代码,可以通过添加一个带[filter rate]的filter tag来划分段.235配置文章内容图片保存目录。此处的目录是指采集系统所在的web根目录。您可以手动创建该目录,也可以在指定图片存储主目录后选择系统自动添加目录。选择此选项后,系统将

  

  根据日期创建一个二级目录,并将当天的图片采集存储在以日期命名的目录中,为了便于管理,建议使用该目录3文章采集规则配置完成后,按采集链接采集content采集pictures的顺序完成文章中的采集采集完成后,您可以点击内容浏览查看采集内容和图片的正确性。2采集器配置提示1规则复制相同的网站不同目录的配置规则一般都是相同的,只需要做一些更改。配置一列规则后,我们可以使用复制规则复制未配置规则的其他列的规则,加快列规则的配置速度,具体方法如下:点击配置规则列中的复制规则按钮出现,如页面需要复制规则,在规则列名后点击提交,即可复制规则,只需替换规则编辑中的URL与相应列。2.规则导入和导出采集器规则分为三种类型:1.站点范围的配置规则QZD文件2.列配置规则LWP文件3.数据库导入配置规则LPDB文件21.站点范围的规则导入和导出。站点范围的规则导入和导出指si中收录的规则te导入导出所有栏目和栏目配置规则导入全站规则时,点击〖新增站点〗按钮,新建一个站点,然后点击新站点的导入规则,选择要导入的全站配置规则文件QZD。22栏目规则导入导出栏目规则导入导出是指f站点中的特定列配置规则。添加站点并创建新列后,在导入站点范围的规则时单击,单击新列的导入规则,选择要导入的站点范围的配置规则文件LWQ。23数据库导入规则管理数据库导入规则管理指导入、导出或删除更改列的导入规则集。以下菜单导入规则和导出规则功能与列规则导入和导出相同。编辑规则可以更改现有配置规则

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线