图2-9当所需的设置页面中如图(2)

优采云 发布时间: 2021-08-24 05:37

  图2-9当所需的设置页面中如图(2)

  首先,结束标签是:page。填写完毕后可以点击查看链接是否正常。如果不正常,请检查标签设置是否合适,网络是否畅通。图2-9 填写好需要的设置后,点击,列表页面的配置项就设置好了。内容页显示在第三步内容页设置页(2-10),主要是对采集器所需信息的方向如图2-10采集的文章内容,和这个方向是一样的 是在这个页面的源代码中通过特定的标记设置的,具体设置如下: 【标题提取方法】:这里有两个选项,自动提取和采集在页面上,选择“自动提取”时,系统将在文章的内容页面中自动删除文章标题采集。当您选择“从页面采集”时,文章标题你被采集锁定的会自动弹出,有两个填写框,分别是“Title Start Mark”和“Title End Mark”,如图(2-11).图2-11) Title Start Mark”和“Title End Mark”可以通过匹配来捕获 取文章的标题,一般用于标题开始标签和标题结束标签,填写后点击预览标记的标题e. 【文本提取方法】:这里也有两个选项,自动提取和从页面采集,当您选择“自动提取”时,系统会自动在文章内容中删除文章内容采集页。当您选择“来自页面的采集”时,您将被采集你锁定的文章内容。选择后会自动弹出两个填写框,分别是“Body Start Mark”和“Body End Mark”,如图(2-12).

  图2-12“Body start tag”和“Body end tag”可以用来捕获文章的body。注意这里的标签必须能够唯一标识文章内容。填写完毕后,可以点击预览。 【采集text 格式】:这里有两个选项,分别是:纯文本和超文本。选择纯文本时,采集中的文章内容会以纯文本格式保存;选择超文本时,文章 Content来自采集将以超文本格式保存。 【过滤标签】:这里采集网页常用的标签。当采集不需要某个标签的效果时,可以在此处选择该标签,当采集时,会将选中的标签过滤掉。 【下一页内容】:这里有两个选项。当文章content页面没有下一页时,选择not采集分页,当文章content页面中有页面时,选择获取下一页或下一页的链接标签。这里的标签设置与板块列表页【列表下一页:】设置项“获取下一页”中标签的设置方法相同。如图(2-13)图2-13) 设置该页面的设置项后,点击,设置文章content的采集。附在第四步的附加设置页面,如图(2-14),主要是设置一些图片、附件以及一些用户想要采集在一些网页中的附加内容。这里的设置是可选的,如果用户有需要,可以设置,否则不需要设置,采用默认状态,接下来我们单独介绍页面上的设置项。

  图2-14【任务名称】:显示这个采集任务的名称。 【发布状态】:这里有两个选项:“采集审核后发布”和“采集立即发布”。当信息采集需要对来自采集的文章进行审核,并且审核通过后才能发布(前提是网站中已经存在文章审核流),可以选择“采集需要审核后才能发布”,当信息采集器不需要审核文章采集并发布时,可以选择“采集后立即发布” 》。【内容内嵌图片】:一般情况下,网页上的文章内容都会嵌入一些图片来美化页面。文章采集器也希望采集system可以采集文章内容同时,内容中的图片也是采集下的,针对信息采集的需求,我们专门为此开发了这个功能,我们在这里为信息设置了两个选项采集器选择,当信息采集器考虑本地磁盘空间,不想把采集页面中的图片下载到本地,只想链接t图片、信息采集可以选择默认的“不要下载,链接到原地址(推荐)”选项。当信息采集器想将采集页面中的图片下载到本地时,使用方便,可以选择“下载并存储到本地系统”选项。 【设置图片链接】:如果你想使用文章内容页面中采集的图片作为这个文章的链接,那么你可以在这里设置。在本设置项中选择提取内容中的图片作为图片链接;如果不需要,可以选择不设置图片链接。

  【附件】:这里有两个选项:“不要下载”和“下载并存储在本地系统”。除了展示的内容,部分文章还有附件供读者阅读。当采集器采集文章时,如果要删除附件采集,可以在此处选择“下载并存储在本地系统”。这时候下面会自动出现一个填充目标附件位置的标签条目,如图(2-15).然后填写可以用来定位附件的开始标记和结束标记在出现的两个字段中,点击。右边可以预览你想要的采集的附件信息,当采集器只需要采集文章的内容,而你不想要的时候图2-15【作者姓名获取方式】:当文章采集要在采集下方的文章内容中添加作者姓名时,您可以选择“不下载”。可以选择“指定作者姓名”,然后在下方【指定作者姓名为】右侧的输入框中填写要起草的作者姓名。当文章采集器想直接获取时原文章内容中的作者姓名,可以选择“采集 from the page”,下面会自动出现一个标签条目,填写目标作者的位置,如sho wn 在图 (2-16).图 2-16。然后在出现的两个条目中填写可用于定位作者位置的开始和结束标签。单击。右侧可以预览你想要的采集的作者信息。:【信息获取方式】:一般文章会标识其内容的来源。我们这里也特意添加了采集数据源功能,方便文章采集器获取源信息。

  有时候采集people想在采集往下的文章内容中添加自己设置的数据源信息时,可以选择“指定源名称”,然后点击【指定数据源名称】 ] 下面为] 在右侧的输入框中填写要设置的数据源的信息。当文章采集想直接获取原创的文章内容数据源信息时,可以选择“采集source from the page”,会自动出现一个标签填写目标数据源的位置下面。项,如图(2-17)。然后在出现的两个字段中填写可以定位数据源位置的开始标记和结束标记。点击右侧预览文章数据采集的图2-17【获取摘要的方法】:一般文章会附带一些内容摘要,为文章提供内容摘要,这里我们也特意添加了采集摘要的功能。当文章当采集器想直接从文章内容开头截取一部分内容作为这个文章内容的摘要,选择从正文截取摘要,然后输入你想要的想在下方【获取正文】右侧的输入框中截取文章开头的内容中的字符数,有时候如果文章采集想直接获取原来的文章内容摘要信息,他们可以从页面中选择采集摘要,然后它会自动出现在下面的标签填写项为loca出现目标内容摘要,如图(2-18).图2-18 然后在出现的两个填写位置中填写可用于定位内容摘要位置的开始标签和结束标签。点击右侧可以预览你想要的信息采集文章内容摘要。

  如果采集的文章中没有配置摘要,可以选择不采集。当所有必填的设置项都填好后,点击,本页填写的信息就设置成功了。以上四步都设置好后,一个完整的文章list内容页文章采集任务就设置好了。 RSS文章List采集Task Settings RSS 是站点与其他站点共享内容(也称为聚合内容)的一种简单方式,通常用于文章 和其他网站的顺序@。 RSS已成为目前最成功的XML应用,为信息的快速传播搭建了技术平台,让每个人都成为潜在的信息提供者。目前很多大型的网站都提供了RSS支持。基于这种情况,我们还专门开发了自动采集RSS文章功能。接下来,我们将详细介绍如何采集RSS文章。 RSS文章采集也与文章表页文章的采集相同。首先创建一个采集任务,通过(图2-3).现在)中的四个步骤分别介绍。 【第一步:基础】:本任务的基础设置页面和采集文章表页文章的设置页面为一页,如图(2-3).提供的设置大部分相同,唯一不同的是:在“采集List Type”项中选择RSS链接,在“采集List Address”中需要填写@的RSS格式的XML链接地址采集文章,例如新浪RSS频道文章中心下的文章要闻列表(HYPERLINK "/news/marquee/ddt.xml" /news/marquee/ddt.xml),功能和设置以及其他项目采集文章list 页面的选项相同。

  这里不多介绍。 【步骤二:列表页面】:该页面的设置项主要包括内容去重的设置和填写RSS文章content页面的链接地址。内容页链接的设置是为下一步采集具体文章内容做准备,如图(2-19)。具体操作是在RSS文章中打开一个文章 @list page and put this 在这里的内容链接地址栏中填写文章content页面的地址,然后点击预览即可,这个设置的原因和文章content显示的原因是一样的普通文章列表的页面,使用相同的内容展示页面,这里需要注意的是此项必须填写。 图2-19【步骤3:内容页面】:该页面的设置功能是采集文章的列表页中的第三个步骤内容页设置的功能是一样的,如图(2-20)。具体操作也一样,就不介绍了图2-20【步骤4:附加】:该页面的样式如图(2-21) 图2-21 该页面设置的功能和操作方法同上) 采集文章 列表页面。通过以上步骤设置后,一个完整的RSS文章采集任务就完成了,接下来就可以采集RSS文章了。 2.1.3 修改任务 当信息采集器想修改已经创建的任务中的设置信息时,只需点击要更改的任务名称,在任务设置界面进行更改弹出。 2.1.4 删除任务时信息采集器 出于某种原因,采集一个文章在文章的列表中,要删除时可以选择采集任务删除,点击,采集任务将被删除。

  2.1.5 启用和禁用任务 为了方便地启用和禁用采集任务,我们特地在任务列表的上半部分添加了这两个功能,如图(2-1).当采集管理者想要启用某些任务时,只需选择要启用的任务,然后点击,该任务被启用;当采集管理者想要停止一些已经启用的任务时, 2.1.6 设置计划 计划主要是为采集tasks 设置定时启动,此功能为采集器提供信息,智能采集方案方便采集器的维护,同时也提高了文章的时效性,具体操作点击弹出如图(2-22)界面,图2 -22,然后在弹出框中详细填写配置项,点击,采集plan添加成功。注意:配置项中的任务名称是指任务n 采集 任务的名称。此项必须正确填写,以确保任务执行正确。 2.1.7 设置模板 在2.1.1 部分,我们提到了设置模板的功能。下面我们来具体介绍一下。当文章管理员需要把某个采集设置为模板以备将来使用时,直接选择采集task,点击采集task右侧操作中的“设置为模板”记录。然后,这个采集task会作为模板保存到【Task Template】列中。 2.1.8 采集记录管理采集记录管理的功能配置在名称旁边每个采集任务方便信息采集器对采集记录被维护。

  点击采集任务名称左侧的【查看记录】,进入采集记录管理页面,如图(2-23)。该页面共有三个设置,分别是:重置采集 @status,删除采集status,清除采集status。采集的文章的来源信息记录在下面的列表页,这个功能方便采集器查看采集信息下的文章的来源,每条记录都有一个链接,如图2-23 重置采集状态 每个采集任务执行后,所有采集记录都会列在这个页面上。当信息采集zhe发现采集down的一个文章的显示格式或内容不正确或不符合自己的需要时,需要更改任务设置,然后重新采集 @为这条文章,但必填 当没有被其他采集down的文章重新采集时,信息采集可以选择这条记录,点击,这条的采集标记记录将变为“不采集”。接下来采集器可以更改任务的设置,af ter更改,然后采集再次,现在你需要重新采集文章采集down,并将其保存到指定的文章组件如果采集人不想要不满意文章,可以删除文章source 列中原来的文章。删除采集记录,因为系统执行采集任务会记录在采集记录管理中。如果下次执行任务,如果采集记录管理中有采集记录,则跳过这条记录,而不是采集。所以如果@当采集器想要重新采集某条或部分文章记录,你必须在这里删除这些采集记录,然后执行任务,系统会重置文章这些记录采集又下来了。

  具体操作是选中要删除的记录,点击,该记录就会被删除。清除采集记录 当采集器想在某个任务中重新采集文章时,则必须在该页面删除该任务中的所有记录。为了方便删除,我们提供了清除采集记录的功能。只要你点击这个页面,所有的记录都会被删除。 2.2 任务控制台 任务控制台主要提供采集任务的启停管理。其控制界面如图(2-24)。蓝色的任务工作区会显示采集任务进程的信息。所有要执行的任务必须在任务控制台中启动。需要说明的是这里是如果信息采集器已经创建了很多采集任务,但是你想指定任务什么时候执行,你必须在任务中把其他没有执行的任务的状态改为禁用状态设置,然后采集。如果要在采集的过程中停止采集,直接点击,采集Task就会被终止。图2-242.3 任务日志这里的功能主要是详细记录采集任务的操作,比如启动一个任务然后执行,这里会记录任务执行过程中发生的操作。如图(2-25):图2) -25 该功能用于采集任务有问题的时候查找和排查问题,当采集管理员不想在这里显示日志时,可以选择日志并单击它。如果管理员想要删除所有日志,点击,此时页面上的所有日志都会被清除。

  另外,这里还配置了模糊查询功能。为了方便管理员查询记录。 2.4 任务模板 该模块主要存储2.1.7部分设置的任务模板,同时也记录了任务模板的相关信息,如模板名称、模板描述、采集地址。此外,其模块中还配置了模糊查询功能,方便管理员快速查找。如图(2-26):图2-26 如果管理员不需要某个模板,当您想删除它时,可以选择该模板并点击它。2.5 回收站删除任务信息记录在页面显示如下图,这里可以恢复删除的记录,只需要选中记录,点击按钮,如果确定要完全删除记录,点击记录下图中完全删除操作。 图2-273.HYPERLINK "7:8080/system/reptile/manager.jsp" \o "数据抓取管理" \t "right" 数据抓取管理3.功能说明@1 HYPERLINK "7:8080/system/reptile/manager.jsp" \o "数据采集管理" \t "right" 数据采集管理概述 根据用户的设置方法提取外部数据库中的数据信息并存储在本产品使用的数据库中,数据以文章的形式显示(即任意数据库表中的数据为以用户指定的方式捕获到本产品的文章表中)。

  其特点:可以对任意数据库进行操作,可以联合抓取多张表的数据。操作简单,用户自定义任务和数据提取。您可以制定计划,定期、定量地从所需数据库中提取数据,并展示在本产品的前台网站文章页面上。 3.2 任务设置 图3-1 当您需要添加新的数据采集任务时,可以在弹出的页面中点击 添加采集任务。数据抓包的任务设置分为三步(基本信息设置、抓包信息设置、表属性映射设置),填写任务时必须一步一步填写。在每个步骤中,所有带有符号的项目都是必需的。 3.2.1 基本信息设置在第一步建立数据采集任务的基本信息页面。需要填写的项目如图(3-2)。图3-2【任务名称】:这个文章抓取任务的任务名称。当这个任务处于“启用”状态时, 执行抓取任务时,会执行此任务;当任务处于“禁用”状态时,执行抓取任务时会执行此任务。该任务不执行。 [目标列]:在这里你可以选择将捕获的文章放在该列文章源中。文章源列的选择基于用户的需求。选择单击时,将弹出用于选择页面组件的页面,如图所示图中(3-3)。在页面上选择需要的列文章source,然后点击。执行爬取任务后,抓取到的文章直接存储在指定列文章source中。图3-3【数据库连接池】:源数据库和新数据库都需要在系统管理下的数据库链接池中进行配置。

  这里的数据库链接池要设置为数据源所在的连接池。 【每次最多抓取】:这里可以选择每次要抓取的文章的数量。 【发布状态】:这里有两个选项:“需要抓取后审核发布”和“抓取后立即发布”。当数据爬虫需要对抓取的文章进行审核,审核通过后可以发布,可以选择“抓取后需要审核后发布”。当数据爬虫审核*敏*感*词*的文章When 未经审核发布。您可以选择“抓取后立即发布”。设置好需要的项目后,点击 ,进入第二步列表页面的设置。 3.2.2 抓包信息设置在抓包信息设置页面第二步显示(3-4)填一条sql查询语句。图3-4【任务名称】:这里显示的名字是第一步定义的任务名称。【抓取数据的条件设置】:数据爬虫可以根据自己的需要输入上图中的SQL语句,但必须保证SQL的正确性,否则点击Save After即会出现如图(3-5))的提示信息 图3-53.2.3 表属性映射设置在第三步表属性映射设置的设置页面如图图中(3-6) ,主要是数据抓取器设置了title字段、body字段、抓取文本格式、唯一标识字段、作者、数据源、摘要、关键词、Join时间。保存表属性映射设置,以便设置任务。

  图3-63.2. 当数据采集器想要重新修改已经创建的任务中的设置信息时,只需点击要更改的任务记录后的任务设置即可。只需在界面中进行更改。 3.2 当数据抓取器由于某种原因不需要抓取文章 列表中的文章 时。如果你想删除它,你可以选择你要删除的抓取任务,点击它,这个抓取任务就被删除了。 3.2.6 开启任务和关闭任务 为了方便开启和关闭抓取任务的操作,我们特地在任务列表的上半部分增加了这两个功能,如图(3- 1).当数据采集管理器想要开启某些任务时,只需选择要开启的任务,然后点击,任务开启;当数据采集管理器想要停止一些已经开启的任务时,选择要禁用的任务,点击即可。3.2.7 设置计划 设置计划主要是为爬取任务的定时设置,该功能为数据爬虫提供智能爬取计划,方便数据抓取同时也提高了文章的时效性,具体操作是点击弹出界面如图3-7)。如图3-7,然后填写配置项在弹出框中点击,爬取计划添加成功3.2.8 Crawl 当数据爬虫想要管理已经创建的任务记录,只需点击任务记录后进入爬取记录管理界面如图(3-8).在此页面上,可以删除和清除记录。注意:这里删除的记录不会影响已经抓到文章source列的记录。

  图3-83.3 任务控制台 任务控制台主要提供抓取任务的启动和停止管理。其控制界面如图(3-9)。所有任务要执行,必须在任务控制台中启动。这里需要注意的是,如果信息抓取器已经创建了很多抓取任务,但是想要要执行指定的任务,必须在任务设置中将其他没有执行的任务的状态改为禁用状态,然后进行爬取,如果在爬取过程中想停止爬取,直接点击,爬取任务图3-93.4 任务日志 这里的功能主要是详细记录抓包操作,比如启动一个任务然后执行,这里会记录执行过程中发生的操作如图(3-10):图3-10 这个函数的作用是的,当爬取任务出现问题的时候,方便我们查找问题和排查问题。当爬网管理器不希望在此处显示日志,您可以选择日志并单击它。如果管理员想要删除所有日志,点击所有日志,此时页面上的所有日志都会被清除。此外,这里还配置了模糊查询功能。方便管理人员查询记录。 3.5 回收站如下图 删除的任务信息记录显示在页面上,可以恢复删除的记录,只需选中该记录,点击按钮即可。如果您确定要完全删除一条记录,请点击下图完全删除该记录。 图3-11

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线