文章采集(文档介绍:动易SiteFactory文章采集管理教程采集概述)
优采云 发布时间: 2022-02-14 18:20文章采集(文档介绍:动易SiteFactory文章采集管理教程采集概述)
文档介绍:东一SiteFactory文章采集管理教程
1.采集管理概览
系统提供了强大的采集功能。采集系统可以直接渗透到网站及其网页的所有内容,采集取出网页中的有效数据(不仅仅是网页或链接),并维护它们之间的逻辑关系数据。对于一个新闻站点,它可以将采集每条新闻的标题、正文等信息分开,并作为字段存储在系统中。
系统提供的采集函数具有以下特点:
·AJAX技术的大量应用,采集设置即用,以可视化预览的形式截取代码。
·以字段为中心,每个字段不仅可以设置采集规则,还可以应用私有过滤和公共过滤规则。
·采集之后的每个字段都可以预览结果。系统中每个字段类型都提供了十几个采集规则,采集规则与字段类型相关联(如“文本类型”设置,采集规则界面和“时间规则”)。设置采集规则界面不同)。
·采集应用线程技术,用户可以在采集运行过程中进行其他管理操作,系统会采集指定项目内容。
·采集采用缓存技术,系统采集采集之前的所有列表页链接,大大节省系统资源。
·采集可选择图片、软件等任意模型类型,支持采集各类信息。
依次点击“内容管理”->“采集管理”功能链接,出现的下拉导航菜单会显示开始采集、采集管理、采集@ >历史、采集过滤管理、查看采集进度等功能环节。
14.1采集管理
依次点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,左侧为采集管理操作导航区,其中显示管理功能的链接,例如启动采集、添加采集 项目、采集 项目管理、采集 历史记录和查看采集 进度。
·开始采集:对于采集已经建立的采集项目。
·添加采集 项:用于添加一个新的采集 项。
· 采集项目管理:用于管理和复制采集项目。
·采集历史记录:查询并显示已经采集的记录的历史记录,避免重复采集。
·查看采集进度:查看对应采集任务的执行进度。
依次点击“内容管理”->“采集管理”->“采集过滤器管理”功能链接,在出现的管理界面中,左侧为采集过滤器操作导航区域,显示添加采集过滤器、管理采集过滤器等管理功能的链接。
·添加采集过滤器:在采集中添加过滤所需的标题和正文的字符。
·管理采集过滤:管理采集中要过滤的字符。
14.2.1采集流程的第一步
本节将以采集东一官方网站“公司动态”栏目为例,讲解添加采集项目和信息采集的全过程。
如果您是第一次接触采集功能,请仔细阅读操作步骤并理解相关说明,然后按照以下步骤创建所需的采集工程。
14.2.1 第一步:采集项目设置
点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,点击左侧管理操作导航中的“添加采集@”>项目”功能链接,系统显示“添加采集项目设置
”管理界面设置新创建的采集项目的名称、采集网站、代码等基本设置信息。
重要参数说明:
·项目名称:填写自定义采集项目的名称(如“动态公司新闻”)。
·本站对应栏:点击可将设置中采集的数据保存到本站对应栏的节点名(如“文章中心”)。
·对应内容模型:点击设置对应列的模型(如“文章模型”)。
提醒:如果在采集项目完成后更改了相应的模型,系统会在采集的第三步自动删除所有字段的规则。
·采集网站:填写所需采集目标网站的名称(如“东一官网”)。
·采集URL:填写采集网页的URL(以“ounce/index.html”开头)。
·编码选择:提供三种编码格式:GB2312、UTF-8和Big5。国内网站基本都是GB2312,如果采集香港、台湾网站请选择Big5编码,如果采集海外网站选择UTF-8编码(对于例如,“东一技术中心”选择“GB2312”代码)。
·指定采集的个数:指定采集的个数,而不是采集的所有数据。
·采集顺序:设置逆序或顺序执行采集(系统默认为逆序采集)。
·采集简介:填写本采集项目的简要介绍信息(如“动态信息”)。
设置好相关选项后,点击页面底部的“下一步”功能按钮,设置采集列表项信息。
提醒:如果目标网站的信息需要登录后才能查看和采集,请参考动态技术中心(/)中的相关说明进行设置。
14.2.2 第二步:列表页面采集设置
采集函数主要用于批量采集方法获取目标网站中的列表信息。@网站List page 获取列表区号并设置分页选项。
在出现的界面中,左侧默认显示想要的采集目标列表页面的源代码,右侧书签面板中显示列表设置和分页设置选项。
重要参数说明:
1.在列表设置书签窗格中,设置所需的采集列表代码区域。
·列表起始码和列表结束码:填写采集目标源代码框中显示的采集列表码的起始码和结束码。
在动态列表页面 (ounce/index.html)