文章采集(文档介绍:动易SiteFactory文章采集管理教程采集概述)

优采云 发布时间: 2022-02-14 18:20

  文章采集(文档介绍:动易SiteFactory文章采集管理教程采集概述)

  文档介绍:东一SiteFactory文章采集管理教程

  1.采集管理概览

  系统提供了强大的采集功能。采集系统可以直接渗透到网站及其网页的所有内容,采集取出网页中的有效数据(不仅仅是网页或链接),并维护它们之间的逻辑关系数据。对于一个新闻站点,它可以将采集每条新闻的标题、正文等信息分开,并作为字段存储在系统中。

  系统提供的采集函数具有以下特点:

  ·AJAX技术的大量应用,采集设置即用,以可视化预览的形式截取代码。

  ·以字段为中心,每个字段不仅可以设置采集规则,还可以应用私有过滤和公共过滤规则。

  ·采集之后的每个字段都可以预览结果。系统中每个字段类型都提供了十几个采集规则,采集规则与字段类型相关联(如“文本类型”设置,采集规则界面和“时间规则”)。设置采集规则界面不同)。

  ·采集应用线程技术,用户可以在采集运行过程中进行其他管理操作,系统会采集指定项目内容。

  ·采集采用缓存技术,系统采集采集之前的所有列表页链接,大大节省系统资源。

  ·采集可选择图片、软件等任意模型类型,支持采集各类信息。

  依次点击“内容管理”->“采集管理”功能链接,出现的下拉导航菜单会显示开始采集、采集管理、采集@ >历史、采集过滤管理、查看采集进度等功能环节。

  14.1采集管理

  依次点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,左侧为采集管理操作导航区,其中显示管理功能的链接,例如启动采集、添加采集 项目、采集 项目管理、采集 历史记录和查看采集 进度。

  ·开始采集:对于采集已经建立的采集项目。

  ·添加采集 项:用于添加一个新的采集 项。

  · 采集项目管理:用于管理和复制采集项目。

  ·采集历史记录:查询并显示已经采集的记录的历史记录,避免重复采集。

  ·查看采集进度:查看对应采集任务的执行进度。

  依次点击“内容管理”->“采集管理”->“采集过滤器管理”功能链接,在出现的管理界面中,左侧为采集过滤器操作导航区域,显示添加采集过滤器、管理采集过滤器等管理功能的链接。

  ·添加采集过滤器:在采集中添加过滤所需的标题和正文的字符。

  ·管理采集过滤:管理采集中要过滤的字符。

  14.2.1采集流程的第一步

  本节将以采集东一官方网站“公司动态”栏目为例,讲解添加采集项目和信息采集的全过程。

  如果您是第一次接触采集功能,请仔细阅读操作步骤并理解相关说明,然后按照以下步骤创建所需的采集工程。

  14.2.1 第一步:采集项目设置

  点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,点击左侧管理操作导航中的“添加采集@”>项目”功能链接,系统显示“添加采集项目设置

  ”管理界面设置新创建的采集项目的名称、采集网站、代码等基本设置信息。

  重要参数说明:

  ·项目名称:填写自定义采集项目的名称(如“动态公司新闻”)。

  ·本站对应栏:点击可将设置中采集的数据保存到本站对应栏的节点名(如“文章中心”)。

  ·对应内容模型:点击设置对应列的模型(如“文章模型”)。

  提醒:如果在采集项目完成后更改了相应的模型,系统会在采集的第三步自动删除所有字段的规则。

  ·采集网站:填写所需采集目标网站的名称(如“东一官网”)。

  ·采集URL:填写采集网页的URL(以“ounce/index.html”开头)。

  ·编码选择:提供三种编码格式:GB2312、UTF-8和Big5。国内网站基本都是GB2312,如果采集香港、台湾网站请选择Big5编码,如果采集海外网站选择UTF-8编码(对于例如,“东一技术中心”选择“GB2312”代码)。

  ·指定采集的个数:指定采集的个数,而不是采集的所有数据。

  ·采集顺序:设置逆序或顺序执行采集(系统默认为逆序采集)。

  ·采集简介:填写本采集项目的简要介绍信息(如“动态信息”)。

  设置好相关选项后,点击页面底部的“下一步”功能按钮,设置采集列表项信息。

  提醒:如果目标网站的信息需要登录后才能查看和采集,请参考动态技术中心(/)中的相关说明进行设置。

  14.2.2 第二步:列表页面采集设置

  采集函数主要用于批量采集方法获取目标网站中的列表信息。@网站List page 获取列表区号并设置分页选项。

  在出现的界面中,左侧默认显示想要的采集目标列表页面的源代码,右侧书签面板中显示列表设置和分页设置选项。

  重要参数说明:

  1.在列表设置书签窗格中,设置所需的采集列表代码区域。

  ·列表起始码和列表结束码:填写采集目标源代码框中显示的采集列表码的起始码和结束码。

  在动态列表页面 (ounce/index.html)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线