采集文章系统(动易SiteFactory文章采集管理教程(动易)SiteFactory采集项目设置)

优采云 发布时间: 2022-03-17 20:03

  采集文章系统(动易SiteFactory文章采集管理教程(动易)SiteFactory采集项目设置)

  东一SiteFactory文章采集管理教程

  东一SiteFactory文章采集管理教程1.采集管理概述 系统提供了强大的采集功能。 采集系统可以直接渗透到网站及其网页的所有内容,采集取出网页中的有效数据(不仅仅是网页或链接),并维护它们之间的逻辑关系数据。对于一个新闻站点,它可以将采集每条新闻的标题、正文等信息分开,并作为字段存储在系统中。系统提供的采集功能具有以下特点: ·AJAX技术的大量应用,采集设置随时可用,代码截取以可视化预览的形式。 ·以字段为中心,每个字段既可以设置采集规则,也可以应用私有过滤和公共过滤规则。 ·采集之后的每个字段都可以预览结果。系统中每个字段类型都提供了十几个采集规则,采集规则与字段类型相关联(如“文本类型”设置,采集规则界面和“时间规则”)。设置采集规则界面不同)。 ·采集应用线程技术,用户可以在采集运行过程中进行其他管理操作,系统会采集指定项目内容。 ·采集采用缓存技术,系统将列表页面的所有链接采集起来,然后执行采集,大大节省了系统资源。 ·采集可选择图片、软件等任意模型类型,支持采集各类信息。依次点击“内容管理”->“采集管理”功能链接,出现的下拉导航菜单会显示开始采集、采集管理、采集@ >历史、采集过滤管理、查看采集进度等功能链接。

  14.1?采集管理14.2.1?采集工艺步骤14.2.1步骤1:采集项目设置点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,点击“在左侧管理操作导航中添加采集项目”功能链接,系统显示“添加采集项目设置”管理界面设置新的采集项目名称, 采集网站等基本设置信息、编码等重要参数说明: ·项目名称:填写自定义采集项目的名称(如“东一公司新闻” )。 ·本站对应栏:点击可将设置中采集的数据保存到本站对应栏的节点名(如“文章中心”)。 ·对应内容模型:点击设置对应列的模型(如“文章模型”)。提醒:如果在采集项目完成后更改了相应的模型,系统会在采集的第三步自动删除所有字段的规则。 ·采集网站:填写所需采集目标网站的名称(如“东一官网”)。 ·采集URL:填写采集网页的URL(以 开头,如“/Announce/index.html”)。 ·编码选择:提供三种编码格式:GB2312、UTF-8和Big5。国内网站基本都是GB2312,如果采集香港、台湾网站请选择Big5编码,如果采集海外网站选择UTF-8编码(例如,在“东一技术中心”中选择“GB2312”代码)。

  ·指定采集的个数:指定采集的个数,不是采集的所有数据。 ·采集顺序:设置采集倒序或正序执行(系统默认为倒序采集)。 ·采集简介:填写本采集项目的简要介绍信息(如“动态信息”)。设置好相关选项后,点击页面底部的“下一步”功能按钮,设置采集列表项信息。提醒:如果目标网站的信息需要登录后才能查看和采集,请参考动态技术中心(/)中的相关说明进行设置。 14.2.2 第二步:列表页采集设置采集函数主要用于批量获取目标网站采集获取采集列表页的列表信息,并为采集网站列表页设置分页选项。在出现的界面中,左侧默认显示想要的采集目标列表页面的源代码,右侧书签面板中显示列表设置和分页设置选项。重要参数说明:1.在列表设置书签面板中,设置想要的采集列表代码区域。 ·列表起始码和列表结束码:填写采集目标源代码框中显示的采集列表码的起始码和结束码。在动态列表页面的源码(/Announce/index.html)中,找到如下代码:

  公司新闻

  以上源码中,来自“

  " 到 "

  " 是想要的采集 的列表代码,所以填写"

  在“列出起始代码”内容框中

  ",填写"

  在“列表代码结束”内容框中

  ”,以便系统可以找到该区域所需的采集的列表码: 填写列表起始码:“

  公司新闻

  ”。填写列表结束代码:“ ”。填写完成后,可以点击底部的“测试列表”功能按钮,左侧的内容框中会显示采集所需的列表代码。提醒:填写网页中至少一个起始码或结束码是唯一的,以确保相关内容能够正确采集到相关内容。因为每个列表页的代码可能不同,所以需要对多个列表页进行分析,找到相同的起始码和结束码,才能保证所有列表页中想要的内容采集准确。 ·链接开始码和链接结束码:填写需要获取链接地址的开始和结束的代码区(链接地址是获取标题的URL链接,注意获取Url链接到信息内容页)。在采集的列表代码中,信息标题的代码为:东一短信2.0Beta正式发布!独立短信号震撼上市!上述源码中,“/Announce/5527.html”是需要获取的链接地址,“”是起止代码区。因此,链接开始和结束。结束码要填写的信息是: 填写链接起始码:"" 这里,如何获取有效链接是关键,这样系统才能找到需要的采集的链接地址这片区域。填写完成后,可以点击下方内容框左侧的“测试链接”功能按钮,会显示列表页中需要的采集的链接地址。提醒:在测试采集的链接地址前,请先点击“测试列表”功能按钮获取列表页面代码,然后点击“测试链接”功能按钮测试所需 下一页开始和结束标签:填写下一页开始和结束标签代码。提醒:开始和结束标记区域中的代码采集是需要的采集的URL地址。如果地址是相对路径地址,不用担心,系统可以智能分析网站的相对路径,并在采集时自动将相对路径地址转换为绝对路径地址,这样就可以了获取有效的链接访问地址。填写的code要尽量唯一,但是因为下一页code很少,不可能都是唯一的,只要一个code唯一就行。 ·批量指定寻呼URL代码:如果列表寻呼的链接地址代码之间只有数字的区别,则使用批量指定寻呼URL代码。 URL地址:填写分页链接的变量地址。如果上面列表页中的链接地址是“/Announce/List_2.html”、“/Announce/List_3.html”...(即有数字),则填写如 /Announce/List_ {$ID}.html(其中 {$ID} 表示分页符的数量)。 ID范围:批量指定分页{$ID}的范围,如填写“1”到“7”(从第1页到第7页升序采集)或“7”到1”(从第7页到第1页倒序采集)。提醒:{$ID}为相对路径或动态ID,用于设置列表抓取,ID范围更灵活,可以用于指定采集范围内的列表,例如可以设置为“2”到“5”,或者“6”到“3”等。 ·手动添加分页URL代码:如果其他页面没有分页的线索,可以手动添加每个分页的URL(每行一个分页URL地址),如:/Announce/List_1.html /Announce/List_2.html /Announce/List_3.html …… 提示:手动分页必须保存采集的绝对路径地址而不是相对路径地址,这种分页设置效率不高,而且是无奈之举(因为在无能的分页中,列表分页可能没有线索)从源头获取分页URL code:如果采集的列表分页只有“1 2 3 4 5 6 7”等分页链接地址(即没有“下一页”等分页链接),选择此项先获取某个寻呼区域,然后采集其中的寻呼链接地址的代码。比如上面的代码是:上一页

  1

  下一页 如果要获取“1 2 3 4 5 6 7”的分页链接地址,代码填写为:分页代码开始:“上一页”。分页码结束:“下一页”。分页 URL 起始码:“”。点击底部的“测试从源代码获取分页地址”功能按钮,可以看到从源代码获取分页地址的链接代码。提醒:如果测试左侧的内容框有提示“没有截取分页URL链接,请加载源代码并重新设置”。稍后测试源代码。点击“查看原创网页”可以查看网页的前景效果。设置好列表页面采集的相关选项后,点击页面底部的“下一步”按钮,进入内容页面采集的设置界面。点击“返回采集管理”按钮将保存设置并返回采集项目管理界面。 14.2.3 第三步:内容页面采集设置在列表页面采集设置中,获取目标采集网站@的正确内容> 在页面链接地址之后,内容页面采集设置步骤会设置文本的标题、作者、来源、时间、关键词等相关选项。在管理界面中,系统显示标题、作者、来源、时间、关键词等文本选项。每个选项值都可以设置为使用字段默认值、使用指定值或使用 采集 规则。提醒:在采集项目设置第一步中,如果设置的列和模型不同,在这个界面中显示和设置的字段也会不同。系统显示系统定义或用户定义模型中的字段选项。重要参数说明: 使用字段默认值:点击此项不输入该字段信息(即不采集该字段信息)。如果该字段在系统中有默认值,则取系统默认值。使用指定值:单击此项可指定该字段的值为固定信息。例如源指定为“本站原创”等。 使用采集规则:点击此项可使用目标页面的采集规则采集相关信息选择此项后,需要进一步点击右侧的“设置采集规则”功能按钮,设置对应的采集选项。下面以“标题”为例,为完整标题设置采集规则。点击“标题”中的“使用采集规则”选项,点击右侧的“设置采集规则”功能按钮,弹出管理界面窗口:方便设置相应的选项。如果没有弹窗,请检查浏览器是否设置了禁止弹窗。在世界管理界面中,想要的采集内容页面的地址和源码,左侧显示“查看原网页”功能链接,左侧显示“字段设置”相关选项正确的。本例中需要的采集是内容页的标题信息,在内容页源码中找到如下代码:

  “东夷?站点工厂?内容管理系统RC版正式发布

  《东一?SiteFactory?内容管理系统RC版正式发布!》为必填采集的正文标题,则在标题前填入代码“”,在字段设置开始和结束代码“”中填入以下代码: ·字段设置开始:“”。 ·字段设置结束:“”。提醒:开始和结束代码尽可能填写唯一,因为代码“”“”在网页中是唯一的。如果不是唯一的,填写时尽可能向前或向后截取代码。同时,在这个管理界面中,可以在采集处进一步设置需要过滤的项的内容: ·公共过滤项:点击“采集管理”->“采集过滤管理”添加过滤选项。提醒:公共过滤项可以在所有采集项中使用,一般用于过滤非法字符或自定义过滤内容。执行字段过滤的顺序是先公共过滤,然后是私有过滤。 ·私有过滤项:点击过滤内联页面、Flash、脚本、样式、Div容器、Span容器、表格、图片、字体、链接、html元素等项目和代码。提醒:私有过滤项只能在当前字段中使用,一般用于个性化过滤。点击页面底部的“测试字段”功能按钮,测试左侧内容框中采集该字段的效果,点击“保存”按钮保存并返回内容页面采集@ >设置管理界面。提醒:使用“测试字段”功能按钮进行测试时,当为不同的字段类型设置采集规则时,表单显示会根据控件类型的业务规则不同:字段为多文本盒子类型,内容控制,全部测试截取。

  如果字段是文本框控件,则测试截取显示的信息不能超过255个字符。如果该字段是内容控件类型,则在设置采集规则时有一个“保存远程图片”选项。 ·该字段为数值控件,无论截取什么都返回一个数字,如果截取的代码不是数字则返回0。 ·该字段为日期控件,截取的返回值为日期。如果截取的代码不是日期,则返回当前日期。文中所需采集的作者、来源、更新时间等选项,可参考上述方法,设置为“使用采集规则”执行采集:作者- “使用 采集@ > 规则”:字段设置开始“作者:”,字段设置结束:“来源:”。来源 - “使用 采集 规则”:字段设置开始“来源:”,字段设置结束:“点击:”。更新时间 - “使用 采集 规则”:字段设置开始“更新时间:”,字段设置结束:“作者:”。关键字 - “使用指定值”:“公告|移动轻松”。 ... ...其他字段可以保留系统默认选项。设置完成后,点击“下一步”按钮,系统会显示“采集项目创建完成”成功信息。点击“采集管理”->“开始采集”功能链接),在出现的管理界面中,系统显示现有采集项目的ID、名称、采集 @>网站名称、列、型号、上次采集时间、成功和失败记录等。勾选对应采集项框前的复选框(如果文章 采集target网站 中的同名不是必需的,请选中页面底部的框“不要 采集文章 同名” ),点击页面底部的“开始采集”功能按钮,系统会显示重新确认窗口,点击“确认”按钮后,系统会分析列表规则,列表分页规则和采集项的字段规则开始采集信息。

  系统信息采集完成后,会出现成功采集的提示信息。提醒:您可以通过查看左侧的采集进程查看当前采集的当前状态。在采集过程中,如果提示信息“发生错误!”出现,请点击“Task Abort”功能按钮结束采集,返回采集项目管理界面,修改对应列表,字段中的Errors,然后重新采集。 采集结束后返回管理界面,在“上次采集时间”栏显示最新采集的日期,在“成功记录”和“成功记录”中显示相应记录故障记录”信息。 采集信息填写完成后,可以进入对应节点查看采集的信息。提醒:如果采集的前台没有显示采集的信息,请检查采集的信息是否已经审核或生成14.3检查< @k11@ >Progress 执行start采集操作后,系统会在后台自动执行采集进程。站长可以通过查看采集的进度,在采集执行过程中随时查看采集的进度。点击左侧管理操作导航中的“查看采集进度”功能链接(或点击“内容管理”->“采集管理”->“查看采集进度”功能链接),在出现的管理界面中,系统显示执行时间、采集进度、已经过采集的页面等信息。提醒:系统的采集属于线程采集,不影响其他后台管理操作。点击采集,出现采集界面,可以切换到其他项目工作,不影响正在执行的系统进程采集。 14.4 采集项目管理在采集项目管理界面,系统显示ID、名称、采集网站名称、列、型号、可用性采集和操作。

  在“修改”栏中,可以对相关采集项进行修改项、修改列表、修改字段、测试项、复制项、删除项等管理操作,可以快速修改相应的 采集 步骤。 ·修改工程:修改采集工程设置。 ·修改列表:修改列表页面的采集设置。 ·修改字段:修改内容页采集设置。提醒:如果采集工程被修改,采集工程会自动转为不可操作。您需要对项目的测试项目进行操作,使其可运行。 ·测试项目:对采集项目进行项目测试。 ·复制项目:复制采集 项目。 ·删除项目:删除采集项目,其所属的采集历史记录和采集规则将被删除。 ·批量删除采集项:点击对应采集项前面的复选框(点击标题行顶部的“选择本页显示的所有项目”快捷操作复选框或页面底部,您可以快速选择该页面上的所有信息),点击页面底部的“批量删除所选采集项目”功能按钮进行批量删除操作。 14.5.1 添加采集过滤器左侧管理操作导航显示“添加采集过滤器”功能链接,“添加采集过滤器” ”管理界面出现。左侧为测试文本框,可填写要过滤的测试内容,右侧用于设置过滤器指定代码。设置好相应的选项后,点击页面底部的“保存”按钮保存设置。重要参数说明: ·过滤器名称:填写自定义过滤器名称。 ·过滤指定代码:可设置为简单过滤和高级过滤两种。

  >> 简单过滤器:点击“简单过滤器”选项,在“过滤代码”和“替换代码”两个内容框中填写对应的代码。如果要过滤“法轮功”字样:在“待过滤代码”中填写“法轮功”,“待替换代码”不留任何内容,系统将更改所有收录“法轮功”的标题或文字在 采集 过程中。字符过滤器被删除。 >> 高级过滤:点击“高级过滤”选项,在“开始代码过滤”、“结束代码过滤”和“代码替换”三个内容框中填写相应代码。高级过滤主要用于替换一段内容,比如过滤采集内容中的广告。要过滤以下代码: 将起始代码、结束代码和替换代码填写为: 要过滤的起始代码:“”。要替换的代码:“”(即不填写任何内容)。在采集过程中,系统会自动过滤采集内容页面中的广告内容。温馨提示:设置好过滤设置后,可以在测试文本框中填写要测试的代码,点击页面下方的“预览”按钮即可预览过滤效果。 14.5.2 管理采集过滤系统在分页列表中显示采集过滤项目的ID、名称、类型和操作。在“操作”栏中,可以修改和删除相应的过滤项。页面底部提供了“批量删除选中的采集筛选项”功能按钮,方便批量删除采集筛选项。 14.6 采集History采集History用来查看已经采集的历史,操作少但重要。

  尤其是在多项目和采集的后期,采集历史对于网站来说比采集项目本身更重要。点击左侧管理操作导航中的“采集历史”功能链接(或点击“内容管理”->“采集管理”->“采集历史”功能链接),在出现的管理界面中,系统以分页列表的形式显示采集网站操作的ID、项目名称、标题、栏目、型号、采集操作的结果和操作和其他信息。在“结果”栏中,所有采集成功的消息都会显示“Success”字样,失败的消息会显示“Failure”字样。此条目 采集history 可以在 Action 列中删除。删除采集历史记录:系统提供删除一个项目后期的历史记录是很重要的。如果您想删除一个项目并重新采集,请在此处选择它。批量删除选中的采集历史记录:点击需要批量操作的采集历史项目前的复选框(点击标题行顶部或在页面底部快速操作复选框,可以快速选择本页面的所有信息),点击页面底部的“批量删除已选采集历史记录”功能按钮进行批量删除操作。清除采集历史记录:点击页面底部的“清除采集历史记录”功能按钮,清除采集历史记录。此操作将格式化 采集 数据库中的“历史”表,清除所有 采集 历史记录。请谨慎使用清除采集历史的功能,一旦清除,将无法恢复。温馨提示:由于采集功能不断完善,更*敏*感*词*及后续开发说明请关注东一技术中心(/)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线