采集器使用帮助

优采云 发布时间: 2020-08-26 15:17

  采集器使用帮助

  采集器使用帮助修订次:0编撰日期:2007.11.26文档编号COMSENZ-SS07-001V1.1文档名称:采集器使用帮助产品名称:SupeSite/X-Space康盛创想(上海)科技*敏*感*词*采集器使用帮助修订次:0编撰日期:2007.11.261.1.编撰目的1.2.内容说明1.3.系统基本信息1.4.参考资料2.1.模块功能2.2.运行环境2.2.1.服务器2.2.2.顾客机4.1.采集器4.1.1.概述4.1.2.操作手册4.1.3.界面介绍4.1.4.信息采集菜单4.1.5.采集器5.1.规则配置界面5.2.配置采集规则5.2.1基本设置115.2.2列表页面采集设置125.2.3内容页面采集设置205.3.附表27采集器使用帮助修订次:0编撰日期:2007.11.26序言1.1.编撰目的SupeSite/X-Space采集器用户操作指南主要对SupeSite的采集功能及操作方法做详尽的说明,本操作指南适宜使用的读者为本系统的站长、SupeSite后台管理人员及相关使用人员。在用户使用过程中起参考和指导帮助作用。

  1.2.内容说明采集器操作指南提供站点管理员使用与参考、普通用户可以毋须了解其中的配置说明1.3.系统基本信息系统名称:SupeSite/X-Space开发公司:康盛创想(上海)科技*敏*感*词*1.4.参考资料此操作指南在编撰过程中参考了如下资料:《软件工程》《系统概要设计》《系统详尽设计》功能征述2.1.模块功能采集器主要是实现SupeSite对于资讯内容的有效节选提供一个方便、快速的填充。囊括速建资讯门户为核心的门户领域,提倡“个性化、智能化、快速化”的设计理念,实现门户采集器使用帮助修订次:0编撰日期:2007.11.26站点的丰富性,提升资讯的快速聚合。2.2.运行环境2.2.1.服务器平台-MicrosoftWindowsServer及以上-Linux软件-Apache或IIS-PHP-ZendOptimizer-Discuz!峰会数据库-MySQL2.2.2.顾客机平台-Windows98/NT/2000及以上版本软件-Web浏览器:MicrosoftIE6.0及以上版本-FireFox及以上版本显存-128MB建议256MB可用硬碟储存空间:-150MB,建议200MB以上。

  采集器使用帮助修订次:0编撰日期:2007.11.26管理员后台阐述SupeSite是一个面向门户站点的、基于浏览器模式的平台。它能极大地提升门户信息的实效,丰富增强信息获取手段,为站长提供决策支持信息。启动计算机后在网路畅通的情况下,打开IE浏览器,之后在地址栏中输入域名或IP地址。登陆SupeSite后台之前,系统首先要求登陆窗口,如右图所示:输入密码,回车或点击【登录管理平台】即可步入SupeSite管理界面。如下图所示:主界面显示:采集器使用帮助修订次:0编撰日期:2007.11.26管理后台分为了基本设置、资讯系统、个人空间系统、论坛系统、数据模块、综合管理。基本设置:管理员可以依照自己的站点须要在这儿面配置有关于SupeSite运行的相关环境参数、用户权限的控制、频道的管理公告管理、站点广告、HTML静态配置、缓存更新、在线编辑、计划任务、及一些存档之类的小功能配置。资讯管理:SupeSite的整站资讯内容管理模块,包括了采集、资讯初审、资讯发布、有投票功能。个人空间管理:本模块包括数据维护、个人空间分类管理、个人空间文章的管理、*敏*感*词*的扩充、用户风格共享管理等,管理员在这儿可以对个人空间的相关信息进得管理峰会相关设置:管理员可以在这个模块中对于峰会的相关性内容进行管理操作。

  模板模块向导:管理员可以在此模块中用向导模式创建出符合个性化门户的模块条件,并将向导生成的模块条件复制于模块中实现用户门户数据聚合的个性化数据聚合。采集器4.1.采集器4.1.1.概述采集器主要是实现了资讯的快速填充功能,是资讯系统的一个不可分割的功采集器使用帮助修订次:0编撰日期:2007.11.26能模块。4.1.2.操作手册登陆到管理后台,输入密码,步入后台管理主界面。在管理主界面中点击【资讯系统】在右侧栏中可以见到信息采集模4.1.3.界面介绍界面如下:采集器使用帮助修订次:0编撰日期:2007.11.264.1.4.信息采集菜单采集器:采集器管理与配置。采集结果:储存当前采集过来的数据结果。包括早已导出和未导出的采集资讯。4.1.5.采集器我们点击采集器可以看见当前已配置好的采集机器人列表,及添加新的采集机器人、导入机器人界面如下采集器使用帮助修订次:0编撰日期:2007.11.26配置采集规则5.1.规则配置界面点击【资讯系统】在信息采集模块中点击【采集器】出现下采集器列表点击【添加新机器人】出现规则配置界面如右图5.2.配置采集规则下边我们开始配置采集规则,本节所用到的图形均为上图其中的一部分。

  接出来将率领你们步入每位细节的配置中,编撰符合标准的采集规则„„采集器使用帮助修订次:0编撰日期:2007.11.26采集器使用帮助修订次:0编撰日期:2007.11.265.2.1基本设置在这儿,我们可以配置每一个采集器的最基本的采集器内容,包括:采集器名称、采集总个数、单次采集个数、采集页面编码5.2.1.1机器人名机器人名,故名思议就是采集器的标题了,好比每位人都有一个名子一样,当我们配好一个采集器时,后期可以通过机器人名很快的检索到我们配置的采集器并执行采集器进行采集操作。我们本次的操作将以雅虎新闻为例,编撰相关的采集规则,于是我们把机器人命名为:“yahoo新闻”,如右图所示:5.2.1.2采集总个数采集总个数,指的是采集器执行一次采集总量,例如说我们采集的列表有10万条数据,而我们设了采集总个数为:“100”哪么当采集器采完第100条数据时,手动停止采集。本次我们设采集总个数为:“100”条记录,如右图所设:5.2.1.3单次采集个数采集器使用帮助修订次:0编撰日期:2007.11.26哪些是单次采集个数呢?由于我们当前的采集器是基于浏览器的进程的,在采集过程中,页面是有执行时间的,当页面执行时间超时时,才会出现页面未能打开的错误,这也是非顾客端采集器的一个隐忧。

  而单次采集个数,则是表示说一个网页从恳求到完成的时间内所采集的总个数哪为何我们要设置一个单次采集个数呢?哪是由于我们要权衡被采集站点打开的速率、以及本地网速而定的,所以我们通常都设一个符合实际本地网速及打开被采集网站的速率来设这个单次采集个数,单次采集个数是设定采集器采集多少篇文章后激活下一次的采集恳求。参数设置图所示:5.2.1.4手动导出设置完手动导出后,在采集完毕后会手动将采集结果导出到设置的资讯分类中,默认为空,采集完成后手工导出资讯分类。如右图5.2.2列表页面采集设置在本项中主要的是对采集索引页面的相关规则剖析5.2.2.1索引页面URL地址形式索引页面url地址形式指的是文章列表页的URL模式,共有两种:一种是手工输入文章列表页地址,另一种是自下降的模式,分别如右图后示:采集器使用帮助修订次:0编撰日期:2007.11.26(手工输入模式)(手动下降模式)5.2.2.2设置索引页URL经5.2.2.1步选择的结果后我们需要填写索引页的URL地址,索引页url有两种设置方法,一种是是手工输入,一种是是手动下降。

  如下是详尽说明:1.手工输入:将yahoo新闻的url”输入点添加,假如发觉url错误可以点删掉,重新添加,添加后如右图:2.这儿我们不须要手动下降的url,但为了说明问题,我们以网易新闻为例,网易新闻url如下:““我们可以发觉之后的url都是gnList_的数字在变化。可以如下设置:在索引页面url地址一行中填写采集器使用帮助修订次:0编撰日期:2007.11.26:并把url中的变数02“[page]”替换,URL索引支持乱序和逆序,这儿用逆序说明如右图所示:二、设置索引页面下降范围,这儿用逆序演示,我们设从第8页采到第2页如上图所示。三、设置完成后可以使用新功能“测试:尝试联接”可以看见索引的连接地址是否可用如下手动下降url支持如下功能:类型支持数字或字母:我们用转义([page])代替了有规律的自增部份。从到支持多种形式:35采集器使用帮助修订次:0编撰日期:2007.11.26055.2.2.3文章逆序采文章逆序采集,假如打开此项,采集的过程将对文章列表进行逆序采集。这儿我们打开,如右图:5.2.2.4采集页面编码回到雅虎新闻,下边说采集编码,采集页面编码指的是被采集的站点输出字符集类型,可以适用程序辅助辨识,或则从采集页面中直接查看字符编码。

  如右图:由于GBK编码收录GB2312编码,所以填写GBK(程序辅助辨识)在采集页面点右键也可以查看编码,如右图:采集器使用帮助修订次:0编撰日期:2007.11.26(直接查看页面)5.2.2.5列表区域辨识规则在这儿我们需要开始配列表区域的规则了,在配置规则前,我们要遵守以下三条法则:法则一:任何规则标签字符在整份源文件中从开头到标答的位置都必须是惟一性或则是第一个。法则二:在编撰任何采集规则都需要打开几个不同页面来查找共同的标签法则三:在编撰采集规则时查看源文件页面时不能选择手动换行。如右图所示:采集器使用帮助修订次:0编撰日期:2007.11.26我们在源文件中找到起始规则代码:“

  ”而且这个采码是从开始到规则代码位置是惟一性的所以我们推断此字符串为共性字符串。当源文件中找不到一个简略共性字符串时,可以选择多行组合字符串,比如图所示:如上图所示,我们如今确认第一行与第二行组成的字符串可以成为从源文件第一行到当前位置为惟一性的话,哪我们就可以用来组合成为规则,写法如下:“

  *国外新闻

  ”大家可以看见在前面的这条规则字符串中多了一个“*”号,而回车符没了。这也是本小节要说明的另一重要点:当在编撰采集规则时出现换行,或未晓得的内容,易变动的内容时,我们统一用,键值“*”号取代,在编撰规则中,绝对不充许有回车的存在在上一步中,我们到了起始位置的规则字符串,如今我们将其粘贴到规则框中,并在前面加上两侧的占位符“[list]”,如右图所示:下边我们要做的就是找到列表区域的结束字符串,本字符串也是从开始到字符串位置是惟一性,且其它的列表页中同样存在这个字符串的共性,同样是开始到当前位置是惟一性,其实这个规则范围越紧靠列表边沿越好。在这儿我们找到了如下的规则字符串:“

  ”采集器使用帮助修订次:0编撰日期:2007.11.26完成后可以进行调试,点击测试会返回结果瞧瞧截取的内容是否是想要采集的(这也是新功能)。如右图:(非常提示:假如是用特定的url进行的测试请勿必每次测试完成后清空测试url。)5.2.2.6文章链接URL辨识规则在上一步中,我们取到了列表页的文章列表大致位置,现今我们需要做的就是要取出确切的文章地址如右图所示:如今我们对文章列表区域进行分样,在这个采集对象中,我们很容易听到文章列表很有规则,每位文章链接都是以“南水”中的URL地址,如图所示:采集器使用帮助修订次:0编撰日期:2007.11.262.点击测试可以看见配置是否正确。5.2.2.7文章链接URL剔除规则在好多时侯,链接采集是有些就是不想要的或则判别出这种是错误的,我们须要剔除那些URL新闻的链接都是以.html结尾的,其他错误链接都是带有参数的网址,如:code.php?id=12我们可以把这种链接剔除出区如下:点击测试可以开到结果。5.2.2.8文章链接URL过滤规则我们可以就采集个别特定的url,新闻的链接都是.html可以这样写.html这样含有.html的链接才能被采集5.2.2.9文章链接URL补充前缀在这一节点我们将介绍URL被充前缀的作用,在好多时侯,好多网站为了减轻页面输出内容的容量都起用了较为简略的URL地址,例如没有域名的绝对地址或相对地址。

  例:“”假设我们当前采集的文章列表地址是里面这样的地址的话,我们就需要在列表是补充成为完成的URL地址。由于“/07/0406/08/3BCNJGAM0001124J.html”是一个相对路径,离来了这个站点浏览器就不认识这个地址,所以我们必须在这串字符串上面被上:“”补上这串字符串时,采集器在采列表时会手动与前面的字符串组成一个合法的URL地址填写的结果如右图所示:采集器使用帮助修订次:0编撰日期:2007.11.265.2.2.10文章链接URL补充后缀当须要在所有采集的url上加上特定的后缀的时侯可以在文章链接url补充前缀上添写,假若不须要可以不填写。如右图:url前缀和后缀的补充假如采集的列表的url比较复杂我们可以只采集url的一部份之后用url的前缀和后缀把他补充完整,如我们可以用url采集规则“[url].html“采集出2irrh之后通过补充url前缀和补充url后缀.html来组合完整的url。5.2.3内容页面采集设置经过上一节的介绍,你们对于规则的配置有了大致的了解,在本节中,我们将解读文章页内容的采集规则进行剖析配置,内容页采集规则界面如下:采集器使用帮助修订次:0编撰日期:2007.11.265.2.3.1文章标题辨识规则在这儿我们需要开始剖析文章上面的内容规则,我们要做的同样是打开多篇新闻文章,与前面剖析的规则一样。

  对过剖析几篇文章后我们发觉以下规则代码在张图中,我们发觉“”是一个整篇文章共同的从开始位置到当前位置惟一的标示符,配置结果如右图:5.2.3.2文章标题过滤规则采集器使用帮助修订次:0编撰日期:2007.11.26设置了文章标题过滤规则关键字后文章标题的关键字后标题的关键字会被过滤,这儿不须要设置,如右图将过滤标题的“三峡”:5.2.3.3文章标题替换规则我们可以通过设置文章标题替换规则将文章标题的“三峡”替换成“三峡工程”当我们只是替换掉标题中的某一个或多个词时,可以使用此项功能示例如下:“标题”在前面联接了一个“华人”并写回原标题中,配置方式如右图所示:5.2.3.4文章标题收录关键字文章标题收录关键字是,当设置后,就只采集收录关键字的标题。多个关键字以”|”分隔。如右图:上图的的采集规则是采集收录“探月”或“国防的”的信息。5.2.3.5文章标题关键字剔除过滤采集器使用帮助修订次:0编撰日期:2007.11.26文章标题过滤关键是,当设置后就不会采集收录关键字的标题。多个关键字以”|”分隔。如右图:将不采集标题收录“法轮功”或”破解版”的信息。

  5.2.3.6是否容许文章标题重复设置采集的文章标题是否容许相同。(假如启用手动入库再启用此项文章标题不容许重复将加重数据库的负载)如右图:5.2.3.7文章内容辨识规则文章内容也是我们要采集的主体内容,配置精确的文章辨识规则可以提升采集的结果质量。运用上面所讲的剖析方式,剖析过多篇文章后找到文章的起始惟一共性标筌:“

  ”以有文章结束的标签,我们引用了两个代码做为结束标签如下图所示:于是得出如下的配置结果,如右图所示:到这儿我们早已可以采到文章的内容了5.2.3.8文章内容过滤规则文章内容过滤的关键字,会在采集后将文章内的关键字过滤去。参考:5.2.3.55.2.3.9文章内容文字替换可以将文章中的特定文字进行替换,如将淫秽,暴力,等词句进行替换。参考:5.2.3.35.2.3.10文章内容收录关键字只有文章内容中收录关键字的内容猜会被采集。参考:5.2.3.45.2.3.11文章内容关键字剔除过滤采集器使用帮助修订次:0编撰日期:2007.11.26不采集文章内容中收录设置关键字的内容,假如多个关键字以“|”间隔。5.2.3.12文章内容低格此操作将消除网页多余代码,并将文章内容按原有段落分段.低格的过程为程序自动剖析,会存在一些偏差。5.2.3.13文章内容分页模式当采集的内容有分页的时侯可以使用此功能。我们可以设置“页码导航”模式或“上下页导航”模式如右图:我们采用“页码导航“模式,如右图:5.2.3.14文章内容分页辨识规则查看源码可以见到如右图:我们可以开到分页内容在

  和“

  ”这个之间我们就填写

  [pagearea]

  如右图:5.2.3.15文章内容分页链接辨识规则可以看见链接都是“2”的方式,我们可以采集器使用帮助修订次:0编撰日期:2007.11.26href="[page]"”如右图:5.2.3.16文章内容分页链接URL补充前缀当分页的链接是网站的相对路径的时侯我们须要将路径补充完整添加url前缀如下5.2.3.17文章内容分页链接URL补充后缀当我们须要添加url的参数的时侯可以通过添加后缀的形式添加。参考5.2.2.9。5.2.3.18信息来源辨识填写信息来源的采集规则,如右图:信息来源采集规则如右图:5.2.3.19作者辨识规则这儿填写采集作者的规则,这儿是新闻没有作者,我们可以不填写,我们以另一个有诗文的url为例介绍采集作者,查看源码如右图:采集器使用帮助修订次:0编撰日期:2007.11.26我们可以用

  *(作者:[author])

  采集到作者,我们这儿的新闻没有作者。假如填写的内容没有收录[author]则以填写的用户作为资讯发布的作者,多个作者以“|”间隔。多个作者不可以使用[author]。如右图:5.2.3.20发布者uid填写发布者uid的采集规则,这儿填写几个管理员的id,在采集后的文章都会显示这儿设置的发布者的ID,多个ID以“|”间隔,系统随机的抽取设置的用户做发布者ID。如下5.2.3.21是否保存图片到本地在这儿可以设置是否把资讯内容中的图片保存在本地,假若选择保存在本地有一个用处就是可以让资讯图片不受被采资讯站点限制,比如对方服务器没有响应时,这个时侯没有保存在本地的图片是不会被显示的5.2.3.22是否保存FLASH到本地设置采集内容中的flash是否保存到本地,这儿设置为保存到本地。如右图5.2.3.23图片/FLASH的链接url补充前缀采集内容的flash或图片的地址可能是一个相对路径,对于对路径不完整的图片或flsah采集器使用帮助修订次:0编撰日期:2007.11.26

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线