文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))
优采云 发布时间: 2021-10-31 04:07文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))
信息采集用户手册摘要信息采集是采集网络数据,实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以从单个新闻列表中抓取信息,也可以同时从多个列表中抓取新闻信息。步骤和细节 现在您需要将网页采集的数据(新闻)传输到webplus系统中的指定列。步骤如下: 为指定的列做一个采集计划。在栏目管理中选择栏目,点击设置采集计划。(例如:图一)设置采集的基本属性。包括执行方式,信息是否自动发布,采集的列类型 以及页面的编码格式。(例如:图二)事先约定采集计划的执行方式,手动,定时单次或定时循环执行。如果只针对采集网页的当前数据,我们可以使用手动和定时的单一方法采集 一次;如果网页的数据是通过采集更新的,并且需要保证信息的同步,即使用定时循环采集.判断采集是否需要发布信息?如果来自采集的信息不需要修改,可以直接对外公开,可以自动发布,如果采集的信息需要修改、审核等,选择不自动发布,采集完成后,信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页上的一个简单的新闻列表,即采集到指定栏目的页面News,则选择单个栏目。
如果采集的页面有多个新闻列表,并且每个都提供了一个单独的链接进入自己的新闻列表页面,我们需要采集的所有新闻信息,那么选择多列。另外,如果采集的页面是RSS信息聚合页面,设置为对应的RSS单栏或RSS多栏。设置页面编码为采集 由于webplus系统使用的是UTF-8编码格式,而采集可能是其他编码格式,那么为了避免采集出现乱码,需要设置为采集页面的编码格式。本文来自计算机基础知识:设置计划的采集规则采集计划设置(如:图三)设置“列表页面起始网址”为采集@ > 页面的访问路径。(必填)设置“文章页面URL获取规则”。如果新闻列表是通过采集以iframe的形式嵌入到网页中的,那么就需要设置规则来获取列表iframe的链接地址来访问新闻列表。否则,无需制定此规则。(具体规则请参考以下“采集正则表达式的制定”) 如果是采集网页的新闻列表 如果有分页,则分页规则按照新闻列表分页方式(链接和表单提交),需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页,则不 需要制定此规则。
否则,无需设置此规则。设置文章url获取规则,以便能够从采集页面访问特定的新闻页面获取新闻采集。(必填)设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中,则需要设置规则获取文章iframe Link地址来访问新闻内容。否则,无需制定此规则。如果新闻内容有分页,则按文章内容分页的方法建立分页规则(链接和表单提交),起始页码、间隔页码和采集需要设置页数。如果文章的内容没有分页,没有必要制定这个规则。如果新闻页面中除了新闻内容之外还有其他附加信息,那么为了在采集过程中更容易找到新闻内容,需要在这里设置规则来限制新闻内容的获取。一是避免垃圾邮件,二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单,一般不需要设置这个规则。设置新闻属性的规则是可选的,除了标题和内容。另外,如果未设置新闻发布时间,则以当前时间作为发布时间。多列采集方案设置(如:图五)多列采集方案,另外需要设置列表页URL规则和“文章
和调整表达式的顺序,您还可以在此页面上添加、修改、删除和调整表达式的顺序。, 输入 url、iframeurl 和页面内容来测试表达式规则列表。设置各种类型的表达式类型。表达式类型分为四种:字符串、匹配、匹配替换和公式。其中,匹配和匹配替换需要用到java的正态表达式,这就需要采集计划设置人员对表达式有一定的了解。字符串:直接输入字符串常量匹配:从指定文本(URL、IframeURL、页面内容)使用正则表达式获取文本中的部分内容S。匹配替换:首先从指定文本(URL、IframeURL、页面内容)通过正则表达式。然后使用replacement正则表达式改变S中匹配的内容后,得到正确的内容。
公式:仅支持[pageIndex],用于在获取页面地址时表示该页面的页码。图标详情进入栏目管理(图片一)设置采集计划,在右侧的栏目列表中选择一栏,点击设置采集计划。(图片二) 其中执行方式可以是:手动(需要在列列表中点击“立即采集”启动采集) 单次(可以设置时间,它会自动启动< @采集 时间到达) loop (指定一个时间间隔,Auto loop 采集) 可以设置采集到达的文章是否自动发布。列类型由< @采集:单栏(仅采集在本栏文章下)单栏RSS(文章
表达式分为4类: 字符串:直接输入字符串常量匹配:从指定文本(URL、IframeURL、页面内容)通过正则表达式获取文本中的部分内容S。匹配替换:首先通过正则表达式从指定文本(URL、IframeURL、页面内容)中获取文本中的部分内容S。然后使用替换正则表达式替换S中匹配的内容,得到正确的内容。公式:仅支持[pageIndex],用于在获取页面地址时表示该页面的页码。此页面还可以测试设置的表达式。您可以使用表达式帮助来理解正则表达式的语法。查看采集计划的状态,返回列列表看到下图(图10三)
<p>本网页是一个简单的新闻列表页面,编码方式为GB2312,因此我们将采集的列类型设置为“单列”,编码方式为gb2312采集。新闻不需要自动发布。如下图,由于这个页面的新闻列表内容不再在iframe中,也没有分页,所以不需要设置“在IFRAME中列出页面内容”和“列表页面分页”的获取规则方法”。并且新闻列表的内容不需要设置“限制文章列表内容”的规则。设置文章 url 获取规则。因为这个网页中的新闻链接类似于如下url:HYPERLINK "/k/2009-07-07shtml" /k/2009-07-07shtml,所以制定如下表达式规则表达式类型:匹配内容类型:页面内容匹配表达式:/k/(\d+)-(\d+)-(\d+)/(\d+)\.shtml 匹配组:0(获取整个匹配结果)获取< @采集页面源文件,粘贴到页面内容中,点击“测试计算-列表模式”,结果会显示所有匹配的URL列表,如下图所示。由于文章的内容不在iframe中,所以文章的内容没有分页,文章的内容不需要限制在页面上,所以“文章页面内容在IFRAME中”、“文章内容分页URL”、“受限