文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

优采云 发布时间: 2021-11-23 21:03

  文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

  信息采集用户手册摘要信息采集是抓取网络数据,实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以从单个新闻列表中抓取信息,也可以同时从多个列表中抓取新闻信息。步骤和细节 现在您需要将网页采集的数据(新闻)传输到webplus系统中的指定列。步骤如下: 为指定的列做一个采集计划。在栏目管理中选择栏目,点击设置采集计划。(例如:图一)设置采集的基本属性。包括执行方式,信息是否自动发布,采集的列类型 以及页面的编码格式。(例如:图二)事先约定了采集计划的执行方式,手动,定时单次或定时循环执行。如果只是针对采集的当前数据网页,我们可以使用手动和定时单模式采集 一次;如果网页的数据是通过采集更新的,并且需要保证信息的同步,即使用方法定时循环采集.判断采集是否需要发布信息?如果来自采集的信息不需要修改,可以直接对外公开,可以自动发布,如果采集中的信息需要修改、审核等,选择不自动发布,采集完成后,信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页上的一个简单的新闻列表,即采集到指定栏目的页面News,则选择单个栏目。

  如果采集的页面有多个新闻列表,并且每个都提供了一个单独的链接进入自己的新闻列表页面,而我们需要采集的所有新闻信息,则选择多列。另外,如果采集的页面是RSS信息聚合页面,设置为对应的RSS单栏或RSS多栏。设置页面的编码为采集 由于webplus系统使用的是UTF-8编码格式,而采集可能是其他编码格式,那么为了避免采集出现乱码,需要设置为采集页面的编码格式。本文来自计算机基础知识:设置采集计划的规则采集计划设置(如:图三)设置“列表页面起始网址”为采集@ > 页面的访问路径。(必填)设置“文章页面URL获取规则”。如果新闻列表是通过采集以iframe的形式嵌入到网页中的,那么就需要设置规则来获取列表iframe的链接地址来访问新闻列表。否则,无需制定此规则。(具体规则请参考下面“采集正则表达式的制定”) 如果是采集网页的新闻列表 如果有分页,则分页规则按照新闻列表分页方式(链接和表单提交),需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页,则不 需要制定此规则。

  否则,无需设置此规则。设置文章url获取规则,以便能够从采集页面访问特定的新闻页面获取新闻采集。(必填)设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中,则需要设置规则获取文章iframe Link地址来访问新闻内容。否则,无需制定此规则。如果新闻内容有分页,则按文章内容分页的方法建立分页规则(链接和表单提交),起始页码、间隔页码和采集需要设置页数。如果文章的内容没有分页,没有必要制定这个规则。如果新闻页面中除了新闻内容之外还有其他附加信息,那么为了在采集过程中更容易找到新闻内容,需要在这里设置规则来限制新闻内容的获取。一是避免垃圾邮件,二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单,一般不需要设置这个规则。设置新闻属性的规则是可选的,除了标题和内容。另外,如果未设置新闻发布时间,则以当前时间作为发布时间。多栏采集计划设置(如:图五)多栏采集计划,另外需要设置列表页URL规则和“文章

  和调整表达式的顺序,您还可以在此页面上添加、修改、删除和调整表达式的顺序。, 输入url、iframeurl 和页面内容来测试表达式规则列表。设置各种类型的表达式类型。表达式类型分为四种类型:字符串、匹配、匹配替换和公式。其中,匹配和匹配替换需要使用到Java的正则表达式,这需要采集计划设置人员对表达式有一定的了解。字符串:直接输入字符串常量匹配:从指定文本(URL、IframeURL、页面内容)使用正则表达式获取文本中的部分内容S。匹配替换:首先从指定文本(URL、IframeURL、页面内容)通过正则表达式。然后使用replacement正则表达式对S中匹配的内容进行替换后,得到正确的内容。

  公式:仅支持[pageIndex],用于在获取页面地址时表示该页面的页码。图标详情进入栏目管理(图片一)设置采集规划,在右侧栏目列表中选择一列,点击设置采集规划。(图片二) 其中执行方式可以是:手动(需要在列列表中点击“立即采集”启动采集) 单次(可以设置时间,它会自动启动< @采集 时间到) loop (指定间隔,Auto loop 采集) 可以设置采集中的文章是否自动发布。采集的列类型@采集:单栏(仅采集在本栏文章下)单栏RSS(文章 其他与单列一致。多栏RSS(图六) 此方法需要设置从起始页获取RSS地址(列表页面URL),其他与单栏RSS一致。设置获取规则(图< @七)(图八)(图九))十)(图十一)(图十二)

  表达式分为4类: 字符串:直接输入字符串常量匹配:从指定文本(URL、IframeURL、页面内容)通过正则表达式获取文本中的部分内容S。匹配替换:首先通过正则表达式从指定文本(URL、IframeURL、页面内容)中获取文本中的部分内容S。然后使用替换正则表达式替换S中匹配的内容,得到正确的内容。公式:仅支持[pageIndex],用于在获取页面地址时表示该页面的页码。此页面还可以测试设置的表达式。您可以使用表达式帮助来理解正则表达式的语法。查看采集计划的状态,返回列列表看到下图(图10 三)

<p>本网页是一个简单的新闻列表页面,编码方式为GB2312,因此我们将采集的列类型设置为“单列”,编码方式为gb2312采集。新闻不需要自动发布。如下图所示,由于该页面的新闻列表内容不再在iframe中,也没有分页,所以不需要设置“List page content in IFRAME”和“List page paging”的获取规则方法”。并且新闻列表的内容不需要设置“限制文章列表内容”的规则。设置获取文章 url 的规则。由于本网页的新闻链接类似于以下网址:HYPERLINK "/k/2009-07-07shtml" /k/2009-07-07shtml,制定如下表达规则。类型:匹配内容类型:页面内容匹配表达式:/k/(\d+)-(\d+)-(\d+)/(\d+)\.shtml 匹配组:0(获取整个匹配结果)获取&lt; @采集 页面源文件,粘贴到页面内容中,点击“测试计算-列表模式”,结果会显示所有匹配的URL列表,如下图。由于文章的内容不在iframe中,文章的内容没有分页,文章的内容不需要限制在页面上,所以“文章page content is in IFRAME", "文章content paging URL" and "restricted

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线