文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

优采云发布时间: 2021-10-31 04:07

　　信息采集用户手册摘要信息采集是采集网络数据，实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以从单个新闻列表中抓取信息，也可以同时从多个列表中抓取新闻信息。步骤和细节现在您需要将网页采集的数据（新闻）传输到webplus系统中的指定列。步骤如下：为指定的列做一个采集计划。在栏目管理中选择栏目，点击设置采集计划。（例如：图一)设置采集的基本属性。包括执行方式，信息是否自动发布，采集的列类型以及页面的编码格式。（例如：图二)事先约定采集计划的执行方式，手动，定时单次或定时循环执行。如果只针对采集网页的当前数据，我们可以使用手动和定时的单一方法采集一次；如果网页的数据是通过采集更新的，并且需要保证信息的同步，即使用定时循环采集.判断采集是否需要发布信息？如果来自采集的信息不需要修改，可以直接对外公开，可以自动发布，如果采集的信息需要修改、审核等，选择不自动发布，采集完成后，信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页上的一个简单的新闻列表，即采集到指定栏目的页面News，则选择单个栏目。

　　如果采集的页面有多个新闻列表，并且每个都提供了一个单独的链接进入自己的新闻列表页面，我们需要采集的所有新闻信息，那么选择多列。另外，如果采集的页面是RSS信息聚合页面，设置为对应的RSS单栏或RSS多栏。设置页面编码为采集由于webplus系统使用的是UTF-8编码格式，而采集可能是其他编码格式，那么为了避免采集出现乱码，需要设置为采集页面的编码格式。本文来自计算机基础知识：设置计划的采集规则采集计划设置（如：图三)设置“列表页面起始网址”为采集@ > 页面的访问路径。（必填）设置“文章页面URL获取规则”。如果新闻列表是通过采集以iframe的形式嵌入到网页中的，那么就需要设置规则来获取列表iframe的链接地址来访问新闻列表。否则，无需制定此规则。（具体规则请参考以下“采集正则表达式的制定”）如果是采集网页的新闻列表如果有分页，则分页规则按照新闻列表分页方式（链接和表单提交），需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页，则不需要制定此规则。

　　否则，无需设置此规则。设置文章url获取规则，以便能够从采集页面访问特定的新闻页面获取新闻采集。（必填）设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中，则需要设置规则获取文章iframe Link地址来访问新闻内容。否则，无需制定此规则。如果新闻内容有分页，则按文章内容分页的方法建立分页规则（链接和表单提交），起始页码、间隔页码和采集需要设置页数。如果文章的内容没有分页，没有必要制定这个规则。如果新闻页面中除了新闻内容之外还有其他附加信息，那么为了在采集过程中更容易找到新闻内容，需要在这里设置规则来限制新闻内容的获取。一是避免垃圾邮件，二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单，一般不需要设置这个规则。设置新闻属性的规则是可选的，除了标题和内容。另外，如果未设置新闻发布时间，则以当前时间作为发布时间。多列采集方案设置（如：图五)多列采集方案，另外需要设置列表页URL规则和“文章

　　和调整表达式的顺序，您还可以在此页面上添加、修改、删除和调整表达式的顺序。, 输入 url、iframeurl 和页面内容来测试表达式规则列表。设置各种类型的表达式类型。表达式类型分为四种：字符串、匹配、匹配替换和公式。其中，匹配和匹配替换需要用到java的正态表达式，这就需要采集计划设置人员对表达式有一定的了解。字符串：直接输入字符串常量匹配：从指定文本（URL、IframeURL、页面内容）使用正则表达式获取文本中的部分内容S。匹配替换：首先从指定文本（URL、IframeURL、页面内容）通过正则表达式。然后使用replacement正则表达式改变S中匹配的内容后，得到正确的内容。

　　公式：仅支持[pageIndex]，用于在获取页面地址时表示该页面的页码。图标详情进入栏目管理（图片一）设置采集计划，在右侧的栏目列表中选择一栏，点击设置采集计划。（图片二）其中执行方式可以是：手动（需要在列列表中点击“立即采集”启动采集）单次（可以设置时间，它会自动启动< @采集时间到达) loop (指定一个时间间隔，Auto loop 采集) 可以设置采集到达的文章是否自动发布。列类型由< @采集：单栏（仅采集在本栏文章下）单栏RSS（文章

　　表达式分为4类：字符串：直接输入字符串常量匹配：从指定文本（URL、IframeURL、页面内容）通过正则表达式获取文本中的部分内容S。匹配替换：首先通过正则表达式从指定文本（URL、IframeURL、页面内容）中获取文本中的部分内容S。然后使用替换正则表达式替换S中匹配的内容，得到正确的内容。公式：仅支持[pageIndex]，用于在获取页面地址时表示该页面的页码。此页面还可以测试设置的表达式。您可以使用表达式帮助来理解正则表达式的语法。查看采集计划的状态，返回列列表看到下图（图10三）

<p>本网页是一个简单的新闻列表页面，编码方式为GB2312，因此我们将采集的列类型设置为“单列”，编码方式为gb2312采集。新闻不需要自动发布。如下图，由于这个页面的新闻列表内容不再在iframe中，也没有分页，所以不需要设置“在IFRAME中列出页面内容”和“列表页面分页”的获取规则方法”。并且新闻列表的内容不需要设置“限制文章列表内容”的规则。设置文章 url 获取规则。因为这个网页中的新闻链接类似于如下url：HYPERLINK "/k/2009-07-07shtml" /k/2009-07-07shtml，所以制定如下表达式规则表达式类型：匹配内容类型：页面内容匹配表达式：/k/(\d+)-(\d+)-(\d+)/(\d+)\.shtml 匹配组：0（获取整个匹配结果）获取< @采集页面源文件，粘贴到页面内容中，点击“测试计算-列表模式”，结果会显示所有匹配的URL列表，如下图所示。由于文章的内容不在iframe中，所以文章的内容没有分页，文章的内容不需要限制在页面上，所以“文章页面内容在IFRAME中”、“文章内容分页URL”、“受限

0

2021-10-31

文章自动采集和发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

0 个评论

发起人

AI时代内容工厂

文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

0 个评论

发起人

相关问题