文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

优采云发布时间: 2021-11-23 21:03

　　信息采集用户手册摘要信息采集是抓取网络数据，实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以从单个新闻列表中抓取信息，也可以同时从多个列表中抓取新闻信息。步骤和细节现在您需要将网页采集的数据（新闻）传输到webplus系统中的指定列。步骤如下：为指定的列做一个采集计划。在栏目管理中选择栏目，点击设置采集计划。（例如：图一)设置采集的基本属性。包括执行方式，信息是否自动发布，采集的列类型以及页面的编码格式。（例如：图二)事先约定了采集计划的执行方式，手动，定时单次或定时循环执行。如果只是针对采集的当前数据网页，我们可以使用手动和定时单模式采集一次；如果网页的数据是通过采集更新的，并且需要保证信息的同步，即使用方法定时循环采集.判断采集是否需要发布信息？如果来自采集的信息不需要修改，可以直接对外公开，可以自动发布，如果采集中的信息需要修改、审核等，选择不自动发布，采集完成后，信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页上的一个简单的新闻列表，即采集到指定栏目的页面News，则选择单个栏目。

　　如果采集的页面有多个新闻列表，并且每个都提供了一个单独的链接进入自己的新闻列表页面，而我们需要采集的所有新闻信息，则选择多列。另外，如果采集的页面是RSS信息聚合页面，设置为对应的RSS单栏或RSS多栏。设置页面的编码为采集由于webplus系统使用的是UTF-8编码格式，而采集可能是其他编码格式，那么为了避免采集出现乱码，需要设置为采集页面的编码格式。本文来自计算机基础知识：设置采集计划的规则采集计划设置（如：图三)设置“列表页面起始网址”为采集@ > 页面的访问路径。（必填）设置“文章页面URL获取规则”。如果新闻列表是通过采集以iframe的形式嵌入到网页中的，那么就需要设置规则来获取列表iframe的链接地址来访问新闻列表。否则，无需制定此规则。（具体规则请参考下面“采集正则表达式的制定”）如果是采集网页的新闻列表如果有分页，则分页规则按照新闻列表分页方式（链接和表单提交），需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页，则不需要制定此规则。

　　否则，无需设置此规则。设置文章url获取规则，以便能够从采集页面访问特定的新闻页面获取新闻采集。（必填）设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中，则需要设置规则获取文章iframe Link地址来访问新闻内容。否则，无需制定此规则。如果新闻内容有分页，则按文章内容分页的方法建立分页规则（链接和表单提交），起始页码、间隔页码和采集需要设置页数。如果文章的内容没有分页，没有必要制定这个规则。如果新闻页面中除了新闻内容之外还有其他附加信息，那么为了在采集过程中更容易找到新闻内容，需要在这里设置规则来限制新闻内容的获取。一是避免垃圾邮件，二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单，一般不需要设置这个规则。设置新闻属性的规则是可选的，除了标题和内容。另外，如果未设置新闻发布时间，则以当前时间作为发布时间。多栏采集计划设置（如：图五)多栏采集计划，另外需要设置列表页URL规则和“文章

　　和调整表达式的顺序，您还可以在此页面上添加、修改、删除和调整表达式的顺序。, 输入url、iframeurl 和页面内容来测试表达式规则列表。设置各种类型的表达式类型。表达式类型分为四种类型：字符串、匹配、匹配替换和公式。其中，匹配和匹配替换需要使用到Java的正则表达式，这需要采集计划设置人员对表达式有一定的了解。字符串：直接输入字符串常量匹配：从指定文本（URL、IframeURL、页面内容）使用正则表达式获取文本中的部分内容S。匹配替换：首先从指定文本（URL、IframeURL、页面内容）通过正则表达式。然后使用replacement正则表达式对S中匹配的内容进行替换后，得到正确的内容。

　　公式：仅支持[pageIndex]，用于在获取页面地址时表示该页面的页码。图标详情进入栏目管理（图片一）设置采集规划，在右侧栏目列表中选择一列，点击设置采集规划。（图片二）其中执行方式可以是：手动（需要在列列表中点击“立即采集”启动采集）单次（可以设置时间，它会自动启动< @采集时间到) loop (指定间隔，Auto loop 采集) 可以设置采集中的文章是否自动发布。采集的列类型@采集：单栏（仅采集在本栏文章下）单栏RSS（文章其他与单列一致。多栏RSS（图六）此方法需要设置从起始页获取RSS地址（列表页面URL），其他与单栏RSS一致。设置获取规则（图< @七）（图八）（图九））十）（图十一）（图十二）

　　表达式分为4类：字符串：直接输入字符串常量匹配：从指定文本（URL、IframeURL、页面内容）通过正则表达式获取文本中的部分内容S。匹配替换：首先通过正则表达式从指定文本（URL、IframeURL、页面内容）中获取文本中的部分内容S。然后使用替换正则表达式替换S中匹配的内容，得到正确的内容。公式：仅支持[pageIndex]，用于在获取页面地址时表示该页面的页码。此页面还可以测试设置的表达式。您可以使用表达式帮助来理解正则表达式的语法。查看采集计划的状态，返回列列表看到下图（图10 三）

<p>本网页是一个简单的新闻列表页面，编码方式为GB2312，因此我们将采集的列类型设置为“单列”，编码方式为gb2312采集。新闻不需要自动发布。如下图所示，由于该页面的新闻列表内容不再在iframe中，也没有分页，所以不需要设置“List page content in IFRAME”和“List page paging”的获取规则方法”。并且新闻列表的内容不需要设置“限制文章列表内容”的规则。设置获取文章 url 的规则。由于本网页的新闻链接类似于以下网址：HYPERLINK "/k/2009-07-07shtml" /k/2009-07-07shtml，制定如下表达规则。类型：匹配内容类型：页面内容匹配表达式：/k/(\d+)-(\d+)-(\d+)/(\d+)\.shtml 匹配组：0（获取整个匹配结果）获取< @采集页面源文件，粘贴到页面内容中，点击“测试计算-列表模式”，结果会显示所有匹配的URL列表，如下图。由于文章的内容不在iframe中，文章的内容没有分页，文章的内容不需要限制在页面上，所以“文章page content is in IFRAME", "文章content paging URL" and "restricted

0

2021-11-23

文章自动采集和发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

0 个评论

发起人

AI时代内容工厂

文章自动采集和发布(一个约定好该系统一个指定的栏目设置采集计划(组图))

0 个评论

发起人

相关问题