解决方案:autopost 3.8WordPress自动采集插件WP

优采云 发布时间: 2020-09-01 20:48

  autopost 3.8 WordPress自动采集插件WP

  虽然WP-AutoPost没有这些缺点,但它可以真正采集任何网站内容并自动发布. 采集过程是完全自动化的,无需人工干预,并提供内容过滤,HTML标签过滤,关键字替换,自动链接,自动标记,将远程图片自动下载到本地服务器,自动添加文章前缀和后缀以及使用Microsoft翻译引擎将采集的文章自动翻译为各种语言,以便发布.

  WP-AutoPost中文免费下载地址: (官方网址: )

  一个,安装WP-AutoPost

  与安装其他WordPress插件相同,直接上载到插件目录,激活并使用它,而无需其他设置或代码修改.

  第二,创建采集任务

  单击“新任务”后,输入任务名称以创建新任务. 创建新任务后,您可以在任务列表中查看该任务,并可以为该任务设置更多设置.

  三,基本设置功能

  在“基本设置”标签下,您可以进行以下设置:

  任务名称: 您可以修改任务名称

  : 您可以修改任务的名称. 类别: 任务采集 文章发布的类别.

  : 任务采集 文章发布到的类别目录作者: 任务采集 文章的作者必须是WordPress中的注册用户

  : 任务采集 文章的作者必须是WordPress中的注册用户. 更新间隔: 检查采集任务下是否有新的文章可以更新的间隔

  : 在采集任务下检查是否有新的文章可以更新字符集的频率: 采集目标网站的字符集编码,默认为UTF8,如果目标网页的字符集编码不是UTF8,加扰的网页会出现乱码,设置正确的字符集可以解决此问题(如何正确设置字符集)

  : 采集目标网站的字符集编码,默认为UTF8,如果目标网页的字符集编码不是UTF8,则抓取的网页将出现乱码,设置正确的字符集即可解决问题(如何更正设置字符集)下载远程图片: 如果此任务下采集的文章中有图片,则可以选择是否将远程图片下载到本地服务器,选择下载远程图片,以及您可以进一步选择是否将下载的图片信息保存到媒体库中的WordPress

  : 如果在此任务下在采集的文章中有图片,则可以选择是否将远程图片下载到本地服务器,选择下载远程图片,然后进一步选择是否保存下载的图片. 信息自动添加到WordPress媒体库标签: 选择是否使用自动标签

  : 选择是否使用自动标签. 标签列表: 使用自动标签后,如果文章列表中收录关键字,则会自动添加标签

  : 使用自动标签后,如果文章列表中收录关键字,标签将被自动添加. 匹配完整单词: 此设置对英语文章有效,而中文文章则不启用此设置

  四个. 文章来源设置

  在此标签下,我们需要设置文章源的文章列表URL和特定的文章匹配规则

  让我们以采集“新浪网新闻”为例,以文章列表URL为例,因此在“手动指定文章列表URL”中输入该URL,如下所示:

  此后,您需要在文章列表URL下设置特定文章 URL的匹配规则

  V. 文章网址匹配规则

  文章 URL匹配规则的设置非常简单,不需要复杂的设置,并且提供了两种匹配模式. 您可以使用URL通配符匹配或CSS选择器进行匹配. 通常,URL通配符匹配相对简单.

  1. 使用网址通配符匹配

  通过在列表URL上单击文章,我们可以发现每个文章的URL具有以下结构

  因此,用通配符(*)替换URL中更改的数字或字母,例如: (*)/(**. shtml)

  2. 使用CSS选择器进行匹配

  使用CSS选择器进行匹配,我们只需设置文章 URL的CSS选择器即可(不知道什么是CSS选择器,请在一分钟内学习如何设置CSS选择器). 列表URL您可以轻松地对其进行设置,并在列表URL下找到特定的文章超链接代码,如下所示:

  如您所见,超链接文章的标记位于类为“ contList”的标记内,因此文章 URL的CSS选择器仅需要设置为.contList a,如下所示:

  设置完成后,如果您不确定设置是否正确,则可以单击上图中的测试按钮. 如果设置正确,则会列出列表URL下的所有文章名称和相应的网址,如下所示:

  VI. 文章抓取设置

  在此选项卡下,我们需要为文章标题和文章内容设置匹配规则,并提供两种设置方式. 建议使用CSS选择器方法,该方法更简单,更准确. (我不知道什么是CSS选择器,但是请学习如何在一分钟内设置它)

  我们只需要设置文章标题CSS选择器和文章内容CSS选择器即可准确捕获文章标题和文章内容.

  在文章源设置中,我们以采集“新浪网新闻”为例,这里以示例为例进行说明,您可以通过查看某文章文章的源代码轻松地对其进行设置列表网址. 例如,我们检查特定文章的源代码,如下所示:

  如您所见,文章标题位于ID为“ artibodyTitle”的标签内,因此文章标题CSS选择器只需设置为#artibodyTitle;

  类似地,找到文章内容的相关代码:

  如您所见,文章的内容位于ID为“ artibody”的标记内,因此文章内容的CSS选择器只需设置为#artibody;如下所示:

  设置完成后,如果您不确定设置是否正确,可以单击测试按钮并输入测试地址. 如果设置正确,则会显示文章标题和文章内容,以便于检查设置

  七,抓取文章页内容

  如果文章的内容太长,则有多个页面也可以捕获所有内容,那么您需要设置文章页面链接CSS选择器,并通过查看来找到页面链接的位置特定的文章 URL源代码,例如,文章页面链接的代码如下:

  如您所见,分页链接A标签位于类为“页面链接”的标签内

  因此,文章页面链接CSS选择器设置为.page-link a,如下所示:

  如果在发布时选中也要分页的选项,则发布文章也将被分页. 如果您的WordPress主题不支持标签,请不要打勾.

  8. 文章内容过滤功能

  文章内容过滤功能,可以过滤掉文本中不需要的内容(例如广告代码,版权信息等),可以设置两个关键字,删除两个关键字之间的内容,关键字2可以为空,表示关键字1之后的所有内容都将被删除.

  如下所示,在通过测试抓住文章之后,我们发现文章中有我们不想发布的内容,切换到HTML显示,找到内容的HTML代码,并且设置两个关键字以将其过滤掉.

  如上所示,如果我们要过滤掉以上

  和

  在两者之间,添加以下设置.

  如果需要过滤出多个内容,则可以添加多组设置.

  九,HTML标签过滤功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线