操作方法:优采云采集器使用教程

优采云 发布时间: 2022-10-08 18:26

  操作方法:优采云采集器使用教程

  优采云采集器教程

  小白操作的内心独白

  Lw131494252

  我

  想和你一起成长,一起工作,一起休息,一起享受大自然的生活,如果其中一个跟不上,恐怕我会作弊。

  张贴在

  收录系列中

  对于SEO来说,优采云是一种常用的采集工具,学会熟练地使用优采云采集器也会让SEO人员更有效地工作。让我详细演示如何使用优采云采集器。

  工具/原材料方法/步骤

  1

  下载并安装优采云采集器,有付费和免费版本,百度找到下载地址。(我不会在这里详细说明)。

  阿拉伯数字

  安装完成后,双击打开并进入程序的主页以创建新组。

  2

  选择刚创建的新分组,然后右键单击以创建任务。

  4

  编辑任务名称,然后添加指向要采集的目标页面的链接。

  5

  选择批量/多页采集

  6

  

  网址采集的规则设置:

  注意:采集量会根据您自己的需要而变化

  6

  7

  添加采集规则

  10

  转到

  采集的目标页,然后单击鼠标右键以查看源代码。找到要文章采集的标题,然后查找 div,逐个查找,找到页面上唯一的 div,然后复制它。

  查找最后一个 div 也是如此。

  这样做的目的是缩小采集目标的范围。

  11

  然后从第一个 div 开始,到最后一个 div 结束。

  将代码复制到相应的选择,然后可以保存并测试一次

  12

  测试成功。所以选择了采集的一般范围,让我们修改规则采集,使采集的内容达到我们想要的。

  首先查找内容页链接的规则,然后删除不需要的其他代码。

  

  然后,让我们继续采集的第二部分:内容规则的设置

  设置标题替换

  设置标题替换后,测试效果

  设置内容部分的替换

  转到页面的背景代码,找到文章内容上方的唯一 div,然后

  只有在div之后的文本结束,然后复制代码并将其放入与程序对应的设置框中。

  然后设置html代码的过滤,留下你需要的内容,并删除你不需要的内容。然后单击“确定”,保存并开始测试它。

  上述测试成功后,继续执行上一步中释放的设置。

  在 Web 版本配置管理中,对其进行配置

  主要配置网站后台的登录信息和待发布的列,然后保存配置,全部保存,就可以了,可以正式批量采集文章。

  最后检查文章标题,文章内容采集成功。

  预览时标签不带点

  微信扫一扫

  操作方法:分享一个WordPress自动采集插件AutoPostPro使用技巧

  让我们以采集“新浪网讯”为例,文章列表URL是这样,请在手动指定文章列表URL中输入URL,如下所示:

  之后,您需要在文章列表URL下为特定URL设置匹配规则文章

  5. 文章网址匹配规则

  文章URL匹配规则的设置非常简单,没有复杂的设置,提供了两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配比较简单。

  1. 使用 URL 通配符匹配

  通过单击文章

  在列表URL上,我们可以发现每个文章的URL的结构如下

  因此,将 URL 中不断变化的数字或字母替换为通配符 (*) 就足够了,例如:(*)/(*).shtml

  2. 使用 CSS 选择器进行匹配

  使用CSS选择器进行匹配,我们只需要设置文章URL的CSS选择器

  (不知道CSS选择器是什么,一分钟内学习如何设置CSS选择器),通过查看列表URL的源代码可以很容易地设置,找到代码文章列表URL下的超链接,如下所示:

  如您所见,一个标签文章超链接位于类为“contList”的 标签内,因此 CSS 选择器文章 URL 只需要设置为 .contList a,如下所示:

  之后的设置是

  

  完成,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表URL下的所有文章名称和对应的页面地址都会列出,如下所示:

  6. 文章抓取设置

  在这个标签下,我们需要为文章标题和文章内容设置匹配规则,提供两种设置方式,建议使用CSS选择器方法,更简单,更精确。(不知道什么是CSS选择器,学习如何在一分钟内设置CSS选择器。

  我们只需要设置文章标题CSS选择器并文章内容

  CSS 选择器,用于准确抓取文章标题和文章内容。

  在文章源设置中,我们

  以采集《新浪网讯》为例,这里还是要解释一下的例子,通过查看列表URL的下一文章可以轻松设置源代码,例如,我们可以查看特定文章的源代码,如下所示:

  如您所见,文章标题位于id为“artibodyTitle”的标签内,因此文章标题CSS选择器只需要设置为#artibodyTitle;

  同样,查找文章内容的代码:

  如您所见,文章内容位于id为“artibody”的标签内,因此文章内容CSS选择器只需要设置为#artibody;如下所示

  设置后

  完成后,不知道设置是否正确,可以点击测试按钮,输入测试地址,如果设置正确,将显示文章标题和文章内容,方便检查设置

  7. 抓取文章分页内容

  

  如果文章内容是

  太长了,有多个分页也可以抓取所有内容,那么你需要设置文章分页链接CSS选择器,通过查看具体的文章URL源代码,找到分页链接的地方,比如文章分页链接代码如下:

  如您所见,分页链接 A 标记位于类为“页面链接”的 标记内

  因此,文章分页链接 CSS 选择器设置为 .page-link a,如下所示:

  如果您检查 当发布也分页时,文章也将被分页,如果您的WordPress主题不支持标签,请不要勾选。

  8. 文章内容过滤功能

  文章内容过滤功能,可以过滤掉正文中不想发布的内容(如广告代码、版权信息等),可以设置两关键词,删除两关键词之间的内容,关键词2可以为空,表示关键词1后的所有内容都将被删除。

  如下图所示,我们发现文章中有我们不想发布的内容,经过测试爬行文章,切换到HTML显示,找到内容的HTML代码,并设置两关键词来过滤掉内容。

  如上所示,如果我们想过滤掉上面的内容

  和

  将以下设置添加到内容中

  如果需要筛选出多个位置,可以添加多组设置。

  9.HTML标签过滤功能

  HTML标签过滤功能,用于过滤掉采集文章中的超链接(标签)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线