操作方法:优采云采集器使用教程
优采云 发布时间: 2022-10-08 18:26操作方法:优采云采集器使用教程
优采云采集器教程
小白操作的内心独白
Lw131494252
我
想和你一起成长,一起工作,一起休息,一起享受大自然的生活,如果其中一个跟不上,恐怕我会作弊。
张贴在
收录系列中
对于SEO来说,优采云是一种常用的采集工具,学会熟练地使用优采云采集器也会让SEO人员更有效地工作。让我详细演示如何使用优采云采集器。
工具/原材料方法/步骤
1
下载并安装优采云采集器,有付费和免费版本,百度找到下载地址。(我不会在这里详细说明)。
阿拉伯数字
安装完成后,双击打开并进入程序的主页以创建新组。
2
选择刚创建的新分组,然后右键单击以创建任务。
4
编辑任务名称,然后添加指向要采集的目标页面的链接。
5
选择批量/多页采集
6
网址采集的规则设置:
注意:采集量会根据您自己的需要而变化
6
7
添加采集规则
10
转到
采集的目标页,然后单击鼠标右键以查看源代码。找到要文章采集的标题,然后查找 div,逐个查找,找到页面上唯一的 div,然后复制它。
查找最后一个 div 也是如此。
这样做的目的是缩小采集目标的范围。
11
然后从第一个 div 开始,到最后一个 div 结束。
将代码复制到相应的选择,然后可以保存并测试一次
12
测试成功。所以选择了采集的一般范围,让我们修改规则采集,使采集的内容达到我们想要的。
首先查找内容页链接的规则,然后删除不需要的其他代码。
然后,让我们继续采集的第二部分:内容规则的设置
设置标题替换
设置标题替换后,测试效果
设置内容部分的替换
转到页面的背景代码,找到文章内容上方的唯一 div,然后
只有在div之后的文本结束,然后复制代码并将其放入与程序对应的设置框中。
然后设置html代码的过滤,留下你需要的内容,并删除你不需要的内容。然后单击“确定”,保存并开始测试它。
上述测试成功后,继续执行上一步中释放的设置。
在 Web 版本配置管理中,对其进行配置
主要配置网站后台的登录信息和待发布的列,然后保存配置,全部保存,就可以了,可以正式批量采集文章。
最后检查文章标题,文章内容采集成功。
预览时标签不带点
微信扫一扫
操作方法:分享一个WordPress自动采集插件AutoPostPro使用技巧
让我们以采集“新浪网讯”为例,文章列表URL是这样,请在手动指定文章列表URL中输入URL,如下所示:
之后,您需要在文章列表URL下为特定URL设置匹配规则文章
5. 文章网址匹配规则
文章URL匹配规则的设置非常简单,没有复杂的设置,提供了两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配比较简单。
1. 使用 URL 通配符匹配
通过单击文章
在列表URL上,我们可以发现每个文章的URL的结构如下
因此,将 URL 中不断变化的数字或字母替换为通配符 (*) 就足够了,例如:(*)/(*).shtml
2. 使用 CSS 选择器进行匹配
使用CSS选择器进行匹配,我们只需要设置文章URL的CSS选择器
(不知道CSS选择器是什么,一分钟内学习如何设置CSS选择器),通过查看列表URL的源代码可以很容易地设置,找到代码文章列表URL下的超链接,如下所示:
如您所见,一个标签文章超链接位于类为“contList”的 标签内,因此 CSS 选择器文章 URL 只需要设置为 .contList a,如下所示:
之后的设置是
完成,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表URL下的所有文章名称和对应的页面地址都会列出,如下所示:
6. 文章抓取设置
在这个标签下,我们需要为文章标题和文章内容设置匹配规则,提供两种设置方式,建议使用CSS选择器方法,更简单,更精确。(不知道什么是CSS选择器,学习如何在一分钟内设置CSS选择器。
我们只需要设置文章标题CSS选择器并文章内容
CSS 选择器,用于准确抓取文章标题和文章内容。
在文章源设置中,我们
以采集《新浪网讯》为例,这里还是要解释一下的例子,通过查看列表URL的下一文章可以轻松设置源代码,例如,我们可以查看特定文章的源代码,如下所示:
如您所见,文章标题位于id为“artibodyTitle”的标签内,因此文章标题CSS选择器只需要设置为#artibodyTitle;
同样,查找文章内容的代码:
如您所见,文章内容位于id为“artibody”的标签内,因此文章内容CSS选择器只需要设置为#artibody;如下所示
设置后
完成后,不知道设置是否正确,可以点击测试按钮,输入测试地址,如果设置正确,将显示文章标题和文章内容,方便检查设置
7. 抓取文章分页内容
如果文章内容是
太长了,有多个分页也可以抓取所有内容,那么你需要设置文章分页链接CSS选择器,通过查看具体的文章URL源代码,找到分页链接的地方,比如文章分页链接代码如下:
如您所见,分页链接 A 标记位于类为“页面链接”的 标记内
因此,文章分页链接 CSS 选择器设置为 .page-link a,如下所示:
如果您检查 当发布也分页时,文章也将被分页,如果您的WordPress主题不支持标签,请不要勾选。
8. 文章内容过滤功能
文章内容过滤功能,可以过滤掉正文中不想发布的内容(如广告代码、版权信息等),可以设置两关键词,删除两关键词之间的内容,关键词2可以为空,表示关键词1后的所有内容都将被删除。
如下图所示,我们发现文章中有我们不想发布的内容,经过测试爬行文章,切换到HTML显示,找到内容的HTML代码,并设置两关键词来过滤掉内容。
如上所示,如果我们想过滤掉上面的内容
和
将以下设置添加到内容中
如果需要筛选出多个位置,可以添加多组设置。
9.HTML标签过滤功能
HTML标签过滤功能,用于过滤掉采集文章中的超链接(标签)