网站自动采集文章( 优采云站长不会编写规则采集规则,如何填写字符? )
优采云 发布时间: 2021-08-29 15:03网站自动采集文章(
优采云站长不会编写规则采集规则,如何填写字符?
)
如何快速采集Admin5站长网原创文章
很多站长朋友都喜欢采集一些更好的文章。例如,Admin5 网站管理员就是其中之一。作为国内大型站长之一,A5有很多更好的品质原创文章发布,所以文章资源可以说是源源不断的。但是对于采集工具,网上有各种各样的工具,大部分都是写规则采集。对于大多数站长来说,这可能是一个非常大的门槛,很难跨过,因为大多数站长不会写采集规则,导致很多好的资源直接放弃,或者部分站长手动复制贴或者花钱请人写采集规则,效率和资金投入可谓是伤了又伤了钱。现在我来教大家如何使用优采云站群软件指定目标网站采集,这是一个不需要写规则,而且还支持自动采集、自动跟踪等功能,无论是新站长还是老站长都容易上手,方便省力。现在图片教程如下:
一、打开优采云软件,在网站节点右键菜单中,打开【指定域名采集文章】功能。 (网站节点和列是自己添加的,第一次需要打开【数据管理】窗口生成列数据库,用于保存采集的文章。)
二、输入后点击左上角的一栏作为保存点,然后在右边填写采集的目标网址。
这里先教大家一些“怎么填字”的基础知识。看下图
1、是你要采集哪个站的列表URL,称为target采集地址。这通常是一个列表,因为列表是该列所有内容的链接位置。
2、page 翻页链接地址是第1页、第2页等的链接,注意上面的红蓝字。在优采云站群软件上,这些红色字符是需要填写的,比较两个URL,相同的东西不会变,就是红色字符。蓝色字符的1和2,这是该列的页面ID。在这个分类地址里,会变,所以就不填了。一般用|代替字符,其中主分隔符表示分隔两个字符。 , 前面是list_,后面是.shtml。遵循一句话:取相同且独特的字符。本1的列表页源码中browse/117/list_表示翻页,其他链接均无此格式。因此,软件会识别出这是一个翻页地址。每行之前最好有网址,以免在其他域名中选择文章 相同字符。
3、内容链接地址为采集的文章地址。和上面的原理是一样的。注意红色和蓝色字符。红色字符需要用软件填写,蓝色字符会发生变化。只需将其替换为 |。
三、了解以上知识,然后在软件上填写A5网址和字符,结果如下:
1、红框是采集需要填写的字符。填写如下,即可采集。
|.shtml
|.shtml
2、这里也说说上图中蓝框的作用。这个是为了以后自动采集,自动同步跟踪采集新网站要用于数据的URL,一般只填数字1就可以到第4页了,因为目标网站更新的文章在前几页。软件挂断后可以自动跟踪采集。
四、现在可以采集测试是否正常。在上图的左下角,点击【采集测试】按钮,结果如下图
上图中这是采集测试翻页地址。没有出现其他非翻页地址链接,说明采集正常。如果您有其他网址,则可以设置排除项。
上图中,这是对采集当前首页所有内容URL的测试。没有其他非内容网址链接,说明采集正常。如果您有其他网址,则可以设置排除项。
在上图中,这是对文章地址的随机测试。如果出现标题和内容,说明采集正常。如果出现其他文本,您可以设置排除或指定范围采集。
上图,这里是设置排除和过滤的地方
五、我看了上面很多文字和图片。其实采集A5的列表文章只需要设置这三行字符即可。不需要复制太多采集规则。
|.shtml
|.shtml
其他【采访】、【操作】、【教程】等,其他列ID为177,后两行字符相同。这样A5文章的整站栏目就可以采集回来了。如果你想要固定数量的采集,可以在【补充设置】【单页文章】中设置最大可拾取文章数。如上图。
现在我点击采集看看效果。看中间的爬取记录,软件就像一个蜘蛛一页一页采集。
最后可以在网站节点进入【数据管理】,可以查看你的采集回文章。然后将其发布到您的网站 或导入 TXT 文本用于其他目的。