文章采集链接(利用优采云站群软件来指定目标网站采集文章的方法 )
优采云 发布时间: 2021-09-01 09:33文章采集链接(利用优采云站群软件来指定目标网站采集文章的方法
)
很多站长朋友喜欢采集一些更好的文章,比如Admin5站长网就是其中之一,A5作为国内大型站长网站之一,还有很多更好的质量原创文章是发布,所以文章资源可以说是连续的。但是对于采集工具,网上有各种各样的工具,而且大部分都是写规则采集。对于大多数站长来说,这可能是一个很大的门槛,很难跨过,因为大多数站长不会写采集规则,导致很多好的资源放弃,或者部分站长手动复制粘贴或者花钱找人写采集规则,效率和资金投入可谓是伤了又伤了钱。现在我来教大家如何使用优采云站群软件指定目标网站采集,这是一个不需要写规则的,还支持自动采集,自动跟踪等功能,无论是新站长还是老站长都容易上手,方便省力。现在图片教程如下:
一、打开优采云software,在网站node右键菜单中,打开【指定域名采集文章】功能。 (网站节点和列是自己添加的,第一次需要打开【数据管理】窗口生成列数据库来保存采集的文章。)
二、输入后点击左上角的一栏作为保存点,然后在右边填写采集的目标网址。
这里先教大家一些“怎么填字”的基础知识。看下图
1、是你要选择哪个站的列表URL,称为target采集地址。这通常是一个列表,因为列表是该列所有内容的链接位置。
2、page 翻页链接地址是第1页、第2页等的链接,注意上面的红蓝字。在优采云站群软件上,这些红色字符是需要填写的。比较两个URL,相同的东西不会变,就是红色字符。蓝色字符的1和2,这是该列的页面ID。在这个类目地址中,会发生变化,所以就不填了。一般用|代替字符,其中主分隔符表示分隔两个字符。 , 前面是list_,后面是.shtml。遵循一句话:取相同且独特的字符。本1的列表页源码中browse/117/list_表示翻页,其他链接均无此格式。因此,软件会识别出这是一个翻页地址。
3、内容链接地址为采集的文章地址。和上面的原理是一样的。注意红色和蓝色字符。红色字符需要用软件填写,蓝色字符会发生变化。只需将其替换为 |。
三、了解以上知识,然后在软件上填写A5网址和字符,结果如下:
1、红框是采集需要填写的字符。填写如下,即可采集。
|.shtml
|.shtml
2、这里也是上图中蓝框的作用。这个是为了以后自动采集,自动同步跟踪采集新网站要用于数据的URL,一般只填数字1 到第4页就好了,因为文章更新了网站 在前几页。软件挂断后可以自动跟踪采集。
四、现在可以采集测试是否正常。在上图的左下角,点击【采集测试】按钮,结果如下图
上图中这是采集测试翻页地址。没有出现其他非翻页地址链接,说明采集正常。如果您有其他网址,则可以设置排除项。
上图中,这是对采集当前首页所有内容URL的测试。没有其他非内容网址链接,说明采集正常。如果您有其他网址,则可以设置排除项。
在上图中,这是对文章 地址的随机测试。如果出现标题和内容,说明采集是正常的。如果出现其他文本,您可以设置排除或指定范围采集。
上图,这里是设置排除和过滤的地方
五、我看了上面很多文字和图片。其实对于采集A5的列表文章,只需要设置这三行字符即可。不需要复制太多采集规则。
|.shtml
|.shtml
其他【采访】、【操作】、【教程】等,其他列ID为177,后两行字符相同。这样,A5文章的整个站栏就可以采集回来了。如果想要固定数量的采集,可以在【补充设置】【单页文章】中设置最大文章数。如上图。
现在我点击采集看看效果。看中间的爬取记录,软件就像一个蜘蛛一页一页采集。
最后可以在网站节点游建中进入【数据管理】,查看你的采集back文章。然后将其发布到您的网站 或导入 TXT 文本以用于其他目的。