文章自动采集插件( 如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)
优采云 发布时间: 2021-10-14 12:09文章自动采集插件(
如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)
首先说说这个采集插件的使用。相信很多朋友都是用wordpress做博客的,写博文更新太慢。那么你就可以使用这个插件,花很长时间配置它,以后就不用担心了。@采集几百篇文章都来了(做原创的博主可以跳过)
教程:如何安装
先到长腿蜘蛛-CTspider官网下载插件
然后转到WordPress插件页面并单击上传以安装并启用它。
如果使用FTP上传,请使用二进制上传协议。
如何授权
登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。
点击用户中心->添加授权域名(PS:目前每个用户可以授权3个域名)。
获取授权码后点击CTspider插件->系统配置->授权码配置->填写授权码->保存配置->验证授权
最近很多网友问:为什么点击采集后没有数据只有两种可能
采集规则未设置。
如果确定采集规则没问题,请检查当前采集 URL是否为ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider不支持动态渲染加载采集)
新建项目/基本配置
下面我们来详细说说如何采集一个项目
我们以新浪科技为例:
第一个基本配置
任务名称:新浪科技(PS:定制)
更新时间:默认60分钟(PS:当前任务每60分钟自动执行一次)
字符集:默认选项即可(PS:如果出现乱码,请选择当前网页的字符集)
随机IP:开启(PS:开启随机IP每次采集都会自动更换IP,减少服务器IP被封的几率)
多线程采集:开启(PS:开启后可以提高采集的速度)
多线程数:默认10(PS:根据自己服务器配置酌情使用)
列表设置
列表网址:(PS:如果需要多个,可以在新行添加)
列表区域选择器:.contList>ul>li(PS:【与CSS选择器用法完全一样】【可填充,可选】如果采集当前页面有多个同一个列表的DOM节点,则填写,确保采集Accuracy)在谷歌浏览器中右键该元素,可以看到当前列表数据在.contList>ul>li下
列表缩略图:如果有图片,可以直接填写当前缩略图CSS选择器
文章 URL匹配:a(PS:既然上面的区域选择器已经定位了,我们可以直接填写a标签,如果区域选择器没有定位,设置:.contList li a或.contList a你采集自己分析页面的dom结构)
自定义字段添加源URL:source_url(PS:【自定义】可以开启或关闭,设置后每天都会添加一个自定义字段source_url文章,当前采集为链接到 URL 为该字段分配值用于前台调用显示) 例如:get_post_meta('source_url') 可以调用该字段的值。
点击列表测试查看当前项目列表配置
标题匹配规则:h1
文章内容设置:#article_content
可以看到标题在h1标签下,也可以使用.main-title获取标题
正文内容似乎有很多类和 ID。如果有id属性,尽量使用id。毕竟id是唯一的,定位精准。
我们还可以在 采集TAG 标签中添加规则
长腿蜘蛛-CTspider提供了6条通用规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)
点击采集测试
采集 结果完美呈现(原文:标题:TAG)并正确显示
但是我们发现结果中出现了一个链接和更多的css属性和id属性和span标签。
我们可以使用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗
内容过滤
先删除数据中所有的a链接但不删除a标签的内容
删除数据中的span标签,不删除内容
删除数据中无用的class属性和id属性
最后在进行采集测试(获取纯数据)
本教程附图片,可参考官网教程:
本文整理自互联网(源代码之家123),如需转载请注明出处:;
如果本站发布的内容侵犯了您的权益,请邮件删除,我们会及时处理!
========================================
本站下载资源大部分采集于互联网,不保证其完整性和安全性,请下载后自行测试。
本站资源仅供学习交流之用。版权属于资源的原作者。请在下载后24小时内自觉删除。
商业用途请购买正版。未及时购买及支付造成的侵权与本站无关。