文章自动采集插件( 如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)

优采云发布时间: 2021-10-14 12:09

　　文章自动采集插件(

如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)

　　首先说说这个采集插件的使用。相信很多朋友都是用wordpress做博客的，写博文更新太慢。那么你就可以使用这个插件，花很长时间配置它，以后就不用担心了。@采集几百篇文章都来了（做原创的博主可以跳过）

　　教程：如何安装

　　先到长腿蜘蛛-CTspider官网下载插件

　　然后转到WordPress插件页面并单击上传以安装并启用它。

　　如果使用FTP上传，请使用二进制上传协议。

　　如何授权

　　登录长腿蜘蛛-CTspider官网注册账号（PS：注册账号需要邮箱验证激活码，请认真填写邮箱账号）。

　　点击用户中心->添加授权域名（PS：目前每个用户可以授权3个域名）。

　　获取授权码后点击CTspider插件->系统配置->授权码配置->填写授权码->保存配置->验证授权

　　最近很多网友问：为什么点击采集后没有数据只有两种可能

　　采集规则未设置。

　　如果确定采集规则没问题，请检查当前采集 URL是否为ajax动态渲染加载（PS：目前长腿蜘蛛-CTspider不支持动态渲染加载采集)

　　新建项目/基本配置

　　下面我们来详细说说如何采集一个项目

　　我们以新浪科技为例：

　　第一个基本配置

　　任务名称：新浪科技（PS：定制）

　　更新时间：默认60分钟（PS：当前任务每60分钟自动执行一次）

　　字符集：默认选项即可（PS：如果出现乱码，请选择当前网页的字符集）

　　随机IP：开启（PS：开启随机IP每次采集都会自动更换IP，减少服务器IP被封的几率）

　　多线程采集：开启（PS：开启后可以提高采集的速度）

　　多线程数：默认10（PS：根据自己服务器配置酌情使用）

　　列表设置

　　列表网址：（PS：如果需要多个，可以在新行添加）

　　列表区域选择器：.contList>ul>li（PS：【与CSS选择器用法完全一样】【可填充，可选】如果采集当前页面有多个同一个列表的DOM节点，则填写，确保采集Accuracy）在谷歌浏览器中右键该元素，可以看到当前列表数据在.contList>ul>li下

　　列表缩略图：如果有图片，可以直接填写当前缩略图CSS选择器

　　文章 URL匹配：a（PS：既然上面的区域选择器已经定位了，我们可以直接填写a标签，如果区域选择器没有定位，设置：.contList li a或.contList a你采集自己分析页面的dom结构）

　　自定义字段添加源URL：source_url（PS：【自定义】可以开启或关闭，设置后每天都会添加一个自定义字段source_url文章，当前采集为链接到 URL 为该字段分配值用于前台调用显示）例如：get_post_meta('source_url') 可以调用该字段的值。

　　点击列表测试查看当前项目列表配置

　　标题匹配规则：h1

　　文章内容设置：#article_content

　　可以看到标题在h1标签下，也可以使用.main-title获取标题

　　正文内容似乎有很多类和 ID。如果有id属性，尽量使用id。毕竟id是唯一的，定位精准。

　　我们还可以在采集TAG 标签中添加规则

　　长腿蜘蛛-CTspider提供了6条通用规则添加采集，并且可以自定义字段规则（PS：自定义字段规则可以添加多个）

　　点击采集测试

　　采集结果完美呈现（原文：标题：TAG）并正确显示

　　但是我们发现结果中出现了一个链接和更多的css属性和id属性和span标签。

　　我们可以使用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗

　　内容过滤

　　先删除数据中所有的a链接但不删除a标签的内容

　　删除数据中的span标签，不删除内容

　　删除数据中无用的class属性和id属性

　　最后在进行采集测试（获取纯数据）

　　本教程附图片，可参考官网教程：

　　本文整理自互联网（源代码之家123），如需转载请注明出处：；

　　如果本站发布的内容侵犯了您的权益，请邮件删除，我们会及时处理！

　　========================================

　　本站下载资源大部分采集于互联网，不保证其完整性和安全性，请下载后自行测试。

　　本站资源仅供学习交流之用。版权属于资源的原作者。请在下载后24小时内自觉删除。

　　商业用途请购买正版。未及时购买及支付造成的侵权与本站无关。

0

2021-10-14

文章自动采集插件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集插件( 如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)

0 个评论

发起人

AI时代内容工厂

文章自动采集插件( 如何授权登录长腿蜘蛛-CTspider不支持动态渲染加载采集)

0 个评论

发起人

相关问题