wordpress文章采集软件(一下WP-CTspider超详细使用教程新建项目/基本配置)

优采云 发布时间: 2021-12-24 06:18

  wordpress文章采集软件(一下WP-CTspider超详细使用教程新建项目/基本配置)

  今天去你的博客推荐一个免费的WordPress自动采集插件:WP-CTspider,这个插件是全自动的采集几乎采集any网站,设置很简单,只需要设置目标采集 URL,通过CSS选择器准确识别采集区域,包括(内容、摘要、TAG、缩略图、自定义字段等...)然后自动检测抓取网页内容,文章去重、更新、发布,此过程自动完成,无需人工干预。

  

  WP-CTspider支持WordPress的所有功能,完美支持WordPress的各种功能,标签,摘要,特*敏*感*词*片,自定义栏目等。自动调度采集,你只需要设置每个任务,你想多久执行一次任务,那么你可以定期执行采集任务。支持多种语言伪原创,支持百度翻译引擎(完全免费),共支持29种语言互译,轻松获取原创文章,SEO,支持SEO全功能优化,支持内容过滤,甚至可以在文章的任意位置添加自定义内容,也可以自定义文章的样式。附件下载,支持下载多种格式的附件,包括自定义采集缩略图,可以选择图片添加水印。

  其他 采集 教程

  WordPress使用优采云采集器采集文章教程

  博主分享的教程使用的是优采云V9(又称优采云)版本,博客程序为wordpress5.x版本。网站 服务器环境使用的宝塔面板,服务器系统是centos7,windows系统和lin...

  

  下面就来介绍一下WP-CTspider的超详细教程吧!

  使用教程新建项目/基本配置

  下面我们来详细说说如何采集一个项目

  我们以新浪科技为例:

  一、基本配置:

  任务名称:新浪科技(PS:可以自定义) 更新时间:默认60分钟(PS:当前任务每60分钟自动执行一次) 字符集:默认选项OK(PS:如果出现乱码,请以当前网页为目标字符集可以选择)随机IP:打开(PS:打开随机IP每次采集都会自动更换IP,减少服务器IP被封的几率) 多线程< @采集:开启(PS:采集开启后可提高速度) 多线程数:默认10(PS:根据自己的服务器配置酌情使用)

  

  列表设置

  

  点击列表测试查看当前项目列表配置

  

  文章设置

  标题匹配规则:h1

  文章内容设置:#article_content

  

  可以看到title在h1标签下,也可以使用.main-title来获取title

  正文内容似乎有很多类和 ID。如果有id属性,尽量使用id。毕竟id是唯一的,定位精准。

  我们也可以在采集TAG标签中添加规则

  长腿蜘蛛-CTspider提供了6条通用规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

  

  点击采集测试

  采集 结果完美呈现(原文:标题:TAG)并正确显示

  但是我们发现结果中出现了一个链接和更多的css属性和id属性和span标签。

  

  我们可以使用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗

  内容过滤首先删除数据中的所有a链接但不删除a标签内容删除数据中的span标签不删除数据中无用的class属性和id属性

  具体设置如下:

  

  最后在进行采集测试(获取纯数据)

  

  点击采集后,显示没有数据。只有两种可能

<p>采集规则未设置。如果确定采集规则没问题,请检查采集的当前URL是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider不支持动态渲染加载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线