wordpress手动采集插件Crawling_附带教程

优采云发布时间: 2020-08-21 09:59

　　然后，解压压缩包，上传到wordpress插件目录。激活插件。

　　三、任务管理

　　一个任务可以理解为一个爬虫，在这里你可以配置多个任务，每个任务可以单独设置参数。

　　比如，这里我设置了三个任务，如图：

　　第一个任务是爬取“盾给网路”的全部内容，抓取间隔设置为-1表示只采集一次，不会重复执行。

　　第二个任务是爬取“盾给网路”的前三页，如果采集过的不会重复采集，只会抓取前三页的更新的内容。每隔24小时采集一次。

　　第三个任务是爬取“阳光电影网”（这是影片天堂的新网站）的首页的全部更新的影片，因为阳光影片所有的更新都在首页。每隔24小时采集一次。

　　每个任务单独设置的参数，如图：

　　下面是每位任务的设置：

　　1 任务名称：

　　每隔任务的别称，方便好记而已，没有其他作用。

　　2 入口网址：

　　每个任务爬虫开始的地址。这个网址通常是首页或则列表页。然后爬虫会从这个页面开始采集。

　　3 爬取间隔时间：

　　每隔任务（爬虫）运行的间隔时间。

　　4 列表页面url正则/内容页面url正则：

　　爬虫步入第一个网址（入口网址）后须要分辨什么是须要采集的内容页面。所以须要设置匹配的内容页面url正则表达式。

　　爬取还须要晓得怎样进行翻页，寻找更多的内容页面，所以须要设置列表页面url的正则表达式。

　　列表页面

　　内容页面

　　所以正则表达式如下：

　　列表页面url正则：\/page/[1-9]\d*$

　　内容页面url正则：\/[1-9]\d*.html$

　　如果只须要采集前三页更新的内容，只须要把列表页面的正则表达式改为\/page/[1-3]$。

　　配置这两个参数时可以打开《正则表达式在线测试》页面测试。

　　5 文章标题（xpath）/文章内容（xpath）:

　　进入内容页面后，爬虫要选择抓取的内容，比如文章的标题和文章的正文。所以须要设置xpath来告诉爬虫。

　　例如：

　　打开一个页面，通过浏览器查看页面源代码，如图：

　　可以看见，文章的标题是收录在

　　这个元素中的元素中的。所以标题的xpath规则为：//h1[@class=”mscctitle”]/a

　　同样，通过上图可以看到：内容是收录在

　　中的，所以内容的xpath规则为：//div[@class=”content-text”]

　　配置完成可以打开《XPath在线测试》页面测试。

　　6 内容起始字符串/内容结束字符串：

　　一般的网站都会有广告，或者一些其他的东西混在内容上面，所以我们须要过滤掉那些内容，只保存我们须要的部份。而这部份无用的东西（广告、分享按键、标签等）大部分都是在文章的开头或则结束部份，并且内容是固定的。所以我们可以通过简单的字符串过滤掉。

　　例如《且听风吟》的整篇文章的内容部份开头就有一段广告，如上图。

　　通过《XPath在线测试》页面测试我们上一步配置的内容xpath规则，可以得到文章内容，如下图：

　　可以看见，真正的内容是从

　　之后开始的。

　　所以内容起始字符串设置为：

　　因为文章内容前面并没有多余的部份，所以前面不用过虑，内容结束字符串设置为空就可以了。

　　7 文章图片：

　　采集插件可以手动将文章内出现的图片保存到本地，默认按年月分文件夹保存，并会将图片的标签设置为文章的标题。如果不需要保存到本地可以选择“不做处理”。

　　8 文章分类：

　　选择要保存到的分类，和wordpress一样，可以选择多个分类。

0

2020-08-21

自动采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

wordpress手动采集插件Crawling_附带教程

0 个评论

发起人

AI时代内容工厂

wordpress手动采集插件Crawling_附带教程

0 个评论

发起人

相关问题