文章内容采集(今日头条数据:ajax加载显示的规则(组图))
优采云 发布时间: 2021-09-03 00:24文章内容采集(今日头条数据:ajax加载显示的规则(组图))
今天的头条数据由 Ajax 加载和显示。按照正常的URL,是抓不到数据的。需要分析加载地址。我们以 %E6%96%B0%E9%97%BB 为例。 采集文章列表
用谷歌浏览器打开链接,右击“查看”,在控制台切换到网络,点击XHR,这样可以过滤掉图片、文件等不必要的请求,只请求查看内容页面
由于页面是ajax加载的,把页面拉到底部,会自动加载更多文章。这时候控制台抓取到的链接就是我们真正需要的列表页面的链接了:
%E6%96%B0%E9%97%BB&autoload=true&count=20&cur_tab=1&from=search_tab
在优采云采集中创建任务
创建完成后,点击“采集Settings”,在“Start page URL”中填写上面获取的链接
接下来匹配内容页网址,标题中文章网址格式为数字/
点击“内容页面网址”编写“匹配内容网址”规则:
(?\d+/)
这是一个常规规则,就是将匹配到的URL加载到捕获组content1中,然后在下面填写[Content1],对应上面的content1获取内容页面链接
可以点击测试查看链接是否被成功抓取
获取成功后,即可开始获取内容
点击“获取内容”在字段列表右侧添加默认字段,如标题、正文等可智能识别,如需准确可自行编辑字段,支持regular、xpath , json 等匹配内容
我们需要抓取文章的标题和文字。既然是ajax显示,就需要写规则来匹配内容。分析文章源码:找到文章location
标题规则:articleInfo\s*:\s*{\s*title:\s*'[Content1]',
正文规则:content\s*:\s*'[content1]',\s*groupId
必须保证规则的唯一性,否则会匹配到其他内容。将规则添加到字段中,并选择获取它的方法以匹配规则:
规则写好后,点击保存,然后点击“测试”看看效果
规则正确,爬行正常。捕获的数据也可以发布到cms系统,直接存入数据库,保存为excel文件等,只需点击底部导航栏的“发布设置”,今天好头条采集结束在这里,你不妨试试看!