今日头条文章采集软件(今日头条文章约4102字187,点赞数3,值得参考!)
优采云 发布时间: 2021-11-05 16:16今日头条文章采集软件(今日头条文章约4102字187,点赞数3,值得参考!)
栏目:php·
介绍本文章主要介绍使用php优采云采集器抓取今日头条ajax的文章内容及相关经验技巧,文章约4102字, 187 次浏览,3 次赞,值得参考!
今天的头条数据由Ajax加载和显示。按照正常的URL,是抓不到数据的。需要分析加载地址。我们以%E6%96%B0%E9%97%BB为例。采集文章的列表
用谷歌浏览器打开链接,在控制台右击“review”,切换到网络点击XHR,这样就可以过滤图片、文件等不必要的请求,只看页面内容请求
由于页面是ajax加载的,把页面拉到底部,会自动加载更多文章。这时候控制台抓取到的链接就是我们真正需要的列表页面的链接:
%E6%96%B0%E9%97%BB&autoload=true&count=20&cur_tab=1&from=search_tab
在优采云采集中创建任务
创建完成后点击“采集设置”,在“起始页网址”填写上面爬取的链接
接下来,匹配内容页面 URL。标题中的文章 URL 格式为数字/
单击“内容页面 URL”以编写“匹配内容 URL”规则:
(?\d+/)
这是一个正则规则,就是将匹配的URL加载到捕获组content1中,然后在下面填写[Content 1],对应上面的content1获取内容页面链接
可以点击测试查看链接是否爬取成功
获取成功后,就可以开始获取内容了
点击“获取内容”在字段列表右侧添加默认字段,如标题、正文等可智能识别,如需精确可自行编辑字段,支持regular、xpath、 json 等匹配内容
我们需要抓取文章的标题和正文。因为是ajax显示的,所以我们需要写规则来匹配内容。分析文章源码:,找到文章的位置
标题规则: articleInfo\s:\s{\stitle:\s'[Content1]',
正文规则:content\s:\s'[content1]',\s*groupId
规则必须是唯一的,否则会匹配到其他内容。将规则添加到字段中,并为获取方式选择规则匹配:
规则写好后,点击保存,点击“测试”看看效果如何
规则正确,爬行正常。捕获的数据也可以发布到cms系统,直接存入数据库,保存为excel文件等,只需点击底部导航栏中的“发布设置”即可。采集 就到这里了,你不妨试试看!