今日头条文章采集软件(今日头条的数据都是ajax加载显示的,需要分析出加载出址)

优采云 发布时间: 2022-01-22 08:03

  今日头条文章采集软件(今日头条的数据都是ajax加载显示的,需要分析出加载出址)

  今日头条的数据都是ajax加载显示的。按照正常的url,抓不到数据。有必要分析加载地址。我们以 %E6%96%B0%E9%97%BB 为例对 采集List of 文章

  用谷歌浏览器打开链接,右键“Inspect”,在控制台切换到网络点击XHR,这样就可以过滤掉图片、文件等不必要的请求,只看页面内容。

  

  由于页面是ajax加载的,所以拉到页面底部会自动加载更多文章。这时候控制台抓取到的链接就是我们真正需要的列表页链接:

  在 优采云采集 中创建一个任务

  

  创建完成后,点击“采集Settings”,在“Start Page URL”中填写上面截取的链接

  

  接下来,匹配内容页面的 URL。标题的文章 URL格式是一个数字/

  单击“内容页面 URL”以编写“匹配内容 URL”规则:

  这是一个正则规则,意思是把匹配到的URL放到抓包组content1中,然后在下面填写【Content 1】,也就是对应上面的content1,就可以得到内容页链接

  

  可以点击测试查看链接是否爬取成功

  

  爬取成功后就可以开始抓取内容了

  点击“获取内容”在字段列表右侧添加默认字段,如title、body等可智能识别,如需准确可自行编辑字段,支持regular、xpath、 json等匹配内容

  我们需要获取 文章 的标题和正文。既然是ajax显示,我们需要写规则匹配内容,分析源码:,找到文章的位置

  

  标题规则:articleInfo\s:\s{\stitle:\s'[content1]',

  正文规则:content\s:\s'[content1]',\s*groupId

  规则必须唯一,否则会匹配到其他内容,将规则添加到字段中,选择规则匹配作为获取方式:

  

  

  写好规则后,点击保存,点击“测试”看看效果如何

  

  规则正确,抓取正常,抓取的数据也可以发布到cms系统,直接存入数据库,保存为excel文件等,点击下方“发布设置”导航栏,就是这样。今日头条采集的采集就到这里了,大家不妨试试看!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线