教您使用php You Caiyun捕获当今头条新闻Ajax文章的内容

优采云 发布时间: 2020-08-06 21:20

  今天的标题数据由Ajax加载并显示. 根据普通URL,无法捕获数据. 有必要分析加载地址. 让我们以%E6%96%B0%E9%97%BB为例. 文章采集列表

  使用Google Chrome浏览器打开链接,右键单击“审阅”,在控制台中切换到网络,然后单击XHR,以便可以过滤不必要的请求(例如图像,文件等),而仅请求查看内容页面

  由于页面是由ajax加载的,因此将页面拉到底部,更多文章将自动加载. 目前,控制台捕获的链接是我们真正需要的列表页面的链接:

  ... amp; from = search_tab

  在优采云采集器中创建任务

  创建后,单击“集合设置”,然后在“开始页面URL”中填写上面爬网的链接

  下一步匹配内容页面的URL,标题文章的URL格式为数字/

  点击“内容页面网址”以编写“匹配内容网址”规则:

  (?\ d + /)

  这是一条常规规则,这意味着将匹配的URL加载到捕获组content1中,然后填写下面的[Content1](与上面的content1相对应)以获取内容页面链接

  您可以单击“测试”以查看链接是否成功爬网

  获取成功后,您可以开始获取内容

  点击“获取内容”以在字段列表的右侧添加默认字段,例如标题,正文等. 可以智能识别,如果需要准确性,则可以自己编辑字段并支持常规, xpath,json和其他匹配内容

  我们需要获取文章的标题和正文. 因为它是由Ajax显示的,所以我们需要编写规则以匹配内容,分析文章的源代码: ,找到文章的位置

  标题规则: articleInfo \ s *: \ s * {\ s * title: \ s *'[Content1]',

  正文规则: content \ s *: \ s *'[content1]',\ s * groupId

  该规则必须唯一,否则它将与其他内容匹配. 将规则添加到字段中,然后为获取方法选择规则匹配:

  编写规则后,单击“保存”,然后单击“测试”以查看其工作原理

  规则正确,抓取正常. 捕获的数据也可以发布到cms系统,直接存储在数据库中,另存为excel文件等,只需单击底部导航栏中的“发布设置”即可. 采集在这里,每个人都可以尝试一下!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线