采集文章内容(优采云采集器中创建一个任务创建完毕点击“采集器设置”)

优采云 发布时间: 2021-09-24 14:27

  采集文章内容(优采云采集器中创建一个任务创建完毕点击“采集器设置”)

  今天的头条数据是通过ajax加载显示的。按照正常的url,是抓不到数据的。需要分析加载地址。我们以文章的采集列表为例

  用谷歌浏览器打开链接,在控制台右击“review”,切换到网络点击XHR,这样就可以过滤图片、文件等不必要的请求,只看页面内容请求

  由于页面是ajax加载的,把页面拉到底部,会自动加载更多文章。这时候控制台抓取到的链接就是我们真正需要的列表页面的链接:

  在优采云采集器中创建任务

  创建后点击“采集器设置”,在“起始页网址”填写上面爬取的链接

  接下来匹配内容页面的URL,标题中的文章 URL格式为

  单击“内容页面 URL”以编写“匹配内容 URL”规则:

  (?+/)

  这是一个常规规则,表示匹配的URL加载到捕获组content1中,然后在下面填写[Content 1],对应上面的content1获取内容页面链接

  可以点击测试查看链接是否爬取成功

  获取成功后,就可以开始获取内容了

  点击“获取内容”在字段列表右侧添加默认字段,如标题、正文等可智能识别,如需精确可自行编辑字段,支持regular、xpath ,json等匹配内容

  我们需要抓取文章的标题和正文。既然是ajax显示,就需要写规则来匹配内容。分析文章源码:,找到文章的位置

  标题规则:articleInfos:s{stitle:s'[Content1]',

  正文规则:contents:s'[content1]',s*groupId

  规则必须是唯一的,否则会匹配到其他内容。将规则添加到字段中,并为获取方式选择规则匹配:

  规则写好后,点击保存,点击“测试”看看效果如何

  规则正确,爬行正常。捕获的数据也可以发布到cms系统,直接存入数据库,保存为excel文件等,只需点击底部导航栏中的“发布设置”即可。采集 就到这里了,你不妨试试看!

  文章来源:segmentfault,作者:zorlan。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:sean.li#ucloud.cn(邮箱中#请改为@)进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

  

  后台-系统设置-扩展变量-移动广告点-内容底部

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线