采集文章内容(优采云采集器中创建一个任务创建完毕点击“采集器设置”)

优采云发布时间: 2021-09-24 14:27

　　今天的头条数据是通过ajax加载显示的。按照正常的url，是抓不到数据的。需要分析加载地址。我们以文章的采集列表为例

　　用谷歌浏览器打开链接，在控制台右击“review”，切换到网络点击XHR，这样就可以过滤图片、文件等不必要的请求，只看页面内容请求

　　由于页面是ajax加载的，把页面拉到底部，会自动加载更多文章。这时候控制台抓取到的链接就是我们真正需要的列表页面的链接：

　　在优采云采集器中创建任务

　　创建后点击“采集器设置”，在“起始页网址”填写上面爬取的链接

　　接下来匹配内容页面的URL，标题中的文章 URL格式为

　　单击“内容页面 URL”以编写“匹配内容 URL”规则：

　　(?+/)

　　这是一个常规规则，表示匹配的URL加载到捕获组content1中，然后在下面填写[Content 1]，对应上面的content1获取内容页面链接

　　可以点击测试查看链接是否爬取成功

　　获取成功后，就可以开始获取内容了

　　点击“获取内容”在字段列表右侧添加默认字段，如标题、正文等可智能识别，如需精确可自行编辑字段，支持regular、xpath ,json等匹配内容

　　我们需要抓取文章的标题和正文。既然是ajax显示，就需要写规则来匹配内容。分析文章源码：，找到文章的位置

　　标题规则：articleInfos:s{stitle:s'[Content1]',

　　正文规则：contents:s'[content1]',s*groupId

　　规则必须是唯一的，否则会匹配到其他内容。将规则添加到字段中，并为获取方式选择规则匹配：

　　规则写好后，点击保存，点击“测试”看看效果如何

　　规则正确，爬行正常。捕获的数据也可以发布到cms系统，直接存入数据库，保存为excel文件等，只需点击底部导航栏中的“发布设置”即可。采集就到这里了，你不妨试试看！

　　文章来源：segmentfault，作者：zorlan。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件至：sean.li#ucloud.cn（邮箱中#请改为@）进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容。

　　后台-系统设置-扩展变量-移动广告点-内容底部

0

2021-09-24

采集文章内容

0 个评论

要回复文章请先登录或注册