今日头条:加载出址、内容页链接、分析篇
优采云 发布时间: 2021-03-29 05:07今日头条:加载出址、内容页链接、分析篇
今天的标题数据由Ajax加载并显示。根据普通URL,无法捕获数据。有必要分析加载地址。让我们以%E6%96%B0%E9%97%BB为例。列表的采集 文章
使用Google Chrome打开链接,右键单击“审阅”,在控制台中切换到网络,然后单击XHR,以便可以过滤不必要的请求(例如图片,文件等),而仅请求查看内容页面
由于页面是由ajax加载的,因此将页面拉到底部,更多文章将自动加载。目前,控制台捕获的链接是指向我们真正需要的列表页面的链接:
在优采云 采集中创建任务
创建后,单击“ 采集设置”,然后在“起始页面URL”中填写上面获取的链接
接下来匹配内容页面的URL,标题中的文章 URL格式为数字/
点击“内容页面网址”以编写“匹配的内容网址”规则:
这是一条常规规则,这意味着将匹配的URL加载到捕获组content1中,然后填写下面的[Content 1](与上面的content1相对应)以获取内容页面链接
您可以单击“测试”以查看链接是否成功爬网
获取成功后,您可以开始获取内容
单击“获取内容”以在字段列表的右侧添加默认字段,例如标题,正文等。可以智能识别,如果需要准确性,则可以自己编辑字段,支持常规,xpath ,json和其他匹配内容
我们需要获取文章的标题和文本。因为它是由Ajax显示的,所以我们需要编写规则以匹配内容。分析文章的源代码:,找到文章的位置
标题规则:articleInfo \ s:\ s {\ stitle:\ s'[Content1]',
正文规则:content \ s:\ s'[content1]',\ s * groupId
该规则必须唯一,否则它将与其他内容匹配。将规则添加到该字段,然后为获取方法选择规则匹配:
编写规则后,单击“保存”,然后单击“测试”以查看其工作原理
规则正确,爬网正常,捕获的数据也可以发布到cms系统,直接存储在数据库中,另存为excel文件等,只需单击“发布设置”即可。底部导航栏,今天好。标题采集在这里,您不妨尝试一下!