采集文章内容(今日头条数据:加载出址分析篇源码(组图))
优采云 发布时间: 2021-09-22 06:11采集文章内容(今日头条数据:加载出址分析篇源码(组图))
今天的标题数据是Ajax加载显示,根据正常的URL无法捕获数据,您需要分析附加加载页面,我们将%E6%96%B0%E9%97%BB作为文章 @ @ / p> @ @ / p>
打开与Google浏览器的链接,右键单击“查看”以切换到网络,然后单击XHR,因此可以过滤图像,文件等。不必要的请求查看页面内容
由于页面已加载,将页面拉到底部,更多文章,这次控制台抓住的链接是我们真正需要列表的列表:
%E6%96%B0%E9%97%BB& autoload = true& count = 20& cur_tab = 1&来自= search_tab
在优采云采集
中创建任务
创建完成的单击“采集设置”,填写上面捕获的链接“开始页面URL”
下一个匹配内容页面URL,标题文章 url格式是数字/
单击“内容页面URL”以写入“匹配内容URL”规则:
(?\ d + /)
这是一个常规规则,意味着将匹配的URL放入Content1,然后填写下面的[内容1],可以获得内容页面到内容页面链接
可以单击测试以查看它是否已成功捕获到链接
疯狂可以开始获得内容
单击右字段中的“get内容”列表可以添加到默认字段,例如标题,正文,因此可以智能识别。对于精度也可以编辑自己的字段,支持常规,XPath,JSON和其他匹配内容
<p>我们需要抓住@ @ @ @ @ @ @ @ @ @正,因为显示了一个ajax,所以写规则匹配内容,分析源代码:,找到文章 location