采集文章内容(今日头条数据:加载出址分析篇源码(组图))

优采云 发布时间: 2021-09-22 06:11

  采集文章内容(今日头条数据:加载出址分析篇源码(组图))

  今天的标题数据是Ajax加载显示,根据正常的URL无法捕获数据,您需要分析附加加载页面,我们将%E6%96%B0%E9%97%BB作为文章 @ @ / p> @ @ / p>

  打开与Google浏览器的链接,右键单击“查看”以切换到网络,然后单击XHR,因此可以过滤图像,文件等。不必要的请求查看页面内容

  

  由于页面已加载,将页面拉到底部,更多文章,这次控制台抓住的链接是我们真正需要列表的列表:

  %E6%96%B0%E9%97%BB& autoload = true& count = 20& cur_tab = 1&来自= search_tab

  在优采云采集

  中创建任务

  

  创建完成的单击“采集设置”,填写上面捕获的链接“开始页面URL”

  

  下一个匹配内容页面URL,标题文章 url格式是数字/

  单击“内容页面URL”以写入“匹配内容URL”规则:

  (?\ d + /)

  这是一个常规规则,意味着将匹配的URL放入Content1,然后填写下面的[内容1],可以获得内容页面到内容页面链接

  

  可以单击测试以查看它是否已成功捕获到链接

  

  疯狂可以开始获得内容

  单击右字段中的“get内容”列表可以添加到默认字段,例如标题,正文,因此可以智能识别。对于精度也可以编辑自己的字段,支持常规,XPath,JSON和其他匹配内容

<p>我们需要抓住@ @ @ @ @ @ @ @ @ @正,因为显示了一个ajax,所以写规则匹配内容,分析源代码:,找到文章 location

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线