关于使用优采云采集器采集页面URL不会更改网站

优采云 发布时间: 2020-08-08 00:37

  关于使用优采云采集器采集Ajax分页网站

  我经常遇到很难找到的采集资源,它们非常好. 当我编写规则时,我发现马野没有页面,不得不放弃. 所以今天,让我们解决这个我们总是后悔的小问题.

  以下面的网站为例,一个典型的页面不能很好地翻页,但是其内容使人们希望成为自己的采集对象.

  

  --------------------------------------------------- ---------键分界线-------------------------------------- --------------

  实际上,这种网站的分页方法通常使用ajax或.NET中的某些技术. 当您请求新内容时,页面只会部分刷新,并且地址栏中的URL保持不变.

  我们经常使用一些多级URL采集规则. 对于使用ajax请求分页的此类网站,我们在编写分页规则时需要使用ASPX POST请求方法:

  

  

  

  这种获取方法将获取当前页面上的所有链接,测试结果如下:

  

  某些页面不是我们所需的文章内容页面,因此我们需要过滤并返回以修改设置

  

  在此处填写文章内容页面的常见功能,例如.html. 这里的功能是一开始的,所以填写后的测试结果就是这样

  

  标题

  就这样,就这样

  (以上方法只能解决大多数页面URL不变的情况,如果有缺陷和不足之处,欢迎您改进)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线