无规则采集器列表算法(如何使用优采云采集器采集ajax网站中的URL不变?)

优采云 发布时间: 2021-10-15 23:06

  无规则采集器列表算法(如何使用优采云采集器采集ajax网站中的URL不变?)

  关于使用优采云采集器采集ajax分页网站

  我经常遇到很难找到的 采集 来源。写规则的时候发现马野没有页码,只好作罢。那么今天,就来解决这个我们一直后悔的小问题。

  下图网站就是一个例子,一个典型的页面没有正常翻页但是内容让人想成为自己的采集对象。

  

  ----------------------------------------------- ---------关键分割线------------------------------ --------------

  其实这种网站的分页方式一般都用到了ajax或者.NET的一些技术。当您请求新内容时,页面只是部分刷新,地址栏中的 URL 保持不变。

  我们经常使用的多级URL 采集 规则有点。对于这种使用ajax请求分页的网站,我们在编写分页规则时需要使用ASPX POST请求方式。 :

  

  

  

  该获取方式会抓取当前页面的所有链接,测试结果如下:

  

  有些页面不是我们需要的内容页面,需要过滤,返回修改设置

  

  在此填写文章内容页面的共同特征,如.html。这里的特征是开头,所以填写后的测试结果是这样的

  

  标题

  就这样吧

  (以上方法只能解决大部分页面URL没有变化的情况,如有不足和不足欢迎大家改进)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线