c爬虫抓取网页数据(Content-Type:翻页、限制怎么处理?多级分类数据)

优采云 发布时间: 2021-11-20 16:24

  c爬虫抓取网页数据(Content-Type:翻页、限制怎么处理?多级分类数据)

  内容类型:多部分/表单数据;边界=----WebKitFormBoundaryA

  ------WebKitFormBoundaryA

  内容配置:表单数据;

  标题

  ------WebKitFormBoundaryA

  内容配置:表单数据;;文件名=“铬.png”

  内容类型:图像/png

  二进制文件内容...

  ------WebKitFormBoundaryA--

  以上部分是发送格式,WebKitFormBoundaryA 可以使用任何内容,只要是这种格式即可。常见的内容类型是 application/x-www-form-urlencoded、application/json、text/xml。

  16、如何处理翻页限制?

  很多多级分类数据都有翻页限制,分类只显示前几页。在这种情况下,您可以使用这种网站 过滤功能,例如按时间顺序、大小和排序来扩展页面内容。如果有子类,继续获取子类。如果有多个选项,可以通过排列组合,得到尽可能多的选项。

  17、 海量网址重复重复怎么办?

  如果数据量不大,可以md5 URL,然后用hash进行比较。如果是大量的URL重复,可以使用Bloom filter算法BloomFilter。

  18、如何提高爬行速度

  1)使用gzip/deflate压缩,一般可以压缩到原来大小的20%左右。一般情况下,服务器不会给你发送压缩数据,你需要发送 Accept-encoding 头。

  2) 要使用链接池,需要在C#请求时将keep-alive设置为true。

  3) 设置超时,果断关闭一直无响应的请求。

  19、抓取收录特定关键词的网页

  使用站点搜索,搜索引擎站点,下载所有

  20、CSS/HTML 混淆干扰受限数据获取

  常见的此类防攀爬方法有

  1)用图片替换一些文字

  2)使用自定义字体

  3)伪元素隐藏

  4) 元素位置关闭

  其中,第一种情况,可以找到图片对应的文字,全部找到后替换。二是找到ttf字体文件地址并下载,然后找到代码和文字的对应关系并替换。三是查找class对应的文本内容进行替换。第四类涉及计算。如果觉得麻烦,也可以截图来识别。

  21、 数据抓取过程中发现电信劫持,导致数据错误怎么办?

  通过电话向电信运营商投诉,您可以通过电话或工业和信息化部进行投诉。

  有时计算机中的病毒也有这种劫持,属于黑产方面。

  22、关于eval(function(p,a,c,k,e,d)加密

  这是一种经典的数据加密方式,网上已经有了在线的加解密方式。在本地运行时,需要使用JS引擎执行js才能得到结果。

  23、PKI证书验证如何处理网站?

  PKI证书一般用于登录时请求并上传证书到特定地址进行验证,验证后生成带参数的URL返回网站,生成cookie完成身份验证。也有实现验证的插件,比如吉大正元。

  24、HtmlAgilityPack 解析网页时要注意什么

  在很久以前的版本中,HtmlAgilityPack 有一个溢出漏洞,即节点分析会陷入死循环。新版本解决了这个问题,请使用最新版本。使用 HtmlAgilityPack 解析网页时,需要注意它可能会因为页面错误而无法解析。可以先用replacement等方法对源码进行处理,再进行分析。

  25、 除了fiddler还有哪些抓包工具?

  1)微软网络监视器

  2)Wireshark

  3)Anyproxy

  26、 抓到的数据不全怎么办?

  有些网站只会对外展示部分数据,或者只展示部分用户的全部数据。在这种情况下,观察能力就是一种考验。比如很久以前同城的网站的*敏*感*词*只显示了前7位,而在另一个地方却显示了后4位,所以抓起来加起来就行了。还有一些网站,使用json调用api。一看就知道程序员用的是select *。返回的数据收录了所有相关和不相关的数据,相当于一个明显的漏洞。有时候也可以用不完整的资料,然后去网站搜索一下,说不定会有新的发现。

  27、网站 CDN反爬虫如何处理?

  网站使用cdn技术可以提高访问速度和安全性,并提供更高的反爬虫能力。但是有的网站会暴露真实的服务器地址,无法确定CDN的来源,导致假CDN服务器能够持续抓取数据。同时,大部分CDN服务器没有反爬虫联动,导致CDN服务器增多,相当于为爬虫提供了更多的代理服务器。

  28、使用Xpath获取网页元素需要注意什么?

  浏览器渲染后,再用xpath提取Dom元素,然后取值,是一种可以忽略渲染过程,实时获取最新数据的方法。设置xpath抽取规则时,要善于使用绝对相对、收录、或、等符号,尽快定位元素。如果最终元素符号不确定,则可以使用父定位。尽可能使用@id 作为唯一标识符。

  29、遇到网站中毒怎么办?

  当遇到目标网站时,检测到一个爬虫,给出错误的数据,因为无法直接判断数据的准确性,最终的结果只能通过多种或多种形式的爬取来获得。通过比较,如果多次正确,就可以认为是正确的数据。这种思维可以用在类似的情况下。比如使用下载软件下载资源时,经常会出现无法下载的情况。如果同时搜索一个资源的多个下载链接并同时下载,可以快速过滤掉可下载的。

  30、待续。. . 对于新问题,您可以发送电子邮件至

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线