c爬虫抓取网页数据(Content-Type:翻页、限制怎么处理？多级分类数据)

优采云发布时间: 2021-11-20 16:24

　　内容类型：多部分/表单数据；边界=----WebKitFormBoundaryA

　　------WebKitFormBoundaryA

　　内容配置：表单数据；

　　标题

　　------WebKitFormBoundaryA

　　内容配置：表单数据；；文件名=“铬.png”

　　内容类型：图像/png

　　二进制文件内容...

　　------WebKitFormBoundaryA--

　　以上部分是发送格式，WebKitFormBoundaryA 可以使用任何内容，只要是这种格式即可。常见的内容类型是 application/x-www-form-urlencoded、application/json、text/xml。

　　16、如何处理翻页限制？

　　很多多级分类数据都有翻页限制，分类只显示前几页。在这种情况下，您可以使用这种网站过滤功能，例如按时间顺序、大小和排序来扩展页面内容。如果有子类，继续获取子类。如果有多个选项，可以通过排列组合，得到尽可能多的选项。

　　17、海量网址重复重复怎么办？

　　如果数据量不大，可以md5 URL，然后用hash进行比较。如果是大量的URL重复，可以使用Bloom filter算法BloomFilter。

　　18、如何提高爬行速度

　　1）使用gzip/deflate压缩，一般可以压缩到原来大小的20%左右。一般情况下，服务器不会给你发送压缩数据，你需要发送 Accept-encoding 头。

　　2）要使用链接池，需要在C#请求时将keep-alive设置为true。

　　3）设置超时，果断关闭一直无响应的请求。

　　19、抓取收录特定关键词的网页

　　使用站点搜索，搜索引擎站点，下载所有

　　20、CSS/HTML 混淆干扰受限数据获取

　　常见的此类防攀爬方法有

　　1）用图片替换一些文字

　　2）使用自定义字体

　　3）伪元素隐藏

　　4）元素位置关闭

　　其中，第一种情况，可以找到图片对应的文字，全部找到后替换。二是找到ttf字体文件地址并下载，然后找到代码和文字的对应关系并替换。三是查找class对应的文本内容进行替换。第四类涉及计算。如果觉得麻烦，也可以截图来识别。

　　21、数据抓取过程中发现电信劫持，导致数据错误怎么办？

　　通过电话向电信运营商投诉，您可以通过电话或工业和信息化部进行投诉。

　　有时计算机中的病毒也有这种劫持，属于黑产方面。

　　22、关于eval(function(p,a,c,k,e,d)加密

　　这是一种经典的数据加密方式，网上已经有了在线的加解密方式。在本地运行时，需要使用JS引擎执行js才能得到结果。

　　23、PKI证书验证如何处理网站？

　　PKI证书一般用于登录时请求并上传证书到特定地址进行验证，验证后生成带参数的URL返回网站，生成cookie完成身份验证。也有实现验证的插件，比如吉大正元。

　　24、HtmlAgilityPack 解析网页时要注意什么

　　在很久以前的版本中，HtmlAgilityPack 有一个溢出漏洞，即节点分析会陷入死循环。新版本解决了这个问题，请使用最新版本。使用 HtmlAgilityPack 解析网页时，需要注意它可能会因为页面错误而无法解析。可以先用replacement等方法对源码进行处理，再进行分析。

　　25、除了fiddler还有哪些抓包工具？

　　1）微软网络监视器

　　2）Wireshark

　　3）Anyproxy

　　26、抓到的数据不全怎么办？

　　有些网站只会对外展示部分数据，或者只展示部分用户的全部数据。在这种情况下，观察能力就是一种考验。比如很久以前同城的网站的*敏*感*词*只显示了前7位，而在另一个地方却显示了后4位，所以抓起来加起来就行了。还有一些网站，使用json调用api。一看就知道程序员用的是select *。返回的数据收录了所有相关和不相关的数据，相当于一个明显的漏洞。有时候也可以用不完整的资料，然后去网站搜索一下，说不定会有新的发现。

　　27、网站 CDN反爬虫如何处理？

　　网站使用cdn技术可以提高访问速度和安全性，并提供更高的反爬虫能力。但是有的网站会暴露真实的服务器地址，无法确定CDN的来源，导致假CDN服务器能够持续抓取数据。同时，大部分CDN服务器没有反爬虫联动，导致CDN服务器增多，相当于为爬虫提供了更多的代理服务器。

　　28、使用Xpath获取网页元素需要注意什么？

　　浏览器渲染后，再用xpath提取Dom元素，然后取值，是一种可以忽略渲染过程，实时获取最新数据的方法。设置xpath抽取规则时，要善于使用绝对相对、收录、或、等符号，尽快定位元素。如果最终元素符号不确定，则可以使用父定位。尽可能使用@id 作为唯一标识符。

　　29、遇到网站中毒怎么办？

　　当遇到目标网站时，检测到一个爬虫，给出错误的数据，因为无法直接判断数据的准确性，最终的结果只能通过多种或多种形式的爬取来获得。通过比较，如果多次正确，就可以认为是正确的数据。这种思维可以用在类似的情况下。比如使用下载软件下载资源时，经常会出现无法下载的情况。如果同时搜索一个资源的多个下载链接并同时下载，可以快速过滤掉可下载的。

　　30、待续。. . 对于新问题，您可以发送电子邮件至

0

2021-11-20

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(Content-Type:翻页、限制怎么处理？多级分类数据)

0 个评论

发起人