x车之家的字体反爬虫难度:中等偏上反爬

优采云 发布时间: 2021-03-24 23:29

  x车之家的字体反爬虫难度:中等偏上反爬

  新年过后,让我们更新一下反爬行动物系列

  对于以前的一个朋友,他说1688年是X Bao的反爬行动物

  说实话,阿里的爬行动物非常强大,我为无法应付而感到羞愧。

  例如,如果您登录Xbao,则使用selenium + chrome的朋友会遇到滑块拖动验证失败的情况

  这不会过去。首先,您将检查浏览器DOM的window.webdriver,以确定它是人工工具还是自动工具

  其次,它将检查浏览器的指纹以查看您的特征值,然后使用逻辑回归算法确定它是否是爬虫。

  就目前而言,我要提很多。

  它仍然是先前系列的回顾:

  不要吃生米:反爬行动物系列(一)

  

  不要吃生米:反爬行动物系列(二)

  

  不吃生米:抗爬行动物系列(三)

  

  好的,今天我们要研究xcarzhijia的字体反爬虫

  难度:中等偏上

  反爬升策略:在此之前,用css,::替换html页面,获得的html是源代码,而前端呈现则是您所看到的。因此,在字体的某些关键部分中,获得了一个代码,它具有令人困惑的含义。

  让我给你个栗子:小明有一头驴。

  那里有几个头?这就是这种爬行动物的意思。

  防攀爬策略:解析每个代码的字词就可以了

  好的,让我们开始讨论这个话题。

  要求是我们需要获取汽车的参数配置信息

  进入页面,长酱颜色

  

  

  在页面上看起来还可以,对

  然后看一下html源代码

  没有结构化的东西,同时我发现数据放在js中,这很麻烦

  

  

  请注意我标记的红色框中的内容

  因此,即使您突破了一些常规的反爬虫方法,在获取html之后,我的意思是指在批量获取所有模型的配置html之后。

  解析js,并获取配置信息。

  但是关键位置的字体已被替换,真是一团糟。

  因此,接下来我们需要替换它,并将其改回。

  由于常规的爬行动物是前端爬行动物,因此在阅读时它等同于练习本,答案在练习本的后面。

  这时候,我回到html来找到答案,

  

  

  这只有20多行,请看此段落,我认为这很棘手,对吧?

  让我们取出这个js,格式化它,看起来像这样

  

  

  下一步是耐心地寻找窍门

  完成后,我发现了这样的功能

  

  

  索引和项目有点令人眼花。乱。根据专业习惯,这应该是正确的字体

  让我们搜索InsertRule 关键词,然后找到它

  

  

  添加一个句子console.log($ index $,$ temp $)

  然后将整个js放入chrome,执行并查看

  

  

  这不是出来吗?

  从解析的数据中,根据索引将其替换。

  总体思路是这样的

  我不会提供代码,只是懒惰

  我需要在这里提醒作者

  xcar home,加载的字体是动态的,并且为特定汽车加载的字体是固定的。

  因此,当采集时,请注意不同汽车系列加载的不同字体。

  最后,我个人认为在字体防爬虫方面,xcar的家可以看作是教科书。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线