x车之家的字体反爬虫难度:中等偏上反爬
优采云 发布时间: 2021-03-24 23:29x车之家的字体反爬虫难度:中等偏上反爬
新年过后,让我们更新一下反爬行动物系列
对于以前的一个朋友,他说1688年是X Bao的反爬行动物
说实话,阿里的爬行动物非常强大,我为无法应付而感到羞愧。
例如,如果您登录Xbao,则使用selenium + chrome的朋友会遇到滑块拖动验证失败的情况
这不会过去。首先,您将检查浏览器DOM的window.webdriver,以确定它是人工工具还是自动工具
其次,它将检查浏览器的指纹以查看您的特征值,然后使用逻辑回归算法确定它是否是爬虫。
就目前而言,我要提很多。
它仍然是先前系列的回顾:
不要吃生米:反爬行动物系列(一)
不要吃生米:反爬行动物系列(二)
不吃生米:抗爬行动物系列(三)
好的,今天我们要研究xcarzhijia的字体反爬虫
难度:中等偏上
反爬升策略:在此之前,用css,::替换html页面,获得的html是源代码,而前端呈现则是您所看到的。因此,在字体的某些关键部分中,获得了一个代码,它具有令人困惑的含义。
让我给你个栗子:小明有一头驴。
那里有几个头?这就是这种爬行动物的意思。
防攀爬策略:解析每个代码的字词就可以了
好的,让我们开始讨论这个话题。
要求是我们需要获取汽车的参数配置信息
进入页面,长酱颜色
在页面上看起来还可以,对
然后看一下html源代码
没有结构化的东西,同时我发现数据放在js中,这很麻烦
请注意我标记的红色框中的内容
因此,即使您突破了一些常规的反爬虫方法,在获取html之后,我的意思是指在批量获取所有模型的配置html之后。
解析js,并获取配置信息。
但是关键位置的字体已被替换,真是一团糟。
因此,接下来我们需要替换它,并将其改回。
由于常规的爬行动物是前端爬行动物,因此在阅读时它等同于练习本,答案在练习本的后面。
这时候,我回到html来找到答案,
这只有20多行,请看此段落,我认为这很棘手,对吧?
让我们取出这个js,格式化它,看起来像这样
下一步是耐心地寻找窍门
完成后,我发现了这样的功能
索引和项目有点令人眼花。乱。根据专业习惯,这应该是正确的字体
让我们搜索InsertRule 关键词,然后找到它
添加一个句子console.log($ index $,$ temp $)
然后将整个js放入chrome,执行并查看
这不是出来吗?
从解析的数据中,根据索引将其替换。
总体思路是这样的
我不会提供代码,只是懒惰
我需要在这里提醒作者
xcar home,加载的字体是动态的,并且为特定汽车加载的字体是固定的。
因此,当采集时,请注意不同汽车系列加载的不同字体。
最后,我个人认为在字体防爬虫方面,xcar的家可以看作是教科书。