x车之家的字体反爬虫难度：中等偏上反爬

优采云发布时间: 2021-03-24 23:29

　　x车之家的字体反爬虫难度：中等偏上反爬

　　新年过后，让我们更新一下反爬行动物系列

　　对于以前的一个朋友，他说1688年是X Bao的反爬行动物

　　说实话，阿里的爬行动物非常强大，我为无法应付而感到羞愧。

　　例如，如果您登录Xbao，则使用selenium + chrome的朋友会遇到滑块拖动验证失败的情况

　　这不会过去。首先，您将检查浏览器DOM的window.webdriver，以确定它是人工工具还是自动工具

　　其次，它将检查浏览器的指纹以查看您的特征值，然后使用逻辑回归算法确定它是否是爬虫。

　　就目前而言，我要提很多。

　　它仍然是先前系列的回顾：

　　不要吃生米：反爬行动物系列（一）

　　不要吃生米：反爬行动物系列（二)

　　不吃生米：抗爬行动物系列（三)

　　好的，今天我们要研究xcarzhijia的字体反爬虫

　　难度：中等偏上

　　反爬升策略：在此之前，用css，::替换html页面，获得的html是源代码，而前端呈现则是您所看到的。因此，在字体的某些关键部分中，获得了一个代码，它具有令人困惑的含义。

　　让我给你个栗子：小明有一头驴。

　　那里有几个头？这就是这种爬行动物的意思。

　　防攀爬策略：解析每个代码的字词就可以了

　　好的，让我们开始讨论这个话题。

　　要求是我们需要获取汽车的参数配置信息

　　进入页面，长酱颜色

　　在页面上看起来还可以，对

　　然后看一下html源代码

　　没有结构化的东西，同时我发现数据放在js中，这很麻烦

　　请注意我标记的红色框中的内容

　　因此，即使您突破了一些常规的反爬虫方法，在获取html之后，我的意思是指在批量获取所有模型的配置html之后。

　　解析js，并获取配置信息。

　　但是关键位置的字体已被替换，真是一团糟。

　　因此，接下来我们需要替换它，并将其改回。

　　由于常规的爬行动物是前端爬行动物，因此在阅读时它等同于练习本，答案在练习本的后面。

　　这时候，我回到html来找到答案，

　　这只有20多行，请看此段落，我认为这很棘手，对吧？

　　让我们取出这个js，格式化它，看起来像这样

　　下一步是耐心地寻找窍门

　　完成后，我发现了这样的功能

　　索引和项目有点令人眼花。乱。根据专业习惯，这应该是正确的字体

　　让我们搜索InsertRule 关键词，然后找到它

　　添加一个句子console.log（$ index $，$ temp $）

　　然后将整个js放入chrome，执行并查看

　　这不是出来吗？

　　从解析的数据中，根据索引将其替换。

　　总体思路是这样的

　　我不会提供代码，只是懒惰

　　我需要在这里提醒作者

　　xcar home，加载的字体是动态的，并且为特定汽车加载的字体是固定的。

　　因此，当采集时，请注意不同汽车系列加载的不同字体。

　　最后，我个人认为在字体防爬虫方面，xcar的家可以看作是教科书。

0

2021-03-24

关键词文章采集源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

x车之家的字体反爬虫难度：中等偏上反爬

0 个评论

发起人