网页抓取 加密html(网页当中使用的是什么是字体加密的例子??)

优采云 发布时间: 2021-11-06 05:01

  网页抓取 加密html(网页当中使用的是什么是字体加密的例子??)

  一、什么是字体加密

  先说字体加密。【仅代表个人观点,如有不对请指正】

  从爬虫的角度来看,它是一种很好的“正经”(常用字体,系统可以识别的)字体。如果你不使用通常的方式,在外面使用一些“不严肃”的字体,为我们的爬虫增加障碍并改进爬虫。难易程度。嗯,它实际上是反攀登的。给一个[栗子],是的,就是这样。我们人可以理解,给[栗子]就是举个例子,但计算机无法识别它们。不知道怎么给[栗子] == 比如你认不出来就是乱码。

  从网页设计的角度来说,就是在css中引入外部字体。至于有什么用,我不太了解。我对前端设计了解不多。可能是因为它看起来不错,可以爬回来。

  好吧,我们举个正经的例子:下面红框是字体加密。

  

  二、破解字体加密

  刷新后可以看到,每次刷新后,相同字体的输出码会有所不同。这是因为每次刷新,字体都会重新映射,导致我们每次打开网页库都要下载字体,然后重新匹配。

  破解思路,先搞清楚网页用的是什么字体,把对应的字体库下载到本地,然后手动创建模板【能不能直接匹配系统字体库,以后想想,现有的知识不能待解决】访问页面,获取字库路径下载到本地,对新获取的字库字符与模板中的字符进行匹配计算,找出两个字库的映射关系【例如一个栗子,演员王舞,今天演张三,昨天演李斯,然后给你一张照片(特写),让你发现演员是王舞]找到映射关系后,直接将映射的字符替换成网页文本,然后爬取1、首先找出网页中使用的字体

  

  从源码中可以看到,这些字体的class是stonefont,在右边的框中可以看到font-family:stonefont。应该可以得出结论,使用的字体应该与stonefont这个词有关。直接在源代码中搜索这个词。可以在标签中找到

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线