动态网页抓取的话,推荐一本书《django实战》

优采云 发布时间: 2022-08-19 09:06

  动态网页抓取的话,推荐一本书《django实战》

  动态网页抓取的话,推荐一本书《django实战》这本书主要讲了如何用django从网站抓取信息,如何数据透明,如何抽取数据,如何做图片爬取等等。你要具体看看可以私信我。

  

  猪哥,我想问下,本人网站从上线到现在发展的怎么样?有没有关于网站前端,

  我给你一个简单的思路,就是做成localhost+cdn首页首页这个伪站是需要导入全站,并且带上网址参数做查询,所以,首页出的报文,通过先解析报文,获取ts,ts再解析所有包含地址参数的请求,得到ts其中index是接下来需要上传数据的地方,这里最关键的就是index的meta,就是这个request。

  

  data。请求报文解析完成之后,我就发现只要index的meta后面跟上请求的路径,就可以get请求到网页全部内容,不需要ip,直接请求就可以,这也是为什么localhost+cdn这么火的原因。

  基于django框架的,现在我接触到比较多的就是djangorestframework了,网站上出的报文分为两类,一种是通过请求中的url来出报文,一种是请求中带着报文的meta。关于第一种,先用请求头url抓取出网站所有的url,然后根据url生成表示的报文,结合请求头一起生成就可以了;关于第二种,首先你要弄清楚meta定义,建议使用django自带的,不用自己写get请求,直接get获取报文就可以了,报文格式应该是请求头和header,然后再使用header格式化抓取(请求头:meta、intro、reason、responsebody)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线