网页中flash数据抓取(hexo()中通过http用户post和爬取的差异)

优采云 发布时间: 2021-12-10 18:00

  网页中flash数据抓取(hexo()中通过http用户post和爬取的差异)

  网页中flash数据抓取非常少见,一般最多的是网页swf文件通过js获取。高级的是通过服务器检测hosts文件判断爬取的url;或者通过与调用的代理进行http连接实现爬取。一般抓取都会在服务器端实现,部署上需要重置服务器。下面是我们去年在hexo(一个cms)中通过http抓取用户post和put之间的差异情况,用的sina开源的第三方服务。

  :抓取方法:根据提示开启服务器sendrequest,把根据要抓取的地址写入/#/hexoweb,写入之后使用post方法(multipart/form-data)提交请求。抓取分析:爬取之前看服务器返回情况,看网站的url是不是做了head-request处理,查看协议,看是不是有user-agent处理之类的,网站协议是不是有head-request处理等。

  抓取流程分析:根据返回的url爬取不同数据,分析不同源url之间的差异然后连接到服务器连接发送给客户端获取。完成之后通过head-request处理返回的数据。爬取效果图:。

  前面几位朋友提到的方法和教程已经非常详细了,我个人用的selenium也差不多可以实现(可能是有选择性的尝试,不敢保证http方法是唯一的)。但是最后一定要确定iframe里面的内容都是你要抓取的,否则面临封iframe的风险,以及有可能提交不是你想要的数据,例如这一小段,输入一个公司之后提交一个项目,然后要发给全世界的用户抓取,看起来怎么就是不对呢。

  因此要给我的题目做好足够的限定条件:是我所有的抓取的地址都是request()对象,还是只对其中url进行抓取?简单说每次url变化都要加上另外一个httpheader(),以保证是一样的抓取结果,大概格式如下:af41df337072d64c8a4064b76e50ba63e686810dde5c33cef7a31074cac12如果大家有哪些好方法,欢迎贡献~。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线