网页中flash数据抓取(hexo（）中通过http用户post和爬取的差异)

优采云发布时间: 2021-12-10 18:00

　　网页中flash数据抓取非常少见，一般最多的是网页swf文件通过js获取。高级的是通过服务器检测hosts文件判断爬取的url；或者通过与调用的代理进行http连接实现爬取。一般抓取都会在服务器端实现，部署上需要重置服务器。下面是我们去年在hexo（一个cms）中通过http抓取用户post和put之间的差异情况，用的sina开源的第三方服务。

　　：抓取方法：根据提示开启服务器sendrequest，把根据要抓取的地址写入/#/hexoweb，写入之后使用post方法（multipart/form-data）提交请求。抓取分析：爬取之前看服务器返回情况，看网站的url是不是做了head-request处理，查看协议，看是不是有user-agent处理之类的，网站协议是不是有head-request处理等。

　　抓取流程分析：根据返回的url爬取不同数据，分析不同源url之间的差异然后连接到服务器连接发送给客户端获取。完成之后通过head-request处理返回的数据。爬取效果图：。

　　前面几位朋友提到的方法和教程已经非常详细了，我个人用的selenium也差不多可以实现（可能是有选择性的尝试，不敢保证http方法是唯一的）。但是最后一定要确定iframe里面的内容都是你要抓取的，否则面临封iframe的风险，以及有可能提交不是你想要的数据，例如这一小段，输入一个公司之后提交一个项目，然后要发给全世界的用户抓取，看起来怎么就是不对呢。

　　因此要给我的题目做好足够的限定条件：是我所有的抓取的地址都是request()对象，还是只对其中url进行抓取？简单说每次url变化都要加上另外一个httpheader（），以保证是一样的抓取结果，大概格式如下：af41df337072d64c8a4064b76e50ba63e686810dde5c33cef7a31074cac12如果大家有哪些好方法，欢迎贡献~。

0

2021-12-10

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页中flash数据抓取(hexo（）中通过http用户post和爬取的差异)

0 个评论

发起人