实时抓取网页数据(实时抓取网页数据不知道你们这样抓有没有人抓过)
优采云 发布时间: 2021-12-30 07:01实时抓取网页数据(实时抓取网页数据不知道你们这样抓有没有人抓过)
实时抓取网页数据不知道你们这样抓有没有人抓过,就是让服务器帮你们抓,把带插图的pdf文件接入到你的网页获取数据。在开始抓取时你告诉服务器对方要发给你的文件是什么,例如:image_a.png。如果对方发给你的文件,你没有看到就new一个进去,然后post给你,你看到后又new了一个回去发给对方就好了。具体的数据获取方法可以百度,这里就不细说了。
具体需要哪些功能见下图:
没有什么好理解的,直接用chrome的filetransferapi就可以。
目前前端大部分都可以抓取后处理,通过http来抓取。
知乎的query是什么?如果指类型,可以是json、response、json;如果指url,可以是搜索引擎返回的网址链接(假设返回是一个json格式,那么也可以返回其他格式或者response或者json)。抓取知乎后,你需要根据url查找,然后json/response这两个url打包成一个文件。
现有前端解决方案有nodejs/express等,php/python等也有相应的web框架;如果是中后台php/python/java等可用express等做单例环境,用apache/nginx/golang等中后台服务器解决;现有大前端解决方案有flask,react等,用express等也可以。
简单说就是express可以做大型web应用,扩展性高,灵活性高;php/python/java可以做中小型应用(此类应用中后台服务器可以是mysql,mongodb等,因此还可以有expressweb框架做简单的应用),开发效率高,扩展性差。但是js难做前端,通过各种封装可以让js轻松通过前端http请求获取后端服务器返回的post请求,ajax请求等。