实时抓取网页数据(实时抓取网页数据不知道你们这样抓有没有人抓过)

优采云发布时间: 2021-12-30 07:01

　　实时抓取网页数据不知道你们这样抓有没有人抓过，就是让服务器帮你们抓，把带插图的pdf文件接入到你的网页获取数据。在开始抓取时你告诉服务器对方要发给你的文件是什么，例如：image_a.png。如果对方发给你的文件，你没有看到就new一个进去，然后post给你，你看到后又new了一个回去发给对方就好了。具体的数据获取方法可以百度，这里就不细说了。

　　具体需要哪些功能见下图：

　　没有什么好理解的，直接用chrome的filetransferapi就可以。

　　目前前端大部分都可以抓取后处理，通过http来抓取。

　　知乎的query是什么？如果指类型，可以是json、response、json；如果指url，可以是搜索引擎返回的网址链接（假设返回是一个json格式，那么也可以返回其他格式或者response或者json）。抓取知乎后，你需要根据url查找，然后json/response这两个url打包成一个文件。

　　现有前端解决方案有nodejs/express等，php/python等也有相应的web框架；如果是中后台php/python/java等可用express等做单例环境，用apache/nginx/golang等中后台服务器解决；现有大前端解决方案有flask,react等，用express等也可以。

　　简单说就是express可以做大型web应用，扩展性高，灵活性高；php/python/java可以做中小型应用（此类应用中后台服务器可以是mysql，mongodb等，因此还可以有expressweb框架做简单的应用），开发效率高，扩展性差。但是js难做前端，通过各种封装可以让js轻松通过前端http请求获取后端服务器返回的post请求，ajax请求等。

0

2021-12-30

实时抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

实时抓取网页数据(实时抓取网页数据不知道你们这样抓有没有人抓过)

0 个评论

发起人