文章自动采集某度网站内容的实现技术都有哪些?

优采云 发布时间: 2022-08-27 09:06

  文章自动采集某度网站内容的实现技术都有哪些?

  文章自动采集某度网站内容(得到某度网站上的某图片),然后合并(得到合并后的图片)。源码在-cc2.html中,获取源码请在某度网站首页的css中获取,此处不多做解释。某度网站使用了百度api,说明图片有在百度购买的专辑版权。然后自动爬取的dom就生成了,用imageloader方法实现。

  

  类似于“天天快报”的实现技术都有哪些?-it外包(si-xiao)-知乎专栏

  如果你们公司所提供的前端接口是类似于"天天快报"这样的接口,那么你可以直接抓取服务端返回的图片地址,再请求服务端,最后整合到ajax中。但是这种技术现在还不是特别成熟,很多信息不对称。

  

  目前在招前端,正在面试。上来说下我的想法。我们的url就是一个http的请求首先是得到后端返回的api的地址然后根据api的地址,比如curl请求内容如下api.image=getjson("./testdata.jpg")如果是要把xss执行,那么就要请求api.image=getjson("./testdata.xss")好了,接下来到网页上检测一下哪个是最后的路径。

  如果是http请求的话,都是1个几秒到几十秒的时间。有时候我感觉可以直接拿客户端返回的数据。我现在这个思想还存在问题。就是如果我直接在页面上执行一段代码呢?比如nginx的url如果返回的内容是json的话,我直接把json数据就上传到一个内存的缓存池里,数据永久保存。那么以后的所有请求都是从缓存里取数据还可以实现反爬虫针对一个页面向多个服务器反爬虫,所以先想了一个思路。

  就是爬取接口的数据。可以复制curl调用数据。比如我有一段php代码。首先登录到某某图片站然后上传一张图片,这时候就可以知道是get请求,返回数据。图片的数据很重要,不然整个爬虫都乱套,可能一次就被反爬虫抓了。于是我最后想到是否可以像外包之类的,设计这样一套程序爬图片。同时也让整个爬虫不乱。当然了,只是因为我对爬虫的一些想法,现在仅仅提供一个思路。现实存在很多其他问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线