网站内容抓取(腾讯云微爬虫器(webopenspider)网站内容抓取服务介绍)
优采云 发布时间: 2022-03-19 16:03网站内容抓取(腾讯云微爬虫器(webopenspider)网站内容抓取服务介绍)
网站内容抓取服务:qspp30/小时爬虫压力:小线程容量:1mb线上服务器配置:4核8g25线程总代价:4wqspp线上部署方式:联合存储库+cdn抓取逻辑:只抓出关键字作为索引,把每个关键字从待抓取库爬取到本地实验环境:部署在线上开发环境ip:qspp是腾讯云推出的微爬虫器(webopenspider)。
它将互联网每个网站的内容(微小的网页)直接摘录至服务器,完成网站内容抓取,并根据抓取结果导出。qspp提供了一套完整的微爬虫算法,无需下载对应网站数据库,无需用户指定爬取内容的目标站点。可以用网页数据字典定位目标站点(ip地址),也可以把整个网页数据反爬取。qspp可以爬取互联网上任意网站的内容,包括新闻网站、移动网站、人工智能等。
例如上线前把网站抓取到本地,然后压缩,分析数据结构和算法,存储至sds库中,甚至可以再运行腾讯云的离线模拟器。一台qspp爬虫就可以同时发布了。抓取中可能遇到的常见问题如下:爬取速度太慢通常情况下爬取速度慢主要是因为qspp只使用静态页面抓取,访问一个页面速度上会慢很多,可以考虑使用get请求。应用数据不同寻常,实验环境尽量做好备份。
mongodb的实验环境一般需要自己手动去备份数据库,很多场景下不一定需要mongodb。sds库太大,接入采集有可能会碰到数据不一致的情况,另外post的传输效率也是一个问题。基于的协议不同,可能爬取到的内容也不一样,例如中国xxx网是https,抓取到的内容就是https的,抓取到的内容也可能有可能不一样。
发布工具不同,爬取不同内容另外,qspp是基于腾讯云的微爬虫服务,需要使用腾讯云的sds库。任何第三方工具只能接入sds库,接入腾讯云的网站,例如小程序数据,小程序会自动扫描微信网页,找到小程序相关的资源。原生js和css代码不一致,有可能同一个html文件被多个页面爬取互不兼容。代码规范不同,爬取方式不同sds提供了很多的接口,接入的速度,sds更新包等,都有很大区别。
例如,sds到每个页面,全是文本模式,复制文本会失败等等。总体上来说,代码规范还是比较重要的。比如一个爬虫测试,应该考虑到资源和代码整合,基于不同的协议的场景,做出不同的规范,提升代码的规范度。确定发布方式qspp提供不同的服务器端托管方式。部署在线上开发环境ip:服务器部署采用configure-server+mysql部署方式,完全屏蔽ip查询,极大的提高了爬虫的运行效率。
qspp线上部署方式:联合存储库+cdn+压缩发布基于线上的服务器,将以ip为路由匹配,完成服务器端的内容抓。