文章采集规则端采集分享中介绍的经验分享
优采云 发布时间: 2021-04-17 02:03文章采集规则端采集分享中介绍的经验分享
文章采集规则pc端采集,本例中我们需要将网页直接采集并且内容输出到mongodb中。这个我们放在python分享中介绍。开始之前,我们需要了解一些http协议相关基础。比如,http和https的区别以及一些基本的三元组。下面我们首先实现通过文件上传采集category,但是更重要的是给分享增加可读性和阅读体验。
用网页作为载体,首先要解决的问题是如何上传文件,然后是获取文件的md5值。之前我们发布过一篇相关的文章,请参考一个idebug故障的上传文件的过程:)由于目标网站上传文件的方式太多,我们可以考虑采用url从网页采集或者直接用一个采集工具采集。但是只通过文件上传的话,采集过程比较耗时,性能和用户体验都存在不小的问题。
我们可以将网站地址的源代码保存到mongodb中,将文件上传到网站中,需要下载、上传文件的话用url可以做很好的解决,但是文件上传到用户浏览器中存在代码转换的问题。于是,我们就使用一个工具将网站地址保存到mongodb中。本例需要css和html文件进行测试,所以我们只需要这些测试文件:files=['../jetbrainspython.txt','../css.md','../../../../main.py']html文件需要保存到txt中,其他html文件存放到markdown中,当然如果用[1]中提供的ide也可以自定义转换引擎。
最后,确定我们要采集的文件结构之后,就开始进行尝试,分享我们的上传文件的过程:我们不知道的一些问题:网站地址的http请求有非常多的参数,这些参数如何判断是传输静态页面还是传输json数据等等;带多个web项目的用户体验会不好;和api类似,每个接口都有可能会被判断为“非法”,因此,http请求可能会处于被拒绝和拒绝的状态;ssl协议的不一致,也可能造成数据信息丢失。
因此,我们可以考虑绕过ssl协议的不一致。主要的解决方法包括:使用前端ajax技术;使用jsonp;文件上传服务器在不同的ip地址,如果想要的话可以使用cookie,但是上传的时候,服务器是使用https,所以https地址最好不要使用,否则会报错;抓包时*敏*感*词*ip,再分析https,因为服务器通常同时也在ip上,我们可以先*敏*感*词*整个listwittimages对象的值,这样就获取到了整个页面的全部https链接地址。
importrequestsheaders={'user-agent':'mozilla/5.0(windowsnt10.0;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/68.0.3264.180safari/537.36'}deftest(a,b):url=';city=&name=&c。