文章采集规则端采集分享中介绍的经验分享

优采云发布时间: 2021-04-17 02:03

　　文章采集规则端采集分享中介绍的经验分享

　　文章采集规则pc端采集，本例中我们需要将网页直接采集并且内容输出到mongodb中。这个我们放在python分享中介绍。开始之前，我们需要了解一些http协议相关基础。比如，http和https的区别以及一些基本的三元组。下面我们首先实现通过文件上传采集category，但是更重要的是给分享增加可读性和阅读体验。

　　用网页作为载体，首先要解决的问题是如何上传文件，然后是获取文件的md5值。之前我们发布过一篇相关的文章，请参考一个idebug故障的上传文件的过程:)由于目标网站上传文件的方式太多，我们可以考虑采用url从网页采集或者直接用一个采集工具采集。但是只通过文件上传的话，采集过程比较耗时，性能和用户体验都存在不小的问题。

　　我们可以将网站地址的源代码保存到mongodb中，将文件上传到网站中，需要下载、上传文件的话用url可以做很好的解决，但是文件上传到用户浏览器中存在代码转换的问题。于是，我们就使用一个工具将网站地址保存到mongodb中。本例需要css和html文件进行测试，所以我们只需要这些测试文件：files=['../jetbrainspython.txt','../css.md','../../../../main.py']html文件需要保存到txt中，其他html文件存放到markdown中，当然如果用[1]中提供的ide也可以自定义转换引擎。

　　最后，确定我们要采集的文件结构之后，就开始进行尝试，分享我们的上传文件的过程：我们不知道的一些问题：网站地址的http请求有非常多的参数，这些参数如何判断是传输静态页面还是传输json数据等等；带多个web项目的用户体验会不好；和api类似，每个接口都有可能会被判断为“非法”，因此，http请求可能会处于被拒绝和拒绝的状态；ssl协议的不一致，也可能造成数据信息丢失。

　　因此，我们可以考虑绕过ssl协议的不一致。主要的解决方法包括：使用前端ajax技术；使用jsonp；文件上传服务器在不同的ip地址，如果想要的话可以使用cookie，但是上传的时候，服务器是使用https，所以https地址最好不要使用，否则会报错；抓包时*敏*感*词*ip，再分析https，因为服务器通常同时也在ip上，我们可以先*敏*感*词*整个listwittimages对象的值，这样就获取到了整个页面的全部https链接地址。

　　importrequestsheaders={'user-agent':'mozilla/5.0(windowsnt10.0;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/68.0.3264.180safari/537.36'}deftest(a,b):url=';city=&name=&c。

0

2021-04-17

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则端采集分享中介绍的经验分享

0 个评论

发起人

AI时代内容工厂

文章采集规则端采集分享中介绍的经验分享

0 个评论

发起人

相关问题