采集工具免责说明(就是如何让优采云获取到这个源码?(附教程))
优采云 发布时间: 2021-10-05 10:18采集工具免责说明(就是如何让优采云获取到这个源码?(附教程))
首先,最好的方案当然是使用新版优采云采集器V9。当然,有些功能需要付费才能使用,而且成本昂贵。那么还有其他方法吗?
答案也在那里。经过测试,发现优采云7.版本6只是无法完成对此类网页的请求响应,但是如果可以正常获取网页数据,后续的数据处理可以使用。那么我们需要解决的是如何获取优采云来获取这个源码。
我们可以在本地搭建一个简单的http服务,用这个服务请求源码,然后用优采云来请求这个简单的http。原理是在优采云和目标页面之间增加一层传输,解决优采云不能直接请求源码的问题。
我把这个过程写成了一个软件,你可以直接下载打开使用。
使用该软件的优点和缺点:
先说缺点吧
1、要求软件在采集数据时保持运行,实现请求的传递
2、写采集规则时,需要在URL前面加上简单的http服务前缀“127.0.0.1:8000?url=" . 当然,这是在采集中的规则可以很容易地通过内容替换功能过滤掉
说一下优点:
1、解决优采云7.版本6的部分https站点无法采集的问题
2、可以通过修改源码,在简单的http请求中手动添加一些特殊的头信息。这些功能在7.6版本中不可用,但在v9版本中存在。所以用这个软件来实现一些只有v9版本才有的功能
使用说明
1.首先双击打开locoy-https.exe,使用时不要关闭软件
2.制作采集规则,在起始URL输入:8000/?url=你想要的URL 采集,其他部分与普通规则定制相同
使用前后效果对比
可能有人会问,这样设置后采集的效率会不会变慢。一般来说,软件启动本地http服务。优采云 请求这个本地http服务是很快的,所以不会有明显的影响
下载链接
代码仓库,期待star:
软件下载地址: