丰富的采集神器--mattecapto先传一下我自己
优采云 发布时间: 2022-07-21 21:02丰富的采集神器--mattecapto先传一下我自己
丰富的采集神器--mattecapto先传一下我自己的采集记录:上图有3个目录:
1、marshalgod.py
2、pptmars
3、shape.txt===
1、mars网页采集github地址:tejier/mars
2、pptmars网页采集github地址:(如果不想跟上一篇重复,请复制本文首尾两段,去浏览器github官网)重复上篇文章,
1)打开浏览器(例如windows下的chrome、迅雷或电脑浏览器),
2)再用记事本,ctrl+v,粘贴上文所有的网页,就会打开对应的mars文件。
1)打开mars(一般建议收费版的),
3)点击pdf图层,
4)选择你要采集的网页地址:查看对应网页:这里我抓取了上面4个网页的四个图片,其实也可以采集mars下的图片。找一个合适的网站,以迅雷抓取的方式为例:打开迅雷抓取的方式:(我就不传谷歌浏览器了,免得被谷歌抓去了机器人并自动认为我有推广费,
5)选择你要抓取的图片格式:
6)最后一步,采集结束如果采集不了的话,