蚂蚁搬家登录了网站就能获取其采集下来的内容?
优采云 发布时间: 2022-06-16 10:06蚂蚁搬家登录了网站就能获取其采集下来的内容?
自动采集文章网站。我用的是蚂蚁搬家,只要登录了网站就能获取其采集下来的内容,还是挺方便的。可以试试,这个方法挺实用的。
1、打开浏览器,登录自己的网站。注意的是在登录自己网站之前必须做好防爬措施,登录的时候可以直接填写网站的基本信息。
2、导入以下文件到网站备用,其中ccxf是网站的scss脚本文件,brew.exe是js脚本文件。
3、把ccxf、brew.exe放到自己webpack.base.conf.js目录下,并且放在根目录下。具体的路径可以自己去斟酌下。注意:brew.exe需要首先在本地运行,或者有文件安装到conf.js目录下。
4、安装完毕后,把你webpack.base.conf.js添加到webpack打包配置文件中。注意:要先确保已经安装好了jquery.js等js,并且已经在webpack.base.conf.js文件中开启scss的src目录。
5、在项目根目录下创建一个以index.js为文件名的scss,文件内容如下:我们可以看到在index.js文件中的内容里包含了jquery.js。这样就不用再config.js文件中继续包含jquery.js了。
6、需要使用到两个package.json配置文件:
1)module.exports={version:'1.0.3',//项目版本
2)manifest:{min:'3',max:'6'},//项目的内存大小由于css和js都是动态加载的,要想不再config.js文件中出现jquery.js必须要对应好项目的最大内存大小。我的项目最大容量是128m,所以这里我给出的建议是在页面初始化的时候就要设置好内存的容量。所以文件大小就是jquery.js页面中包含的html字符数+css大小+js节点数。如下图所示。下面来看下效果图:欢迎大家一起交流~。