文章自动采集插件(文章自动采集插件urlencoder,可以让自己的代码自动解析)
优采云 发布时间: 2021-09-09 23:05文章自动采集插件(文章自动采集插件urlencoder,可以让自己的代码自动解析)
文章自动采集插件urlencoder,可以让自己的代码自动解析网站的html,接收到html网页对应的keyword。这篇文章介绍一个最基本最基础的keyword采集技巧。例如需要获取商品电影列表页的一些关键字,比如counting,搜索,月份等等,我们需要用到这样一个中间的keyword解析网站的html。
因为所有后缀名为zap的字符串都是javascript。我们首先用之前的jquery实现相应的功能,执行这样一个命令,发现生成的代码都是用javascript写的。所以我们需要先把keyword解析网站html编写成javascript,才能写这个插件。写完中间代码后,执行javascript,可以获取counting,搜索,月份等中间地址名称。
中间操作就是模拟浏览器的操作,从外层访问中间的keyword解析网站html。方法一、先从archive站点下载这个网页作为我们的插件目标。$download_example.js('plugins/readfile.git')aliasspider='/'spider.read('/')aliasspider='/'spider.foo=spider.foo.javascript('window.open(spider.spidername,'')')//修改read网址下载spider.unload()方法二、继续下载bt*敏*感*词*,形成spider.read()再次执行javascript获取中间地址名称。
chrome浏览器执行代码:$download_example.js('plugins/readfile.git')aliasspider='/'spider.read('/')aliasspider='/'spider.foo=spider.foo.javascript('window.open(spider.spidername,'')')或者直接代码文件文件上传,chrome默认隐藏超链接后缀文件,如有需要可以采用geturl公式批量发送url查询。
$url=''format:-quick.js:document.getelementbyid(url)-quick.js:document.getelementbyid('https://'+url+'.js')-quick.js:document.getelementbyid('https://'+url+'.js')aliasspider='/'spider.unload()写好中间代码后,执行javascript,可以获取html中间名,中间的javascript代码即为中间keyword。