采集域名工具
优采云 发布时间: 2020-08-14 04:03解决办法:
打开config.ini,然后另存为asicii编码就行了。
效果演示
为了采集教育网址,我的配置文件如此写
[User]
whoami = Langzi
[Config]
title = 学
black_title = 政府
url = .edu.cn
black_url = None
content = None
black_content = 政府
thread = 500
timeout = 5
track = 1
forever = 1
然后右键启动主程序,因为我之前没有采集网址,所以我输入 1 ,提示输入关键词,我输入【教育】,然后开始手动采集程序。然后打游戏去了,过了会儿本地多了三个文本,分别是依次保存的结果。按照时间排序,越前面的文本采集的结果最全面。放在服务器里面挂机三天去重复后采集了4W多个教育网。
Lang_url 自动化采集0.96 版本
重点在这里:
track = 1
# 设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选
# 设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选
forever = 1
# 对结果重复继续重复爬行友链次数
# 设置 0 表示不会对采集的结果无限重复采集
# 设置 1 会对采集的在进行友链爬行采集一次
# 设置 2 会对采集的在进行友链爬行采集两次
# 设置 3 会对采集的在进行友链爬行采集三次
# 设置 x 会对采集的在进行友链爬行采集x次
# 设置 forever大于0 的前提条件是track=1
【** 注意,forever 大于0 的前提条件是track = 1,即必须开启自动爬行友链的前提下才能启用无限采集功能 **】
【** 注意,如果不想采集友链不想多次采集,仅对自己的网址文本进行规则过滤的话,设置forever = 0,track = 0**】
【** 注意,如果设置track=0,forever=1或者大于1的话,效果和forever=0,track=0 效果一样,所以请不要这样做**】
【** 注意,如果设置track=1,forever=0的话,效果为要进行友链采集但没有设置采集次数,所以请不要这样做**】
也就是说:track(友链爬行)只有0(关闭) 和 1(开启)这两个选项,forever(爬行次数)有0-1000(0-无穷大的正整数)选项。
如果要对自己手里的网址只进行规则过滤的话,设置forever=0,track=0
2018年9月5日00:12:46
修复一个功能,当设置 所有的过滤规则 = None的时侯,随后track=1,forever= 大于0的正整数。即不对网址进行规则过滤,只会提取网页的所有网址之后保存到本地。
这就意味着你可以如此设置
[User]
whoami = Langzi
[Config]
url = None
black_url = None
title = None
black_title = None
content = None
black_content = None
thread = 100
timeout = 5
track = 1
forever = 8
作用:不检查规则,直接提取页面中所有网址。
随后导出网址,进行友链爬行,爬行8次,采集很多的结果。然后把所有的结果汇总,再设置自定义规则进行本地文件过滤也是可以的。使用方式有很多种,具体需求怎么就要看你如何操作了。
Lang_url 自动化采集0.97 版本
2018年9月6日18:13:40
修复一个功能
新增一个功能
设置 white_or = 1 表示所有的白名单(url,title,content中,只要其中一个满足条件就保存到本地,即url = www,title = 国际,content = langzi,只要网址中出现了www就保存到本地)设置 white_or = 0 表示所有的白名单(url,title,content中,三个条件都要满足才能保存)
暂时没有黑名单或与机制。
2018年9月7日20:28:33
修复多次采集问题
Lang_url 自动化采集0.98 版本
每次扫描的时侯就会在当前目录新建一个文件夹,文件夹内即爬行检查后的网址,并且上面有一个result.txt,这个文本文件就是所有的符合规则的网址。
2018年9月9日22:42:11
2018年9月10日22:06:22
最新下载地址
解压密码:
Lang_url 自动化采集0.99 版本
一些有意思的小特点