采集域名工具

优采云发布时间: 2020-08-14 04:03

　　解决办法：

　　打开config.ini，然后另存为asicii编码就行了。

　　效果演示

　　为了采集教育网址，我的配置文件如此写

　　[User]

whoami = Langzi

[Config]

title = 学

black_title = 政府

url = .edu.cn

black_url = None

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 1

　　然后右键启动主程序，因为我之前没有采集网址，所以我输入 1 ，提示输入关键词，我输入【教育】，然后开始手动采集程序。然后打游戏去了，过了会儿本地多了三个文本，分别是依次保存的结果。按照时间排序，越前面的文本采集的结果最全面。放在服务器里面挂机三天去重复后采集了4W多个教育网。

　　Lang_url 自动化采集0.96 版本

　　重点在这里：

　　track = 1

# 设置 0 表示对传入的网址不采集友链，直接对传入网址进行动态规则筛选

# 设置 1 将会对传入网址进行友链采集，并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 对结果重复继续重复爬行友链次数

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的在进行友链爬行采集一次

# 设置 2 会对采集的在进行友链爬行采集两次

# 设置 3 会对采集的在进行友链爬行采集三次

# 设置 x 会对采集的在进行友链爬行采集x次

# 设置 forever大于0 的前提条件是track=1

【** 注意，forever 大于0 的前提条件是track = 1，即必须开启自动爬行友链的前提下才能启用无限采集功能 **】

【** 注意，如果不想采集友链不想多次采集，仅对自己的网址文本进行规则过滤的话，设置forever = 0，track = 0**】

【** 注意，如果设置track=0，forever=1或者大于1的话，效果和forever=0，track=0 效果一样，所以请不要这样做**】

【** 注意，如果设置track=1，forever=0的话，效果为要进行友链采集但没有设置采集次数，所以请不要这样做**】

　　也就是说：track(友链爬行)只有0(关闭) 和 1(开启)这两个选项，forever(爬行次数)有0-1000(0-无穷大的正整数)选项。

　　如果要对自己手里的网址只进行规则过滤的话，设置forever=0，track=0

　　2018年9月5日00:12:46

　　修复一个功能，当设置所有的过滤规则 = None的时侯，随后track=1，forever= 大于0的正整数。即不对网址进行规则过滤，只会提取网页的所有网址之后保存到本地。

　　这就意味着你可以如此设置

　　[User]

whoami = Langzi

[Config]

url = None

black_url = None

title = None

black_title = None

content = None

black_content = None

thread = 100

timeout = 5

track = 1

forever = 8

　　作用：不检查规则，直接提取页面中所有网址。

　　随后导出网址，进行友链爬行，爬行8次，采集很多的结果。然后把所有的结果汇总，再设置自定义规则进行本地文件过滤也是可以的。使用方式有很多种，具体需求怎么就要看你如何操作了。

　　Lang_url 自动化采集0.97 版本

　　2018年9月6日18:13:40

　　修复一个功能

　　新增一个功能

　　设置 white_or = 1 表示所有的白名单(url，title，content中，只要其中一个满足条件就保存到本地，即url = www，title = 国际，content = langzi，只要网址中出现了www就保存到本地)设置 white_or = 0 表示所有的白名单(url，title，content中，三个条件都要满足才能保存)

　　暂时没有黑名单或与机制。

　　2018年9月7日20:28:33

　　修复多次采集问题

　　Lang_url 自动化采集0.98 版本

　　每次扫描的时侯就会在当前目录新建一个文件夹，文件夹内即爬行检查后的网址，并且上面有一个result.txt，这个文本文件就是所有的符合规则的网址。

　　2018年9月9日22:42:11

　　2018年9月10日22:06:22

　　最新下载地址

　　解压密码：

　　Lang_url 自动化采集0.99 版本

　　一些有意思的小特点

0

2020-08-14

关键词采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集域名工具

0 个评论

发起人

AI时代内容工厂

采集域名工具

0 个评论

发起人

相关问题